Category 博易-博易新闻

吐血整理写论文时发现的神仙网站,老师学生都适用!(文献下载、翻译、数据分析、查重等免费神器)

高能预警!这篇文章将无偿分享吐血整理写论文时需要用到的神仙网站,分为七个部分介绍:

  • 文献检索及下载
  • 作图工具
  • 翻译神器
  • 数据网站
  • 文本数据分析工具
  • 数据检查工具
  • 论文查重
 

实不相瞒,小编三月的时候放请了一个长假,不是为了蜜月,不是为了旅游,不是为了放空自己,是因为要交毕!业!论!文!了!因为小编除了是社畜外,还是名副其实的硕士研究僧。所以在这20天假期里,我吭哧吭哧,没白天没黑夜地写论文,各种找资料,阅读和翻译文献,分析数据,跑数据,查重……说不痛苦是假的。

 

但是!我最后还是赶在了deadline前完成了我的毕业论文。几个得知我论文进度的同学,惊讶于我的写作速度。当然,最让我开心的是,指导老师评价说,论文写得不错!

 

我知道不少同学还在拼死拼活赶着论文,舍不得让你们那么痛苦,忍不住要分享写论文时发现的神仙网站给大家,以弘扬让研究更容易的精神,让每一个快溺死遨游在论文学海里的莘莘学子,都能够早日成功脱离苦学海!

 

鉴于我(专业是传播学)和大家可能存在学科差异,以下的分享未必完全适合每位朋友,但是一些大家都会需要的查找资料,下载文献,查重什么的神网站,答应我,真的就不要错过了好吗?!还有翻译、数据获取、文本分析的优秀网站,大家就各取所需啦~也可以顺手转发给你知道可能需要的人,救救那些毫无头绪的孩子吧!

 

01 文献去哪找?在哪下?

 

在开始一篇论文前,肯定是需要进行大量的文献回顾,下载论文的动作必不可少。一般学校图书馆的内链,都有入口可以让本校在读学生及老师免费查阅和下载全文。

但除此之外,还能通过哪些方式搜索和下载呢?小编吐血整理和独家私藏的一些很哇塞的网站分享给大家~

 

在文献检索和下载的网站中,它们在中英资源优势上存在差异,所以小编以其优势分类网站。

英文文献检索及下载网站(具体网址见下文):

  • 谷歌学术镜像(有了它,文献搜索不怕有墙)
  • Sci-Hub(绝对是英文文献下载的神网)
  • Library Genesis

 

中文文献检索及下载网站(具体网址见下文):

  • 百度学术(中文论文较齐全)
  • 绍兴图书馆(内有万方、维普等数据库)
  • 广西壮族自治区图书馆电子资源平台(内有百度学术、万方、维普数据库及1994-2020年知网数据等)

 

中英文献检索及下载网站(具体网址见下文):

  • 浙江图书馆(不愧是大浙江,数据库资源就是丰富,方正、万方、维普、知网等等,还有EBSCO!盘它!)
  • iData知识搜索
  • Open Access Library

注:其实中英文文献都可以在上面的网站搜索哒~只是小编认为,不同的网站中英文文献的丰富程度会不一样,所以根据自身需要选择对的,可以节省时间哦!

下面小编会具体地展示一下各网站以及如何才能利用该网站下载文献。

 

谷歌学术镜像网站:

  1. 熊猫学术(https://sc.panda321.com)
  2. 烂番薯学术(https://xueshu.lanfanshu.cn)
  3. 镜像导航网站(https://ac.scmor.com)

最后这个导航网站,里面不仅包含多个学术镜像的入口,还有各种论文检索和Sci-Hub下载入口呢!!用过的同学都知道Sci-Hub可是个好东西,这次写论文没少帮小编忙,尤其是下载英文论文上还是相当给力的!快戳!!

 

浙江图书馆

(https://www.zjlib.cn)

需要先申领读者证,才可以登入网站中的数据库下载哦。

读者证申领方式:打开手机“支付宝”→搜索“浙江图书馆”→ 点击“关注生活号”→点击“服务” 中的“加入卡包” →点击“确认授权” →点击右下角的“办理读书证” →输入及确认密码→完成!

 

使用方式:打开网站并在右上角输入读书证号(可以在支付宝的卡包中找到读书证及其号码)和刚才设置的密码→登录后点击进入页面右下方的相关数据库,接着就尽情搜索下载吧!

 

绍兴图书馆

(https://www.sxlib.com)

绍兴图书馆的下载文献方法与浙江图书馆的方法类似,需要先在支付宝申领读书证。

读者证申领方式:打开手机“支付宝”→搜索“绍兴图书馆”→ 点击“关注生活号”→点击“服务” → “办理读者证” →输入及确认密码→完成!

使用方式:打开网站并登录,然后就可以使用数据库并下载啦!

 

杭州图书馆

(https://www.hzlib.net)

同样也需要先办理阅读证。

阅读证申领方式:打开手机“支付宝”→搜索“借阅宝”→ 点击“关注生活号”→点击“图书馆” →选择“浙江省杭州市”再随意选择一个图书馆 →点击“在借中”→输入及确认密码→点击“确认注册”→完成!

 

使用方式:进入网站后,在右上角先登录,账号是身份证号,密码是刚才设置的密码。再点击右侧的“电子资源”,然后进入到“数据库”的“CNKI”。任意选择新版或者旧版进入,接着就可以自由的搜素和下载啦。

 

广西壮族自治区图书馆电子资源平台

(http://res.gxlib.org.cn/ermsClient/browse.do)

使用方式:从该网址进入以后,选择想要进入的数据库中的“包库入口”或者“镜像入口”都可以,若未注册过用户或登录,需要先注册/登录后,才可以在对应数据库进行检索文献及下载。

有了上面这一溜串儿的资源,写论文的时候就不会不再“囊中羞涩”啦!快快快,都给我用起来!!

 

02 作图工具

在写研究问题的时候,有时候可能会涉及到流程图或者模型示意图,这个时候,就少不了一些需要作图的工具。小编推荐ProcessOn,它支持在线创作流程图、思维导图、组织结构图等等。

真的是个好东西,绝对能让你惊喜!

 

03 翻译及英文论文写作神器

当哗哗一顿操作,下载了一堆文献发现阅读起来真头大?给大家诚心推荐一些我使用起来觉得很不错的翻译网站!还有英文论文写作的神助攻网站哦。

翻译网站(具体网址见下文):

  • 百度翻译(别着急否定它,有亮点!)
  • 彩云小译
  • 翻译狗(这名字有点意思)

英文论文写作神器(具体网址见下文):

  • 术语在线(权威术语,还有术语图谱)
  • Linggle(无数人裂墙推)
  • Netspeak(单词记忆困难户的救星)
  • Academic Phrasebank(真·宝贝)
下面小编会具体地展示一下各网站以及各网站的亮点。

百度翻译

(https://fanyi.baidu.com)

虽然,不少朋友都觉得百度翻译在准确度上一言难尽,但是小编认为它真的有个大亮点,那就是可以免费翻译上传的文档(pdf,word,ppt,excel,jpg),而且还能够中英对照,只要鼠标放置在想要查阅的那句话上,就能对应看到它的翻译!重点是还不限字数!可以免费下载翻译档!用了之后我立马真香~

当然也有美中不足的地方,有些文档上传的时候会提示“文档已加密”或“解析失败”。但支持中英逐句对应让我太爱了,所以还是愿意推荐。

因为支持图片翻译,所以有的时候除了用它来做翻译外,还会直接把它作为图片文字识别的工具使用!文字识别的准确度(包括小语种)以及翻译方面,体验都还是蛮不错的呢~

 

彩云小译

(https://fanyi.caiyunapp.com)

彩云小译也支持上传多种格式的文档,像pdf,word,ppt,excel,txt,如果超过200页的文档就需要拆分成小文档。

它虽然也支持中英对照,但是只能做到段落的对照。

 

翻译狗

(http://www.fanyigou.net)

它同样能够支持多种类型文档上传翻译,只是在中英对照上的比刚才那两个更弱一些。虽然也有图片翻译,但是会有图片大小及免费翻译张数的限制。

 

说完翻译,接下来想给大家推荐几个英文写作的绝佳帮手。首先是词汇方面:

1.术语在线

(https://www.termonline.cn/index)

它是由是全国科学技术名词审定委员会(具权威性)打造的术语知识公共服务平台,涵盖了历年来新增的规范名词、科技新词、工具书名词等等,同时还包含其他官方机构发布的规范成果,总数据量近百万条。它还可以提供查询术语的图谱,让我们可以更快地把握术语涉及学科、相关词等。

 

2.Linggle

(https://www.linggle.com)

它能够完美解决词组搭配的问题,让你知道词组搭配是否存在,以及是否地道。例如我想知道“disseminate”与什么名词搭配,输入“disseminate n.”,点击搜索,所有disseminate的动宾搭配,尽收眼底。

还可以查包括短语是否存在,应使用什么动词和介词等等。搜索的方式也可以戳这个链接(https://zhuanlan.zhihu.com/p/64115657)。

 

3.Netspeak

(https://netspeak.org)

它对于在单词拼写记忆上遇到困难的童鞋而言,简直是救星。

网站对于搜索符号也有使用说明哦。

 

4.Academic Phrasebank

(https://www.phrasebank.manchester.ac.uk)

在解决完词汇的问题后,这个网站便可以帮忙解决句子和表达的问题。它就相当于一个英语论文词句的模板库,对论文的每一个部分(比如:前言、参考文献、研究方法、结果阐述、讨论、结论等等)都有细致的范例,收录了丰富的学术写作短语、句型,并且罗列了超多例句,可供参考。

有了上面的这些小帮手,相信前方的路会好走很多~

 

04 最强数据网站合集

有时候写论文过程中,也需要一些数据的支撑,这时候可以去哪里找对应的数据呢?给大家安利一个史上超强的数据网站合集(http://hao.199it.com/),可以说是得它者得天下!简单放几张让大家感受一下~

 

 

05 文本数据分析工具

1. DiVoMiner®文本大数据挖掘与分析平台

(https://me.divominer.cn)

小编这次毕业论文用的是内容分析法,如果你和小编一样,同样有对文本进行分析的需求,那么这个工具你真的不愿意错过!!!(说绝对不存在王婆卖瓜自卖自夸,emmm…确实不够真诚。但小编保证,私心最最最最多就占个一成…不会再多了,就且听我说说推荐的理由,毕竟我和导师介绍了它之后,她也安利给了其他学生呢!)

做文本分析让小编苦恼的事情之一就是,市面上的文本分析工具基本都是PC软件,而且都是有免费使用的期限。虽然小编也很想尊重知识产权,购买软件支持一下,可奈何钱包干瘪,只好寻觅其他工具……这时候,divominer®️就像一道厉害无比的闪电,帮忙劈裂了阻碍在前行道路上的大石头。因为它…终身免费免费版可以使用全部功能!只是免费版在分析的数据量上会相对紧张一些(不过想要更大的数据容量,留言给小编,小编免费提供~太想让你们体验一下研究可以更容易的那种快感)。而且它可以直接云操作,打开网页输入账号密码就可以使用了!还能实现分权限管理账号,像是编码员权限就只能有打开编码相关界面,而管理员则在权限上会更丰富,有数据管理、类目管理等权限,这样子就不用担心编码员会误删数据又或者有其他什么误操作了。整个过程编码员们也无需面对面,都是各自找时间在线上完成就可以了,强大的团队协作管理功能也是让我爱了。

不仅如此,这个平台完全是支持以符合学术的标准流程进行文本分析,还能够做到分词、情感分析、语义网络分析、多语种分析以及数据可视化。在平台上完成文本分析后还可以直接生成多种图表,如直方图、条形图、雷达图、热力图、桑基图等等,或者进行一些如卡方分析、回归分析等。

小编在使用这个平台时,觉得有许多功能都设计的非常贴心!!举例两个在信度测试方面让我好感倍增的功能:一是测试回看方面,小编和另外一个编码员在信度测试完成后,需要“对答案”,以讨论我们在编码上的不一致,这个平台就可以让你随时翻看编码员在编码上的差异,并且可以用关键字快速搜索想要查找的那条数据。测试的结果也可以直接导出来,在excel上查看。

 

二是信度计算。在写论文的时候,因为需要汇报编码员间的信度,有了这个平台,你也不再需要去自己计算了,它已经帮你统计好了!!!相信自己手动计算过信度的人都知道,这是一件多么苦难的事情…尤其对于文科生而言,都是泪o(╥﹏╥)o。平台附带的这个小功能也让市场上统计信度比较理想的PRAM软件完败。

 

参考的信度指标也提供了多种选择,在信度统计上,选择编码员后,就可以看到他们之间的复合信度,以及某道题,某道题中某个选项的信度。查看具体的信度水平,也助于我们更快地定位编码员间选择上不一致的地方。并且使得在论文中汇报各题的信度成为了一件十分便捷的事情!平台还有很多很多的好,你们用了自己就能体会到了!不吹不黑。

 

平台也有提供一些参数检验分析,如果有需要也可以再用SPSS为论文继续添彩。该平台还支持下载可以直接导入SPSS的数据格式,方便贴心极了!

 

2. SPSSAU

(https://spssau.com/indexs.html)

这个网站是一个在线统计分析网站,是小编之前搜SPSS资料时,无意中发现的,然后尝试使用了一下,感觉也是一个挺善意的网站。

它提供了200类分析方法,并且支持以“拖拽点一下”得到分析结果,这种“傻瓜式”的这种分析,极大简化了用户在使用SPSS上的操作步骤,可以说是相当友好。

 

 

06 数据检查工具

小编这次的论文就涉及到一些统计值的粘贴。我担心会一不小心就复制错了,二次检查又怕自己瞎看不出来,于是上网一搜,找到了个好东西,感谢知乎热心网友@曾笑语的分享。

statcheck(http://statcheck.io)

它能帮你检查复制到论文里的统计值有没有出错。有时候我们论文里可能会用T检验、F检验、回归分析处理数据,然后需要把统计值(T值/F值、自由度、P值、效应量)复制到论文里。

在图表数据多的时候,一不小心就可能把上一个分析数据复制到下一个,或者把T值复制成了P值。statcheck会基于你提供的检验统计值(比如T值、F值)以及自由度,来重新计算一遍P值,并将重新计算的P值和你提供的P值进行比较,来判断你有没有复制错统计值!有了它会很安心对不对!强推心理学专业的同学了解一下。

 

 

07 论文查重

当“跋山涉水”终于快到终点(写完论文),先不着急说Oh Yeah!兄弟姐妹们,查查查查重了吗?这时候是不是又觉得钱包一紧?都给大家准备好了,免费查重招式,你还不学起来吗?

1. PaperTime           

 (http://www.papertime.cn/freeActivity/index.html)

2.PaperFree                         

 (https://www.paperfree.cn)

上面这两个都是关注微信公众号就可以免费查重。

3.查查呗

(https://www.paperccb.com/)

每天免费一篇。

4.智能查重内容重构

(https://www.zhihu.com/question/35931336)

它通过智能算法,分析全网文字内容同质化数据、检测内容重复度的工具。


这回,一张图搞明白常用的文本数据研究工具

上次介绍了以文本数据为对象的多种研究方法,包括内容分析法、扎根理论、文本分析、话语分析,你都搞明白了吗?点击这里回顾选择好了符合需求的研究方法路径,又该如何找到合适的研究工具(给力武器)呢?今天我们就梳理各类型的文本数据分析工具(一口气整理了8种),汇总社科研究中较常见的文本分析软件,对比功能和优劣,快跟选择困难症说拜拜啦。

 

先说结论,敲黑板!到底怎么选择文本分析的研究工具?

  • 首先看研究目的、选研究方法,想要做扎根理论或纯质化研究,优先选择NVivoATLAS.tiMAXQDA,范围缩小到三选一,然后看对软件价格的承受能力,比较个人对使用界面和操作方法的偏好。

  • 想要做文献分析选择免费的CiteSpace,可以对接著名文献资料库的数据,方便友好。

  • 想要做社交网络分析选UCINET,免费、使用门槛低,优点明显,但是中小型数据样本出图效果比较好,大体量的数据可能用起来不那么顺手。

  • 要做内容分析法,尤其是从定性到定量,或者语义分析、文本分析,那么DiVoMiner®是同时可以兼顾的选择!

  • 愿意自己动手、不畏惧自学编程、不怕困难不怕繁琐的朋友,毫无疑问建议试试看PythonR语言,功能强大,一剑在手,达到高阶的文本分析和数据统计效果不用愁。
根据各产品的介绍官网公开信息,从适用的研究理论/场景、基本功能、编码方法、操作难易、支持的数据格式、产品形式、处理数据量、语言兼容和费用等方面汇整了软件/平台的情况,比对之中看出何者更适合。

下图内容较多,可以下载图片后旋转查看。

 

看完对比图,可以发现,各路工具的本质区别是定位不同,设计时采用的方法论和理念不同,要根据具体的研究目的和文本处理的需求来选择合适的工具。不同工具呈现出迥异的功能风格。典型的文本处理软件,如NVivoATLAS.tiMAXQDA的设计理念则较为接近,适合做扎根理论,优势在于分析无结构的访谈资料,侧重在质化分析框架,也可以用在混合研究方法中,编码架构由下而上。而DiVoMiner®主打文本大数据挖掘与分析平台,以大数据技术辅助内容分析法为核心,采用自上而下的编码架构。CiteSpaceUCINET分别是用于文献分析网络关系分析两种细分研究领域中,都是以特定类型的数据为分析对象(文献数据和社会网络数据)。PythonR语言则是另一类研究工具的代表,属于编程语言,功能强大,对用户的基础编程技能要求较高。

 

在使用门槛方面,DiVoMiner®NVivoATLAS.tiMAXQDACiteSpaceUCINET操作上相对傻瓜,界面友好,不需要编程技能也会用。而Python的学习难度相对最大,尤其是对于计算机编程能力普遍不够强的社科研究者来说,学习Python需要决心、恒心和毅力,当然学会了就像开挂,可以自己写出程序的还是很有成就感的!

各类工具的使用教程资源的丰富程度虽有不同,但上述工具基本上都可以找到在线的视频教程。NVivoATLAS.tiPython有大量的网络视频教程,甚至有系统的付费课程。但像MAXQDACiteSpaceUCINET的教程主要是来自其官方的文字版教学指南,也有一些热心网友在B站或知乎上分享这些软件的基本教程。

DiVoMiner®在官网上提供自带的免费教程和指引,学习成本极低,上手很快,3小时就能学会基本流程用法。所以,在工具使用的教学资源上,大家是无需担心的,有心学就不用怕啦,总能找到学习的富矿!

 

产品形式方面,上述工具基本都是PC软件,只要有电脑设备就可以使用,无需考虑网络环境。但是当遇到更换电脑设备时,就需要考虑数据保存及导入的问题。由于是安装软件,所以对于电脑配置有一定要求,当数据量过大时,也可能会出现不稳定状况(电脑掉链子,数据丢失,这种痛有没有经历过?)DiVoMiner®是云平台,只要有网络,就能够实现随时随地可以打开浏览器开始做研究,处理数据速度快,摆脱了单机设备的运算能力的限制,突破大数据计算的天花板。

 

看完之后,相信对各类常用的文本数据研究工具已有一定的了解,选择一款最适合的研究工具为你的学术之路保驾护航吧~


一张图搞明白内容分析法、扎根理论、文本分析、话语分析的区别

做研究写论文,免不了需要选择符合研究需求的研究方法,内容分析法、扎根理论、文本分析、话语分析的区别,有不少小伙伴都表示存在疑惑。今天,我们就用一个简单的对比表格,来看看它们之间的异同吧。

从上表可以看出,以上四种研究方法最本质的区别在于研究方法性质和文本分析逻辑上的差异。内容分析法是属于定量研究方法,借由数理统计对文本内容进行量化的分析与描述,其产出结果通常为数据及其说明,走数理统计路线。而扎根理论和话语分析都是属于定性研究方法,走的是文哲史的思辨路线。文本分析根据具体操作不同,可以是定性或者定量。

 

分析逻辑上,内容分析法采用演绎法,对质化文本进行量化处理。编码前,先形成系统性的分析框架/编码类目,再对文本进行分类,需要严谨的编码员间之信度测试过程。而扎根理论、文本分析和话语分析等定性研究采用归纳法,根据文本内容而定分析理论,编码和分析过程主要依据研究者自身的经验及研究水平。编码前没有预设的编码类目/分析框架,不涉及编码员间之信度测试。

 

更具体地说明,文本分析和话语分析旨在运用符号学、结构主义和语言学的分析方法来分析文本的结构与意义,对文本内容进行不断的挖掘、发现、探索意义的不同,解读方式和文本中所隐藏的意识形态力量;在扎根理论则是强调经验证据,通过建构主义由资料为基础总结和发现理论,将数据作为解释。相比之下,内容分析法则主要是运用数理统计学知识对文本内容进行量化的分析与归类,其研究目的在于用数据说话,描述文本表达内容的固有倾向和特征,或是用来做理论验证。

 

虽同为定性研究,但文本分析与话语分析也存在差异。文本分析的理论资源来自阐释学和人文主义,存在几种不同的研究取向,比如滥觞于英美文学批评的“新批评”法、以罗兰·巴特维代表的符号学分析法、着重于故事分析与叙述视角分析的叙述学分析法、兼顾宏观社会环境和微观文本解构的互文、对话理论分析法、德里达的解构主义、文本社会学研究方法和英国文化研究等。而话语分析的理论资源来自语言学与语义学。此外,文本分析相对微观,重视文本,话语分析相对宏观,不仅重视文本还兼顾文本所处的社会环境给其带来的影响。

 

操作流程上,内容分析法强调流程标准化,要求系统化、客观性、可量化,扎根理论、文本分析和话语分析无严格的标准化要求,没有信效度的要求。内容分析法可以由团队完成,配备研究员、督导和编码员等角色,灵活安排,角色之间也可能会有重叠和兼容的情况,比如研究员也充当编码督导,管理编码员工作。扎根理论、文本分析和话语分析以研究员自行分析为主。

 

当了解清楚上述四种研究方法的异同后,才能根据自身的研究问题,选择合适的研究方法。选择了对应的研究方法后,分析工具的选择其实又成了不少同学头疼的事情。不用担心!小编已经为大家准备好了一个特别适合的工具。它同时支持定量和定性分析,具备单变量和多变量分析、数据分析、显著性检查、词云分析、机器学习和其他统计分析功能。

无论你是想要做内容分析、文本分析,它都可以满足你的需要,如果你面对的是庞大、繁杂的资料,你就更需要这个平台,它可以助你更高效地分析各种文本,一站式满足你分析的各种需求。不少高校的师生,都在为它点赞!

它就是DiVoMiner®️文本大数据挖掘及分析平台,清华大学、汕头大学等师生都在使用的平台,你还不赶紧来体验一下?!


五年三千项社科基金成果告诉你,旅游研究风口在哪里

上次介绍了2021年度国家社会科学基金项目申报指南中的管理学方向课题条目,点这里回顾。本期以旅游作为解题方向,使用大数据技术辅助内容分析法分析过去五年的相关基金项目论文成果,为研究者提供文献参考和申报课题参考。

在最新的国家社会科学基金项目课题指南中,严格与旅游相关的条目涉及多个学科领域,是名副其实的“跨学科”研究方向,比如:

  • 应用经济:旅游发展与居民幸福指数研究、全域旅游中特色优势研究、边境旅游与国家安全治理研究、旅游业高质量发展和创新的动能与路径研究、旅游诚信体系建设研究等。
  • 统计学:信息化迭代背景下住宿与餐饮业的“长尾”效应研究等。
  • 民族学:民族地区文化产业、生态旅游资源开发研究等。
随着我国综合实力的不断发展,旅游业发展的重要性不言而喻,也就顺理成章地成为学术界具研究价值且具有现实意义的学术领域。

为此,我们分析了2016年至2020年这五年间,与旅游研究相关且获得国家社科基金的项目成果论文,并得到一些有趣的发现,一起来看看吧。

 

 五年间与旅游相关的研究热度升高

从论文成果上来看,除2016年至2017年,获社科基金的旅游研究项目成果论文数量有小幅下降外,2017年至2020年均逐年上升。可见,与旅游相关的研究热度越来越高。

我们不由好奇,到底学者们这些年都在研究旅游的什么方面呢?研究的侧重点又是否会发生变化?带着这样的疑问,我们进一步的对数据进行分析。

 

旅游相关的社科基金项目长啥样?

以2016至2020年与旅游相关获国家社科基金的项目标题作成词云图,得到下图:

 

旅游重发展

分析五年间相关的项目成果论文标题,可以发现“发展”是最核心的词语,说明课题项目研究主要集中于我国旅游的发展问题,且多以文化、经济、民族、体育的角度切入,关注生态旅游、旅游资源等面向。

值得注意的是,“发展”问题在五年来始终占据C位,说明旅游的发展问题,或将继续成为旅游研究中的热门角度。

 

搭上扶贫列车,奔向振兴大道

同时从标题重要表达词语也发现,研究的切入角度在五年间出现变迁,“文化”、“民族”、“体育”以及“城镇”、“ 差异”、“ 品牌”等用语占比呈下降趋势。

早几年被较多关注与谈及的“一带一路”、“丝绸之路”,其热度也开始逐渐消散

 

另一方面,五年成果论文标题用语升幅最明显的是“扶贫”、“振兴”等字样,相关的成果数量不断上升。这也是因为近年来扶贫工作是党中央、国务院的重要战略部署,从课题项目成果的数量上中也得到了体现。

脱贫攻坚战旨在2020年底前实现解决贫困地区和贫困人口核心问题,相关研究关注“乡村”及“村落”发展,重视“效率”

 

云南和广西是研究的重点对象

进一步分析成果论文涉及的地域信息,并制作旅游研究热点地图,发现较多研究涉及“云南”与“广西”,特色城市或自治县包括“大理”、“玉溪”及“桂林”、“北海”、“恭城”等是重点的案例城市

 

民族和文化是云南和广西旅游研究的亮点

把相关项目成果的标题作词云分析后,我们发现,较多学者会以该地区的民族性作为切入角度,如云南的哈尼族、傣族、白族,广西的侗族、瑶族等。围绕民族性,学者倾向于结合文化及经济的角度进行解读和研究。

亦有部分学者选择把“一带一路”战略及“扶贫”、“ 脱贫攻坚”执政方针带入研究中。对广西乡村旅游相关的研究频次较高

 

贴合国家战略、探索疫情下旅游的发展问题或为旅游研究之风口

在相关数据进行分析后,我们发现,黑龙江、吉林、山西、河北、天津等省市的旅游研究依然存在较大的空白

从研究主题词上看,研究与旅游有关的各种文化,如民族文化、各地区文化、文化遗产等越来越少

旅游的开发问题,区域、城镇化、差异化、品牌、市场概念在旅游的研究中也出现弱化的趋势

但反观一些与国家战略、国家重点工作相契合的研究,也容易突出重围,拔得头筹。在早些年是与一带一路、丝绸之路相关的研究,而在近五年脱贫攻坚的执政方针下,则是与扶贫相关的研究。若有相关研究思路的你,不妨果断出击。

如果你刚好有兴趣做相关的研究,希望这篇对相关数据分析的文章,能够为你的研究方向提供一些思路,也欢迎分享给更多有需要的人~


2020年,中国企业出海“走”得如何?

在指南的管理学学科中,有一个方向性的课题条目为“新时期中国企业‘走出去’研究”。我们就以此作为例,挖掘当中的一些有特点的数据。

 

早在2017年,团队小伙伴曾做过关于中国企业在海外新闻媒体中的形象研究,该论文收录在了《中国微传播指数报告(2018)》中(点击“阅读原文”获取论文原文)。当时的数据显示,海外媒体谈及最多的企业为阿里巴巴,其次是腾讯、新浪及华为。[1] 回望过去一年的数据,4年过去了,经历了贸易战和疫情后,我们不禁好奇,海外媒体对中国企业的关注会否发生什么变化吗?

 

海外媒体对中国企业的关注对象发生变化

通过分析海外新闻媒体的报道,我们发现,2020年海外媒体对中国企业的关注对象,在数据层面上确实与3年前有所不同。2017年,世界经济相对处于低迷期,而中国企业阿里巴巴的电商业务风生水起,腾讯亦以其微信产品吸引世界目光。但在过去几年中,华为作为中国领先的科技公司,因在贸易战中受到美政府打压,反而在世界舞台上备受瞩目。另一方面在疫情的大背景下,中国科兴亦因研制新冠疫苗而受到关注。值得注意的是,比亚迪作为中国汽车制造商,在2020年以前,世界知名度或许一般,但因其疫情转型生产口罩并出售海外,而获得不少海外媒体报道。

中国医药、制造业开始受关注

因2020经历疫情,我们通过分析后也发现,海外媒体开始更加关注中国的医药、制造行业。或许是因为经过疫情一战,中国的医药及制造业,尤其是在口罩生产方面,体现了其强大的生命力和竞争力,表现亮眼。
受这次疫情的影响,不得不说,全世界似乎都步入了一个“新时期”,无论是在出行、办公、生活方式上,都极大改变了人们过往的许多习惯。而在这个挑战与机会并存的时期,我们看到有如“比亚迪”这样的中国汽车生产制造商,抓住了机会,积极转型,并成功“走出”海外。
或许这样子的研究案例也值得许多企业思考,在特殊的时期下,可以如何把握机会,结合自身优势“走出去”。若企业利用其于海外新闻媒体之形象的相关研究,加之更具实用性与时效性的社交媒体的舆情分析,注重社交聆听,相信能为中国企业出海提供更多宝贵的建议,助力更多的中国企业出海!

2021年度国家社会科学基金项目指南历年热门选题

1月6日,全国哲学社会科学工作办公室于其官网发布了《2021年度国家社会科学基金项目申报公告》,新一年度国家社科基金项目课题申报又双叒叕开始了,小编第一时间运用大数据辅助内容分析法为核心的DiVoMiner®平台,为新闻学与传播学读者们快速整理了最近五年的立项指南题目,帮大家从动态角度解读项目选题的变迁,同时也希望能帮助有意向申请的学者们找到新时代适合自己的选题。

2017-2021年国家社科基金立项指南题目主题分类-新闻学与传播学专业

话不多说,小编先上个最近五年课题指南选题条目内容大合集,可以看到新闻传播、传统媒体、舆情、网络治理、媒体融合这些是近五年课题指南提及较多的条目。 

基金项目指南主题年度趋势

接下来看看每年的具体情况,可以看到“舆情”、“网络治理”近五年来皆为选题指南中较多涉及条目,今年最多提到的“智媒”的提及数量是逐年提升,颇受关注。(这里仅展示每年前十项,点击图片可放大)

小编对近五年新闻学与传播学国家社科基金立项指南进行了快速的整理,虽然指南和自选项目并不冲突,但从主题分类来看,指南项目研究紧跟时代变化发展,2021年智能媒体、舆情传播、网络治理研究获得较多关注

重点来了,小编我在下载好近五年国家社科基金项目指南excel表之后,仅用了1个小时就完成了从创建随时更新的数据库—自动分词及自建分类模型—机器编码—统计分析及可视化全过程,如果大家有遇到类似的文本数据分析,推荐使用DiVoMiner®,了解研究热点变化趋势。

【DiVoMiner研究方法课8】算法编码结果就这样接受吗?NO! NO! NO!

上一讲我们介绍了信度测试的各种小工具,以及如何计算编码员间的测试结果(点击回顾:【DiVoMiner方法课7】不用1分钟就计算好信度,我做了这件事)。但在面对文本大数据分析时,由于数据量庞大,针对客观表达较为清晰的文本,使用人工编码就显得过于低效。所以使用计算机及大数据技术辅助进行算法编码便成为不二之选。但如何评估算法机器人的信度呢?这一期,我们将揭开它的“神秘面纱”。

在大数据的时代下,做分析的数据量与以前相比,是不可同日而语。算法编码的出现,不免让许多研究者看到了希望。因为算法编码的优点是极为高效,可以在很短时间内完成数据分析。算法编码是指采用算法或计算机挖掘数据内部规则,来得出数据编码结果的方式[1]。它可以由研究人员设定编码规则,让计算机代为执行编码过程。因此,面对庞大的数据量,想要处理客观性文本表达时,算法机器人的介入成为一种实现高效的必然之选。

 

什么是大数据算法编码?

大数据算法编码,实际上是借助大数据技术进行算法编码,但这个过程中,依旧有人工的介入,只是人工介入程度较人工编码少。大数据算法编码通常是通过人工编码作为基准来实现的。这个过程基于这样的一个假设:人类对文本的理解仍然优于机器,如果训练正确,人类将对文本做出最正确有效的分类[2]。所以有人工设定高质量的编码规则,加之良好的编码员培训,可确保在传统的人工内容分析中的数据质量水平,也被视作内容分析的标准做法。

说到这里,不难发现,实际上算法编码的准确性依然依赖于人工介入的部分,尤其是人工对算法的设定规则,这直接决定了数据的质量。而算法编码只是由算法机器人执行,指引机器对文本进行关键词的自动化标注和自动化填答选项,以完成自动编码,借此提高编码效率。

 

算法编码也需要考虑编码质量的问题?

学者Song等人[3]指出,如果不能确保用于验证的人工编码的质量,则研究人员就自动化程序的性能得出错误结论的风险要大得多。可见,在使用算法编码时,信度测试是十分必要的!

但在不少研究中,算法编码的信度评估却被忽略。学者Song等人[3]表示,他们分析了73项使用文本自动分析的研究,当中有37项报告使用人工编码进行验证,但只有14项充分报告了人工编码数据的质量,有23项完全没有报告任何编码员间的信度。

可见,在目前文本自动分析的应用中,仍存在着完全不考虑信度,或未严肃对待信度的错误认知。但实际上,在使用算法编码做文本自动分析时,首先需要评估的信度,就是编码员间信度,因为自动文本分析的编码效度,实际上是依赖于研究人员对编码规则的定义水平[4],而它也奠定了机器学习的数据质量水平。

但确保了人工编码的信度后,并非就完成了对算法机器人的评估。而是应该再进一步,评估人工定义的规则,在算法编码中实现的情况。

在操作实践中,有研究者试图采用人机比对的方法,检验算法编码是否可以达到可接受水平。程萧潇[5]的研究团队随机抽取1%的样本作为检验样本(107篇),执行人工编码,对照大数据算法自动编码结果,计算信度,所有类目准确度均在0.87以上,显示大数据自动编码结果良好,可采用该结果作为解读依据(关于这项研究的详情介绍,请戳这里)。这一步骤是为确保大数据算法自动编码的准确程度。

张文瑜教授(2020)在一项健康传播的研究中[6],也采用类似做法,例如,同样随机抽取了1%的数据作为比对样本,由4位经过训练的研究助理完成人工编码的部分,且编码员之间信度达到Cohen’s Kappa = 0.78 (p < 0.001), 95% CI (0.604, 0.948)。最终人机对比一致性达到80%,证明算法编码结果可接受。(关于这项研究的详情介绍,请戳这里)

可见,在使用算法编码的正确操作流程应该是:先确保人工介入部分,即人工制定之规则的信度,再将其应用于算法编码中,并比较算法编码与人工编码的一致性,在两者达到一致性后,才可可采用算法编码结果作为解读依据。

 

用什么工具可以实现呢?

说了这么多,肯定有不少读者关心,那我们到底可以用什么工具评估算法机器人的信度呢?噔噔噔噔噔,主角登场!

DiVoMiner®上的信度测试功能,除了能实现对编码员间信度的评估外,同样可以评估算法机器人的信度

 

下面详细给大家介绍一下具体的操作流程:

第一步:人工设定算法的规则

【类目管理】-【新建问题】。

添加【选项】及其对应的【关键字】,即可设定算法规则。

第二步:建立测试库

【数据管理】-【编码库】-【随机导入到测试库】,即可完成测试库的建立。

 

也可以选中某一条数据,点击数据右侧的【测试库】单独导入到测试库。

 

进入到【测试库】查看已导入用以进行信度测试的数据。

 

第三步:做测试编码

所有编码员进入到【信度测试】-【编码测试】中,阅读文本,填写页面右侧的编码簿,点击【保存】完成编码。

第四步:评估信度

在我们完成编码后,信度结果即可实时查看!

待所有编码员完成测试编码后,在【信度计算】中,选择编码员和信度指标,点击【计算】,得到编码员间信度结果。

 

其次,我们选择编码员、机器人和信度指标,点击【获取机器编码信度测试结果】,再点击【计算】,对比人机一致性,若信度达标,证明算法编码结果可接受,则可让算法机器人分析文本大数据。

 

小提示

在利用算法机器人完成编码后,研究者也可以在【质量监控】中,查看或进一步修正机器编码的结果哦。

赶快来在你的研究项目中,尝试一下用算法机器人帮你解决所有文本分析吧,再也不用担心海量的数据啦!


【DiVoMiner研究方法课7】不用1分钟就计算好信度,我做了这件事

导读:上一讲我们介绍了大数据内容分析法中,不可或缺的步骤——信度测试。(点击回顾:【DiVoMiner研究方法课6】做大数据内容分析时,不可不做信度测试!)看完之后,有不少读者会好奇,做完信度测试后,又应该如何计算测试结果呢?这一期,小编介绍一下我们如何运用工具来帮助我们便捷地完成信度测试。

在正式介绍工具之前,先和大家回顾一下信度测试的基本流程: 

 

本文内容主要介绍如何计算信度系数?

当有两位编码员时,我们如何计算两位编码员之间的信度?
★方法一:
每两位同学登录同样的内容,然后依以下步骤进行信度计算:

  1. 登录的内容总件数:X
  2. 统计两位同学相同答案所占的比率:Po
  3. 计算各个答案所占的比率:a%,b%,c%,d%
  4. 将(3)的比率平方,然后加总 :
    (a%)² + (b%)² + (c%)² + (d%)² =Pe
  5. 代入以下公式计算出最终结果即可。
Po: 实际一致性Pe: 期望一致性

Pi: 信度系数

 

★方法二:
R: 相互同意度M: 两位编码员编码结果相同的次数

N1: 第一位编码员编码的次数

N2: 第二位编码员编码的次数

   当有多位编码员时,我们需要计算复合信度:

CR:复合信度n:编码人员数目

R为方法二求得

大家可以找到两位或多位编码员将信度测试的编码结果代入到以上的公式中进行计算。但相信不少读者看到这些公式的时候,就已经头皮发麻….

机智的读者会说:“都什么年代了?还手动计算?有专门的计算工具好吗?!”确实,除了这样手动计算信度系数外,我们也可以选择使用计算信度系数的工具。

 

有哪些工具可以帮我们计算信度?

★专门软件和小程序

  •   比较早期的是1984年的AGREE,用来计算Cohens kappa的付费软件。
  •   还有专门计算Krippendorffs alpha的Krippendorffs alpha 3.12a。
  •   较新的是可以处理多位编码员并可计算多种信度指标的PRAM,包括Percent agreement、Holstis reliability、Scotts pi等。
  •   网页版小程序ReCal,可在网页上直接在线计算信度,处理多位编码员,仅支持上传CSV和TSV文档,一次只能计算一个题目的结果。
统计分析工具
信度是数据分析和文本分析过程中不可缺少的一环,因而一些统计软件中往往会嵌入信度分析的功能,如在SPSS统计分析软件中,可以计算Cohens kappa,但在信度计算的环节,对表格的形式有一定的要求。
其他软件,如Simstat、QDA Miner v1.1都自带了信度计算的功能,可下载体验。以上的工具都是在信度测试过程中,计算信度结果时发挥作用的。

但如果按照传统的计算方法,我们需要借助的软件也实在是太多了吧?!在争分夺秒的时代,还要耗费大量的精力去学习不同的工具,时间成本确实是有点高。那么,是否有个工具可以让我们进行信度测试的整个流程呢?

当然有!!DiVoMiner®可助你一站式解决所有问题。

DiVoMiner®上的信度测试功能,为大家提供了从信度测试的准备工作开始到信度测试完成的整个流程,确保大家在平台上可以逐步进行信度测试,直至完成整个测试流程,而且每一个步骤都是透明可追踪的。不论你是第一次做信度测试,还是已经熟练了整个测试流程,都可以让你方便快捷地完成。

下面详细给大家介绍一下具体的操作流程:

 

第一步:建立测试库

【编码库】-【随机导入到测试库】,即可完成测试库的建立。
也可以选中某一条数据,点击数据右侧的【测试库】单独导入到测试库。
进入到【测试库】查看已导入用以进行信度测试的数据。
第二步:做测试编码

所有编码员进入到【信度测试】-【编码测试】中,阅读文本,填写页面右侧的编码簿,点击【保存】完成编码。
第三步:与其说计算信度系数,不如说查看信度系数

因为在我们完成编码后,信度结果即可实时查看了!
待所有编码员完成测试编码后,在【信度计算】中,选择编码员和信度指标,点击【计算】,得到信度结果。目前平台上提供了四种常用的信度指标,大家可任意使用哟~
小提示

总是有读者询问小编,到底信度结果要达到多少才能算是“理想信度”呢?其实,在学术上关于信度达标的硬性标准未有定论,信度会依据研究需求以及类目难度(主观性类目难度较大)有所浮动。下面是四种信度指标的可接受水平的参考范围,供大家了解。

第四步:编码校正

【编码跟踪】中便捷查询编码员的测试编码情况,看到编码差异,方便校正。
如编码员之间信度达到合理水平,则可以进入正式编码。如系数不佳,则需要重复多次测试编码,直到信度系数达致可信水平。
小提示

针对信度系数较低的题目,需对编码员进行重新的培训和指导,重新进行信度测试。
重建测试库的方法是,在【测试库】中【清空测试库】,测试库中的所有内容编码结果将随之全部清空。重新在【编码库】建立测试库,各编码员在新的测试库中重新进行独立的编码。
赶快来在你的研究项目中,加入编码员,开始信度测试吧! 


【DiVoMiner研究方法课6】做大数据内容分析时,不可不做信度测试!

导读:无论是传统的内容分析法还是大数据内容分析法,我们都需要两位或以上数目的编码员来进行编码工作,这些独立的编码员对一段信息或记录内容的特征(也就是记录单位)作出判断,并且达到一致的结论。这种一致性以量化方式呈现,称之为编码者间的信度。

 

上一讲我们介绍了什么是大数据技术辅助内容分析法,这一讲我们再来介绍一下使用大数据内容分析法中,一个非常关键、不可或缺的步骤——信度测试。

有的读者认为,使用大数据内容分析法,就是拿到数据后就可以直接编码。但没有经过信度测试的数据,真的能说服人吗?下面,让我们一起来看看,到底信度测试为什么如此重要。

什么是信度测试?

信度是指在研究过程中,测量数据所独立于测量工具的程度。即不同的研究者对同一现象进行重复测试后,所产生结果的一致程度。[1]
也就是说,如果测量过程要进行两次或多次,所得出的结论应该是类似的,这确保了内容分析的有效性或可靠性。
信度的测试可以在科学抽样的基础上进一步防范研究者对数据产生的影响,编码员之间信度可保证对数据较为一致的处理,使研究结果更为客观。

什么是编码间的信度?

在大数据内容分析中,我们需要两位或以上数目的编码员来进行编码工作,这些独立的编码员对一段信息或记录内容的特征(也就是记录单位)作出判断,并且达到一致的结论。这种一致性以量化方式呈现,称之为编码者间的信度[2]
既然大数据内容分析的其中一个目标是相对客观地界定及记录信息的特征,那么信度就攸关重要。没有建立信度,大数据内容分析的测量只是空谈[3]

为何信度如此重要?

编码者间的信度是衡量研究质量的标准,编码者之间的高度差异性表示薄弱的研究方法,包括差劲的操作定义、类目和编码训练[4]。通常我们研究的信息有显性的内容(manifest content)隐性的内容(latent content)。对于显性的内容,例如版面面积或者消息来源,很容易以客观的判断来达至高度一致性。但是,对于隐性的内容来说,例如报道态度或者价值观,编码员必须根据他们自己的思维系统作出主观的诠释。这样的话,编码员之间的相互主观判断变得更加重要,因为这些主观的判断结果要尽可能也让其他读者有相似的认知[5]
从现实的角度来看,编码员间的信度至为重要,因为高信度意味者决策者作出错误决策的机会相对减少[6]。编码员间的信度乃衡量一个内容分析研究效度的必要条件(虽然不是充分条件),没有信度,那么,该研究的结论便值得怀疑,甚至显得毫无意义。

怎么做信度测试?

可以利用必要的工具来计算信度指标,如手动(利用公式计算)或计算机程序。 我们以大数据内容分析法中进行编码员之间信度评估为例,具体的操作步骤如下:
第一,依据编码薄制作编码指引,编码指引需明确统一。帮助编码员熟悉议题,理解编码类目,保证所有编码员均理解类目所指代的含义。
第二,进行编码测试。选取少量样本作为测试编码之用的样本,这部分样本的测试编码过程中,各编码员需独立编码,不能相互讨论或指导。若使用了机器编码,则直接执行机器编码的信测测试(DiVoMiner®上只需点击该按钮即可一键完成机器编码的信度测试)。
第三,进行编码校正。测试编码结果如果未能达到理想信度,需重新测试编码。重新测试之前,对编码员再次进行培训和指导,尤其针对编码结果差异较大之类目,需再次给予说明。若有机器编码的部分,则需重新检查并修正编码簿各选项的关键词,尽可能完善类目的选项,再重新执行机器编码信度测试。
第四,正式编码。当所有编码员达至理想信度,即可开始正式编码。
编码员及机器编码信度测试流程
一个完整的信度报告应该包括以下信息:
  • 信度分析的样本数及理由。
  • 信度样本与总样本的关系:是总样本的一部分还是额外样本。
  • 编码员资料:人数(须为2或更多)、背景,研究员是否也是编码员。
  • 每名编码员的编码数量。
  • 信度指标的选择和理由。
  • 每个变量的编码员间之信度。
  • 编码员的训练时间。
  • 在总样本的编码过程中遇到不同意见时的处理方式。
  • 读者可以在哪里得到详细的编码指引、程序和编码表。
  • 要报告每一个变量的信度水平,不要只报告所有变量的整体信度。
小提示

目前,大概有39种不同的同意度指标[7],传播学界常用的有Percent agreement,Holstis Coefficient Reliability,Cohens kappa(k),Scotts pi(π),Cohens kappa(k),Krippendorffs alpha(α)。Holstis Coefficient Reliability是当前最流行的指标。

 

那么,怎么计算信度呢?

根据公式手动计算或者运用工具计算,比如专门的信度结果计算软件或小程序(AGREE, PRAM, ReCal),或统计分析软件自带的一些信度结果计算功能(SPSS)。

 

参考文献

[1] 艾尔·巴比(2005)。社会研究方法。邱泽奇,译。北京:华夏出版社,137-140;迈克尔·辛格尔特里(2000)。大众传播研究: 现代方法与应用。刘燕南,等,译。北京:华夏出版社,94-97;Zeller, R. A. (1979). Reliability and validity assessment. Beverly Hills, CA: Sage, 12.

[2] Lombard, M., Snyder-Duch, J., & Bracken, C. C. (2004). A call for standardization in content analysis reliability. Human Communication Research, 30(3), 434-437.

[3] Neuendorf, K. A. (2002). The Content Analysis Guidebook. Sage Publications Inc., California.

[4] Kolbe, R. H. & Burnett. M. S. (1991). Content-analysis research: an examination of applications with directives for improving research reliability and objectivity. Journal of Consumer Research, 18(2), 243-250.

[5] Potter, W. J., & Levinedonnerstein, D. (1999). Rethinking validity and reliability in content analysis. Journal of Applied Communication Research, 27(3), 258-284.

[6] Rust, R. T., & Cooil, B. (1994). Reliability measures for qualitative data: theory and implications. Journal of Marketing Research, 31(1), 1-14.

[7] Popping, G. (1988). Stone parting device. EP0283674.


【DiVoMiner研究方法课5】是时候学习大数据技术辅助内容分析法为核心工具!

导读:随近百年的进步,内容分析广泛运用在传播学、心理学、政治学、文学、历史学、人类学、语言学等各类学科中,已是社科研究中最重要的研究方法之一。那么问题来了,内容分析法到底要怎么做呢?在大数据背景下,内容分析法如何测量和解释大规模的文本数据?

有的读者认为内容分析法的全部意义就是统计关键词次数,或使用情感分析?[1]不太符合自己的研究需求;还有一些手握大量文本数据的读者,想要通过计算机对文本数据进行分词、编码,找出数据间的内部联系并进行假设检验、进行可视化呈现等等,却苦于编程基础较弱或是没有适合的工具。正是了解各位读者的这些错误的认知和困惑,小编就先带大家一起重温下大数据技术辅助在线内容分析法的内容,一步一步在掌握了研究方法的逻辑基础上,遵循学术规范,按照自己的研究设计,无需编程,做出“好”的文本大数据研究成果!

什么是大数据技术辅助在线内容分析法(BACA)?

内容分析法是社会科学研究方法中的一种对文本内容进行编码、分类、语义判断及形成可供统计分析之用的量化分析方法。它是指一种以系统、客观与量化的方式,来研究与分析传播内容,以测量及解读内容的研究方法。[2]将传统内容分析的操作流程搬到“线上”,结合大数据技术,用网络挖掘、机器学习、自然语言文本处理等实现文本数据的在线处理,使得内容分析法的全部流程在线一站式完成,大大缩短研究时间,提升研究效率,快速产出研究论文。

总而言之,大数据技术辅助在线内容分析法就是把杂乱无章的非结构化文本内容转化成结构化的数据,不仅可对文本数据进行质性的挖掘和解读,还可以解释数据过程(趋势、路径),使用交叉、聚类等方式解释变量之间的差异和关系,获得深度分析结果,回答研究问题、检验研究假设和建立模型。

 

DiVoMiner®简介

DiVoMiner®文本大数据挖掘及分析平台,遵循学术界认可的内容分析法全流程,以大数据技术辅助,一站式完成从数据上载、数据探索、数据检索、数据处理、类目建构、人工编码/大数据算法编码、信度测试到数据统计分析、算法模型、可视化结果全流程。

DiVoMiner®操作流程

上述方法操作流程是把非结构化内容转化成结构化数据的过程,简单来说就是对文本进行分类-赋值-统计分析,符合学术界通用的类目建构-编码-统计分析。当然,科学的研究方法需要严谨、系统的流程,以确保研究结果的有效,因此需结合信度效度的测试。下面这个图就是一个完整的大数据技术辅助在线内容分析流程图。
无颜色填充为传统内容分析法,绿色为计算机辅助内容分析法,黄色为大数据技术辅助内容分析法完成的。由此可见整个大数据技术辅助在线内容分析法[3]都可以在DiVoMiner®文本大数据挖掘及分析平台上进行,在确保研究流程科学、严谨方面,这个平台具有完备的质量控制机制,尤其是编码员间的信度计算程式清晰、自带学术界认可的四种信度计算方法并具有编码追踪功能,可以随时定位编码结果,所有的数据分析结果也可以追踪回溯至原文。

DiVoMiner®操作第一步创建话题

很多读者不明白DiVoMiner“话题”的意思,小编在这里解释下:在注册平台之后,即可创建免费的“学习话题”。在平台上一个研究项目等于一个“话题”。平台上的话题分为三类:学习话题、案例话题和研究话题。

  • 学习话题:学习话题是供学习平台操作使用用途,免费提供。免费学习话题的数据量100条,文件存储空间10MB,类目上限3个,支持1个管理员帐号。不可升级话题,建议只做学习平台流程使用。 

    在创建免费学习话题之后,进入【数据管理】-【总览】页面,可看到提供的示例数据。您可以了解上传EXCEL文档格式数据的结构,也可用示例数据尝试完成整个学习流程。

     

     

    可点击右上角【入门指引】跟随指引和视频进行学习使用。

  • 案例话题:平台还提供了一些案例,供您参考学习,通过已经制作好的案例,您可以直观地看到如何运用DiVoMiner进行研究。
  • 研究话题:当用户觉得学习话题数据量、文件存储空间、类目上限、编码员数量不足以满足研究需求时,可付费使用,具体付费标准请参看平台【购买话题】

 

参考文献

[1]梁海(2020). 内容分析, 从贝雷尔森到涵化理论: 偶尔正经的量化传播学史(九). 互联网挖掘实验室. 取自https://mp.weixin.qq.com/s/Q-1alL-_9fwBAfQtUXQUTQ

[2] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.

[3]张荣显,曹文鸳:《网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析》,《汕头大学学报》(人文社会科学版)2016年,第8期,第111-121页。