博易代表应邀出席两大重要传播学会议并发表主旨演讲

近日,博易代表应邀出席两大重要传播学会议——亚太传播论坛2020和第五届中国公共关系学术年会,并分别在会上发表主旨演讲。

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图1

亚太传播论坛嘉宾与各校师生合照

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图2

第五届中国公共关系学术年会与会专家学者合照

亚太传播论坛2020暨亚太传播论坛联盟成立大会于2020年10月24-25日在珠海横琴·澳门青年创业谷及澳门大学澳门研究中心举行,此会议由亚太传播交流协会(APCEA)主办,是新冠肺炎疫情以来澳门主办最重要的国际传播会议之一。博易代表应邀出席会议并发表题为《为什么大资料在研究方法论中很重要:从传统到创新? 》的主旨演讲,同时以线上直播的方式举行大数据工作坊。

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图3

博易数据张荣显博士发表演讲

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图4

博易数据高级研究顾问曹文鸳进行大数据工作坊

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图5

会议现场

同场,在珠海横琴·澳门青年创业谷,博易数据在现场展示研究型文本大数据挖掘与分析工具DiVoMiner®,受到与会人士的关注和查询。

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图6

博易数据代表现场展示DiVoMiner®

同时,博易代表亦受邀出席了另一重要传播学会议——中国新闻史学会公共关系分会第五届中国公共关系学术年会(5thPRSC)暨第十三届公关与广告国际学术论坛(13thPRAD ),并在会上通过线上直播的方式发表题为《关于疫情的文本研究:一个在线内容分析法的思考》的演讲。

博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图7
博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图8
博易代表应邀出席两大重要传播学会议并发表主旨演讲 配图9

博易数据张荣显博士通过线上直播发表主旨演讲

本次学术年会于2020年10月23-25日在兰州举行线上线下同步会议,由中国新闻史学会公共关系分会、华中科技大学新闻与信息传播学院、香港城市大学媒体与传播系、香港浸会大学传理学院、台湾世新大学公共关系暨广告学系、兰州大学新闻与传播学院联合主办,兰州大学新闻与传播学院承办。学术年会主题为“一带一路故事叙事与国家公共关系”,旨在研究一带一路倡议下国家对外传播的理论与实践问题;战略传播与公共关系工作坊主题为“重大疫情危机管理与公共关系” ,旨在讨论突发公共卫生事件中的公关应对与反思。同时,会议还增设第十三届公关与广告国际学术论坛(PRAD)专场,就“国际故事-国家关系的构建与连接”主题展开研讨。

备注:博易数据为易研子公司


疫情卷土重来?三项重要数据带你看清全球疫情趋势

据美国约翰斯·霍普金斯大学实时统计数据显示,截至北京时间10月21日,全球新冠肺炎确诊病例累计已超过4000万例!

40,000,000,确实是一个令人触目惊心的数字,虽然国内的疫情已经有所控制,但是国外的抗疫形势依然严峻,我们仍需保持对境外输入病例的高警惕性。那么,全球新冠疫情目前发展到了什么程度呢?三项重要数据,带你描绘全球疫情趋势。

一个月

从导入DiVoMiner®平台的数据上看,全球累计确诊病例从2000万左右增长到3000万用了40天左右的时间,而确诊病例从3000万增至4000万仅用了32天。


第二波

欧洲的疫情第二波疫情已经开始了一段时间,其中法国,西班牙、英国和意大利等国的日新增病例也连创新高,其中法国在17日当天新增病例已超3.2万例,又一次创下疫情爆发以来的新高。

三个国家

美国,印度和巴西三国的疫情,从爆发至今,一直未得到有效缓解,截至到目前,这三个国家的确诊病例已经占全球确诊病例的一半还多。

更多疫情数据请扫描或长按下方二维码

查看全球新冠肺炎疫情最新动态

疫情没有过去,大家仍需保持警惕!


文本编码没效率?编码员团队难管理?应该这么办……

最近有位李老师向小编抱怨,说想做一个关于疫情对数字经济影响的课题研究项目,为此,李老师收集了大量的文本资料,需要使用内容分析法作为研究方法,并组织了同学们担当编码员,但是接下来的内容编码工作效率较低、编码员团队的管理工作细碎复杂,让这位老师犯起了难。

这类问题,相信也是不少老师和学生朋友们在进行课题研究和论文写作过程中会遇到的。整理以往的客户咨询,我们了解到在线下研究协作方面,还可能遇到的问题有:

  • 编码员做了一部分,中途忽然联系不到,数据结果也拿不到;

  • 多个编码员需要做信度测试,需要一组一组手动计算;

  • 编码员没有理解研究人员的要求,完成之后才发现有些错误,只能全部重新编码;

  • 在不同地方的研究者需要共同完成同一个编码,需要有人花费大量时间进行编辑汇总;

  • 想要核对数据时,研究者想要查找是某一个编码员做的某一篇编码结果犹如大海捞针;

这些悲伤的研究场景你是否也经历过呢?那么对于此类问题,有没有一个适合的解决方案呢?

答案:当然有,且是一个绝佳的解决方案!?

DiVoMiner®作为一个基于云计算的文本大数据挖掘及分析平台,为众多编码员和研究人员可以同时协作进行同一个文本编码,提供毫秒级信度计算、质量监控和修改等等远程研究协作的场景。


小编以2018年OFO退押金事件为案例话题,

请大家接着往下看!


在开始扔干货前,先来认识下在线远程多人协作研究流程是什么样的:

很简单吧?接下来就让我们看看在平台上管理员和编码员界面。


1. 管理员

管理员可执行全部管理操作,如建立和管理数据库、修改编码结果和统计分析等,涵盖了平台操作的所有权限,而且可以在编码绩效的界面查看编码员的编码结果和所用时间,如下图所示:


2. 编码员

编码员仅能进入到编码页面,执行人工内容编码操作,可以回看自己的编码内容,编码结果也不会和其他编码员共享,仅管理员可以看到,如下图所示:

整个流程和界面看下来是不是觉得平台好用又提升效率呢?


在沟通+在线编码+团队管理场景下,DiVoMiner®帮助研究者一站式完成内容分析法的全部流程,在这个案例话题具体的解决方案中,负责项目的同事提供了一些建议供大家参考:

一、团队沟通

远程工作会因为沟通和不同工作平台等原因造成工作信息的不统一,研究人员通过工具——编码簿而不是口头协调方式形成研究执行的保障,再辅以建立微信群组,开通线上视频会议等方式,与编码员进行有效的沟通,建立相互的信任合作关系,随时讨论也可帮助明确判断,控制编码质量。

二、在线编码

使用算法编码辅助人工编码,提高编码效率:对于客观性较强的类目,如文章篇幅、文章出现次数、配图等,计算机很容易判断,这部分使用DiVoMiner®做自动编码,精确匹配,快速得到编码结果,节省力气。对于主观性较强的类目,如文中的抽象程度和因果程度,计算机很难自动识别,编码员需经过编码指引理解、讨论后,最终所有隐性变量的编码员之间综合信度达到0.90以上。开始进行正式内容编码,直至完成编码工作。

三、协作+管理双重模式

多人在线编码、实时信度计算、实时展现编码结果等研究协作功能的线上化,编码员的编码数量管理、权限控制、编码留言、研究人员实时质量监控等管理手段的线上化,都能在DiVoMiner®平台上完美支持。这种协作+管理双重模式,模拟了在同一间办公空间的情景,在整个编码处理过程中,DiVoMiner®平台提供了编码质量监控和编码员绩效管理的功能,可以随时看到编码进度,调整编码结果。


长假之后,聊聊双节假期的热点和槽点

疫情稳定之后,等来了中秋加国庆,相信大家都度过了一个愉快的假期,那么今年国庆的哪些地区或景点较为受大家追捧呢?


为此,小编整理了9月30日至10月8日的微博数据,为大家梳理下国庆长假期间的热点。


01

今年长假旅游有哪些热门?


热门地区——江浙沪、西南、西北、北京、广东皆为大热门


据文旅部数据中心统计,国庆假期前七天,全国共接待国内游客6.37亿人次,实现旅游收入4665.6亿元。今年地处大西北的陕西、甘肃也成为微博上讨论热门旅游地区,有网友戏称“大西北堵骆驼”。



热门景区——双“黄”最热门


今年长假最热门的的景区分别为湖北的黄鹤楼和安徽的黄山。疫情期间,武汉封城,全国人民都在喊“热干面加油”,疫情稳定之后,有不少外地游客打卡这座城市,作为武汉最著名的景区——黄鹤楼自1985年重建后首次开放夜游,吸引不少外地游客。



热门旅游资源—— “自然”和“人文”皆有受众


自然资源中的“农庄”,人文资源中的“民俗风情”和“历史文化”是今年长假旅游中讨论最多,最吸引游客的特色。



02

 今年长假旅游有哪些不一样?


景区免费或打折——性价比最高的旅游长假


国庆前夕,全国有超过1500家景区免费或打折,20多个省市政府发放旅游优惠券,今年游客出行,门票、酒店住宿、旅游线路、美食购物等产品都可以享受到一定的优惠,但从微博上的讨论热度来看,这些旅游大福利的措施并未引起广泛的讨论。



疫情防控措施——口罩、健康码、体温、分流管控一个不能少


从下方词云图中不难看出,口罩依然是大家最为关注的,分流管理,健康码、核酸检测和测量体温已成为了保障游客安全出行的必要措施。



虽然北京、大连、新疆、云南等地出现过新的疫情传染,但在黄金周前各地新增病例再次清零,且内地跨省出行全面恢复。国庆这种客流高峰下,仍需做好提前预约日期、预订门票,配合景区做好健康检测、分流管控等疫情防控工作。


03

今年长假旅游有哪些大槽点?


“十一”来临之际,一段名为“甘肃敦煌专坑游客公厕”的视频受到广泛关注,体验观感差及部份坑蒙骗的行为将极大影响游客对景区的观感印象。


今年十一长假并未出现往年重大负面舆情,但“交通拥堵”、“随意涨价”等内容在微博上也有出现,从以下数据来看,有关交通、收费的负面感受是十一旅游期间最大的槽点,也是最为影响景区形象的负面因素。



小编利用DiVoMiner®文本大数据挖掘与分析平台,通过数据上传,类目构建和图表制作等一系列的操作流程,也仅仅用了两个小时而已,有兴趣的小伙伴,快快登录平台尝试下吧!

       


问卷调查的开放题数据可怎样有效处理?

概要:DiVoMiner®是内容分析法为设计核心的在线数据挖掘与分析平台,用户们有没有想过可用于调查问卷中开放式问题的分析呢?其实DiVoMiner®可以高效且科学的处理开放式问题答案文本数据的编码与统计分析,究竟是什么原理,又是怎么做呢,小编在本文中一一道来。

1

什么是开放式问题?

一般而言调查问卷问题依据不同的研究需求,可分为封闭式问题和开放式问题。简单来说:

?封闭式问题=有限制答案

?开放式问题=无限制答案


例如:


那么在实际应用中,封闭式问题受访者需要根据提供的选项来作答,优点是答案往往非常清晰,可以更好的实现调查研究测量的目标。缺点是在有些场景中,例如研究者要知道受访者行为、态度等背后所隐藏的原因和逻辑过程以及受访者常用的词汇,可以作为反映个人价值观、教育程度、知识水平等问题,封闭式问题并不能满足这一需求。

开放式问题受访者可以根据自己的主观想法作答,优点是为研究者搜集新的想法,对受访者实际情况有更多了解。缺点是所得到的答案未做结构化标准化处理,不易作统计分析;或者由于受访者的语言技能,答案缺乏信度,回答问卷难度增大。

2

为什么用内容分析法

由上可见,上述的两种方法都有着各自的优劣势,但想让开放式问题从定性的见解转化为统计性的见解是一个较为头疼的问题——小编建议用内容分析法。内容分析法是一种以系统的、客观的 和定量的方式测量变量,其最终目的是以数字来精确地再现信息主体,其实现方式是将文本转换为数字。所以,内容分析法对于开放式问题数据分析最合适不过。

3

DiVoMiner®解决方案

为了让大家更加清楚的熟悉整个分析过程,小编根据DiVoMiner®平台的流程,整理一套解决方案,供大家学习参考。

如想要了解具体操作详情,请登录平台,点击右上角DiVoMiner® 知识库就可以看到啦!

扫描下方二维码,登录平台知识库查看

?

4

小结

开放式问题可以带给你超乎预想的发现,不要随意浪费这些数据,还请通过科学严谨的流程进行分析,可能对研究做出重要的贡献。


基于国家社科基金项目解析2020新闻传播研究的热点与趋势

2020年国家社科基金的立项名单看过了吗?这么长的名单是不是看着有点眼晕,小编运用大数据辅助内容分析法为核心的DiVoMiner®平台为新闻学与传播学的老师和同学们做个快速解读。


2020年国家社科基金年度项目

-新闻学与传播学专业

由下图可见,传播、媒体、中国、治理、社会、网络、公共是频次较高的关键词。



研究主题分类


进一步分析,智能媒体、重大突发事件、国家形象、新闻史、一带一路、区块链等研究主题出现频率较高。



立项单位


新闻学与传播学共有95所大专院校共137个项目立项,当中211大学立项66个,占所有立项的约一半。下图为获得两项及以上立项项目单位与项目类别,共有9个单位的立项项目为重点项目。

2020年国家社科基金青年项目

-新闻学与传播学专业

传播,网络,国家形象,青年,社会,短视频等是出现频率比较高的的项目名称关键词。

研究主题分类

国家形象,社交网络,短视频,网络舆情等研究主题出现的次数较多。


小编对2020年新闻学与传播学国家社科基金项目进行了快速的整理,资助项目以一般项目为主,项目单位则主要以有新闻传媒学学科优势的高校机构为主。从项目主题来看,国家形象在年度项目和青年项目皆占较大比例,此外项目研究也紧跟时代变化发展,2020年智能媒体、突发事件传播研究获得较多关注。

重点来了,小编我在下载好国家社科基金项目excel表之后,仅用了1个小时就完成了从创建随时更新的数据库—自动分词及自建分类模型—机器编码—统计分析及可视化全过程,如果大家有遇到类似的文本数据分析,推荐使用DiVoMiner®,一眼看出项目研究热点。


【数据可视化】如何选择最佳表达数据意义的可视化图表(大全都在DiVoMiner®)?


在读图时代,一图胜过千言万语,一张清晰的可视化图表比纷繁复杂的数字更清晰美观。DiVoMiner®平台不仅能够快速得出海量数据的统计分析结果,也可通过拖拽方式即时生成可视化图表。

在平台上图表类型根据适用的场景可以分为以下四大类,但每种场景间可能又有交叉的情况,建议根据研究分析目的选择,而不是只顾哪个好看选哪个。

常用统计图展示

除了常用的趋势图、饼图、柱形图、条形图、雷达图、热力图、面积图、散点图外,还有文本分析中较为常用的词云图、桑基图等等。平台支持通过点选方式实现查询、统计、动态显示、信息提示等,也可根据用户的需求进行图表的定制化设计。

更多内容,请点击?【让研究更容易】上来DiVoMiner®轻松获取论文中常用的图表

热门统计图说明

词云图

词云图是根据词频的多少,对应在图上显示词语的大小,可以直观地观察到文本中提及词汇的多寡,从而推断文本中主要谈及的内容。如图显示,手机相关的文本中,讨论最多的是之智能家居、电视、电脑、可穿戴设备等。尤其是以小米为主的线下体验店——小米之家,展示了各类小米的关联产品,供用户体验。


桑基图

桑基图通常用以展示数据的流动,“边”越宽,表示数值越大。不同的颜色区域表示不同的类别。如图所示,在合作领域方面,小米和华为均集中在物联网领域,在车载领域的合作较少。更多内容,详见?【让研究更容易】轻松获得桑基图,这个工具很好用!


更多功能……

图表数据回溯原文

数据可视化的意义是帮助研究人员更好的分析数据,精心设计的图形不仅可以提供信息,还可以通过强大的呈现方式增强信息的影响力。而在文本研究过程中,不只要有实用性,还要保证编码操作过程科学透明,因此DiVoMiner®上,这些统计分析图中的数据设计为追踪回溯至对应的原文(原网站),方便研究人员针对图表进行描述和深入解读,无论是研究数据“说了什么”,还是“怎么说的”,变量之间的差异和关系都可以在这里回答。

实时动态统计图表制作和分享


 通过DiVoMiner®,不需要懂代码、也不需要有什么技术基础,不仅能够轻松搭建实时更新的数据库,还可以快速展示和分享各种可视化图表。小编之前有分享实时更新的全球新冠肺炎疫情数据库可视化图表,直接点击?全球新冠肺炎疫情数据库或扫描下方二维码查看。

详情请点击查看?【DiVoMiner】小白变大神只需三步,手把手教你制作全球新冠疫情实时数据库!


【SSCI论文赏析】十年新闻报道框架研究结果:压力、吸烟、基因是非传染性疾病的三大风险来源

近日,澳门大学张文瑜教授等在SSCI期刊上发表了一篇健康传播领域的论文,核心主题是研究中文语言场景下非传染性疾病(Non-communicable Diseases, NCDs)的新闻报道框架。


研究团队回顾了整整十年(2010-2019)主流新闻媒体报道,利用DiVoMiner®特有的大数据技术辅助在线内容分析法,梳理和描述不同地区各具特点的新闻报道框架,并理解导致框架差异存在的潜在原因,试图为预防和对抗非传染性疾病做出研究贡献。论文中有不少有趣的结果,揭示代谢性类型疾病是新闻报道中最受到关注的类型,而造成非传染性疾病的风险来源分别是压力、吸烟、基因。

按照惯例,接下来小编为大家“拆解”研究过程,介绍研究团队如何完成文本数据分析研究,作出SSCI级别论文!

梳理文献,列明研究问题


根据世界卫生组织WHO的报告,非传染性疾病是基因、生理、环境和行为因素综合作用的结果。心血管疾病、慢性呼吸系统疾病、癌症、糖尿病和中风是非传染性疾病中在全球造成死亡的五大原因。非传染性疾病显然是一个危险的杀手。


论文梳理非传染性疾病的现况及新闻报道的情况,以及综述该领域的框架研究成果,从报道量、风险、后果、归因四个方面提炼研究问题


  1. 在中国内地及周边地区的报纸,非传染性疾病的报道量有多少?随着时间的推移,报道量有何变化?How much coverage was devoted to NCDs in mainland China newspapers, and in the neighboring areas, and how did that change over time?

  2. 非传染性疾病新闻中,如何报道评估风险?How were the NCDs covered along with risk assessment?

  3. 非传染性疾病新闻中,如何报道代价后果?How were the NCDs covered along with cost consequences?

  4. 中文新闻报道中是否存在某种疾病与归因的关联,个人层面(片段式结构框架)还是社会层面(主题式结构框架)?What  associations,  if  any,  do  Chinese  news  attribute  risks  with  individual‐level (episodic theme) or social‐level frames (thematic theme)?


为回答上述研究问题,论文以跨度十年(2010年1月1日-2019年12月31日)的主流新闻媒体报道为数据选取范围,检索数据关键词包括非传染疾病相关词汇。该研究有两大特点及价值:(1)是以中国内地、港澳台地区为对象的大型中文网络新闻比较分析之一;(2)利用自动化流程收集和解析十年来面对大量中国读者的文本资料。

数据预处理,提高数据相关性及准确度

选取提及关键词至少两次的文本目标样本


在数据样本来源的选取方面,综合考虑媒体属性和影响力,最终选定11家主流新闻媒体,中国内地(4家)香港地区(3家),澳门地区(1家),台湾地区(3家)。

以非传染疾病相关词汇作为检索数据关键词,在中文关键词的拟定方面,由于不同地区在语言表达上存在本土化差异,在设定检索关键词时,充分考虑这一因素,确保数据检索流程的合理性。为提高数据的相关性和准确度,研究团队执行了数据预处理,以关键词次数为依据,如果一篇文章仅提及关键词少于2次,则剔除出样本范围。

编码簿(Codebook)包括疾病种类、风险评估和疾病后果三部分


编码簿中,考量了26种疾病类型,13种风险评估因素以及8种疾病后果,共计10个类目,涉及54个选项,可谓是相当复杂的内容编码体系,含有跳题设计(想知道类目跳题如何设计?小编后续介绍,敬请关注)。


对于编码簿的制作过程,作者团队在论文中指出,一方面,前期根据研究问题设计出编码簿,涵盖研究需求,另一方面,在数据处理过程中,也可方便地随时调整编码簿。


使用大数据技术辅助在线内容分析法

选取1%样本进行人机结果比对检验

该研究设计利用机器编码批量处理数据,为检验和说明机器编码的准确度,团队随机抽取了1%的数据作为比对样本,由张文瑜教授带领4位经过训练的研究助理完成人工编码的部分,且编码员之间信度达到Cohen’s Kappa = 0.78 (p < 0.001), 95% CI (0.604, 0.948)。最终人机对比一致性达到80%,机器编码结果可接受。



研究结果

过去十年,共有137,175篇新闻报道了非传染性疾病相关的内容,各地区的报道量均是稳定上升趋势。代谢性疾病(如糖尿病、慢性肾脏等)是媒体提及最多的疾病类型。压力、吸烟和基因是风险来源前三位。结果证明,媒体对疾病风险信息的框架性表达,会改变对疾病类型的选择、理解和后果的传播方式。


内容分析法怎样才做得好呢?

梁海老师的系列文章,深入浅出介绍内容分析法的历史背景与发展情况,值得品鉴。随近百年的进步,内容分析广泛运用在传播学、心理学、政治学、文学、历史学、人类学、语言学等各类学科中,已是社科研究中最重要的研究方法之一。那么问题来了,内容分析法到底要怎么做呢?是否统计关键词次数,或使用情感分析(Sentiment analysis)就是内容分析法的全部意义了呢?[1] 实际上,内容分析法的分析空间远不止此,对文本数据的挖掘和解读还可以解释数据过程(趋势、路径),使用交叉、聚类等方式解释变量之间的差异和关系,获得深度分析结果,回答研究问题及检验研究假设。

本期小编就带大家一起梳理下内容分析法的内容以及在DiVoMiner®平台上的操作过程。

什么是内容分析法?


内容分析法是社会科学研究方法中的一种对文本内容进行编码、分类、语义判断及形成可供统计分析之用的量化分析方法。它是指一种以系统、客观与量化的方式,来研究与分析传播内容,以测量及解读内容的研究方法。[2] 

什么是大数据技术辅助

在线内容分析法?

将传统内容分析的操作流程搬到“线上”,结合大数据技术,用网络挖掘、机器学习、自然语言文本处理等实现文本数据的在线处理,使得内容分析法的全部流程在线一站式完成,大大缩短研究时间,提升研究效率,快速产出研究论文。

总而言之,大数据技术辅助在线内容分析法就是把杂乱无章的非结构化文本内容转化成结构化的数据,以对内容进行分析、解读,得出深入的推论、洞察,挖掘价值。

具体操作过程

这个方法就是把非结构化的文本内容通过分类,转化成结构化的数据,从而探索文本中的价值。把非结构化内容转化成结构化数据的过程其实就是量化的过程,简单来说就是对文本进行分类-赋值-统计分析。也就是学术界通用的类目建构-编码-统计分析。当然,科学的研究方法需要严谨、系统的流程,以确保研究结果的有效,因此需结合信度效度的测试。下面这个图就是一个完整的大数据技术辅助在线内容分析流程图。



有颜色填充的部分都是可以在线完成的,整个大数据技术辅助在线内容分析法[3]都可以在DiVoMiner®文本大数据挖掘及分析平台上进行,在确保研究流程科学、严谨方面,这个平台具有完备的质量控制机制,尤其是编码员间的信度计算程式清晰、自带学术界认可的四种信度计算方法( 关于信度计算的内容详情请点击这里),并具有编码追踪功能,可以随时定位编码结果,所有的数据分析结果也可以追踪回溯至原文。(这里是强调这个工具的可靠性) 


类目的构建

类目是根据研究目的和研究问题而创立的,你想从这些文本中解决什么研究问题,包括文本的内容“说了什么”和“怎么说”两个部分。这个分类的过程就是“类目建构”,“类目”就是用来给文本内容进行赋值的,赋值的过程就是“编码”。编码完成后,文本内容就转化成了可用来做统计分析的数据形式。针对编码结果进行统计分析,输出可视化效果即完成了内容分析的基本操作。(关于创建类目的内容详情请点击这里


(图片来自于【DiVoMiner重磅更新】PDF也能轻松做大数据技术辅助内容分析?点击回顾)


[1]梁海(2020). 内容分析, 从贝雷尔森到涵化理论: 偶尔正经的量化传播学史(九). 互联网挖掘实验室. 取自https://mp.weixin.qq.com/s/Q-1alL-_9fwBAfQtUXQUTQ

[2] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.

[3]张荣显,曹文鸳:《网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析》,《汕头大学学报》(人文社会科学版)2016年,第8期,第111-121页。



【DiVoMiner】一张图说清楚平台四个数据库的关系

在DiVoMiner®上创建话题成功后,会自动进入到【数据管理】界面。刚开始接触平台的用户可能会有点疑惑,平台左侧的这些按钮,【编码库】【抽样库】【测试库】【回收库】这些系统定义的数据库差别是什么?各自的作用又是什么呢?


首先小编请大家看下面这张图,做个初步了解,然后再一一详细介绍。


一、 数据库管理:【编码库】是内容编码及后续分析的基础


准备数据阶段,首先需要确定不同类型的数据来源,分别建立数据库,例如,历史文献数据与社交媒体数据格式有所不同;不同的社交媒体数据类型有所不同;将格式不同的数据类型分门别类上传至对应的数据库的【编码库】,给数据库命名,完成建库过程。

重点强调的是:不同数据库之间字段可通用。后续数据探索、在线内容分析、统计分析及可视化等是基于【编码库】中数据进行分析。

接下来建立【抽样库】或是【测试库】也是在【编码库】中操作,使用功能键【抽样】、【随机导入到测试库】完成。

二、 抽样库-为研究方法带来更多的可能性


在DiVoMiner®平台的研究流程设计中,是否需要建立【抽样库】看研究者的需求。需要指出的是平台的设计理念及方法论核心是大数据技术辅助在线内容分析法,因此,面对体量庞大且结构繁杂,分析难度较大的文本大数据,其运算能力具有优势,在平台提供的范围内是能够保证对海量文本数据进行计算。

但即便如此,还有很多研究场景需要建立【抽样库】来解决具体问题。


  • 研究分析的需要。如小编同事在第68届国际传播学会会前会议的论文——《虐童事件中的危机公关研究》(点击查看全文)中建立总体数据库呈现整体趋势结果,建立样本库进行结果分析的方式进行。

  • 通过【抽样库】来实现研究方法上的快速验证。在研究中,像类目建构、关键字的设定需要依靠研究者创新性的思维和主观判断,通过建立【抽样库】的方法,可对这类研究内容进行简单化、可行性和可操作性的验证。


  • 通过抽样解决样本分配的问题。在研究当中,可能存在不同类别的数据量差距较大,假设在一个研究话题下,分别有新闻数据库(100条数据),微博数据库(10000条数据),研究者希望研究中微博的数据大约为新闻数据的两倍,这里就可通过建立【抽样库】的方式来满足研究者的需求。


需要重点强调的是,在DiVoMiner®平台的研究设计中,【抽样库】和【编码库】是独立的关系,【抽样库】中同样有【编码库】、【测试库】和【回收库】的配置。

三、 【测试库】-为编码员之间的信度测试提供数据


【测试库】是从【编码库】中抽取部分数据建立,用于测试编码(前测编码),要求编码员对相同的数据进行测试编码,计算编码员之间信度,在信度达到可接受的一致性水平后,开始正式人工编码。

四、 【回收库】-存储清洗数据后删除的数据


清洗数据后删除的数据全部会放到【回收库】中,可在【回收库】中对数据进行恢复或彻底删除的操作。

DiVoMiner®上数据库的设计思想,是源自于对大数据技术辅助在线内容分析法研究过程的功能需求,多库配置,满足独特的研究目的。