博易-博易新闻归档 - Page 5 of 5 - 博易數據

2020年7月16日

【最新论文赏析】抗疫背景下中医媒介形象之变化

一场忽如其来的新冠肺炎疫情改变了很多人的生活。本期赏析的论文来自清华大学的程萧潇博士生和金兼斌教授，联合易研网络研究实验室张荣显博士和赵莹团队（作者团队有小编的同事哦，小编骄傲），研究在今年疫情大背景下，中医与西医的媒介形象是否呈现出某种变化性。

本论文研究方法使用大数据技术辅助在线内容分析法，与以往内容分析法不同，为保证数据质量，团队在数据样本的预处理及编码过程做出创新性尝试，例如，预处理时设定多重规则清理数据，平衡数据覆盖度与相关性；利用编码员信度测试完善和确定编码簿，核验大数据算法编码准确度。

为了深入剖析这篇论文，小编专门找了研究团队做了深度了解。接下来，小编为大家“拆解”研究过程，介绍研究团队如何把理论和数据当做原材料，制作出一篇文本数据分析研究论文！

借鉴文献，提炼研究问题

论文起始，明确研究背景，阐述在中国“抗疫方略中，中西医结合诊疗是一大特色和亮点”，总结中医药在数次修改的诊疗方案中扮演的重要角色，基于“媒介形象及社会形象”认识，以中医的媒介形象为切入口，回顾和整理“他者”语境中的中医及中医形象的媒介呈现方面的文献，进而提出核心研究问题：

面对本次大疫，中医与西医的媒介形象是否呈现出某种变化性。

具体化为两个研究问题：

RQ1：疫情暴发前后，中西医媒介形象在新闻报道的呈现上有何变化？

RQ2：疫情暴发前后，有关中西医新闻报道的整体论调有何变化？报道论调与不同维

度的中西医媒介形象是如何关联的？

采用大数据技术辅助在线内容分析法，考虑数据相关性与覆盖度，多次预处理，选取目标文本样本

为获取符合研究目的的数据样本，选取了四家国内主流媒体（考虑媒体属性）作为数据收集对象，检索条件如下：

媒体来源：人民网、《新京报》、澎湃网和《南方都市报》

时间范围：以2020年1月23日武汉“封城”这个时间为区分节点，覆盖该时间节点前后三个月左右时间

检索词：“中医”“西医”“中西医”“现代医学”“传统医学”等与中西医相关的通用关键词

获取数据检索结果之后，研究团队组织和执行了三次数据预处理，每次清理动作遵循一定准则和逻辑，像一个漏斗一样，筛选出相对“全”而“准”的数据样本，目的是获得较佳质量的数据样本库，打好数据分析的基础。

基于设定好的检索条件，获得第一批数据样本，新闻报道21,138篇。在这个数据基础上，想要进一步提高数据相关性，提升目标数据覆盖度，于是做了初步预处理，移除信息量过少的文本样本，删除文本少于200字的样本。处理后余下20,657篇。

随后研究人员人工检查样本，发现虽然很多文本确实提及了中西医相关词汇，但是报道主题并非与医学直接相关，而且部分文本中仅出现一两次关键词。因此团队再次进行数据清理，剔除单篇文本中提及检索关键词词频少于5次的文本，执行操作后，留下10,826篇新闻报道。

对数据质量的追求并没有到此为止，研究人员第二次人工检查，验证发现几乎所有新闻报道均与研究主题直接相关。同时，在检视过程中，研究人员手动删除了部分无关数据，最终共得到9,981篇完全符合研究目标的新闻报道。

大数据研究中，尤其是在做内容分析法时，学者们通常关心在检索数据和处理数据过程中，是否能检索完整的目标样本，是否会有遗漏？另一方面，查全与查准也存在天然的矛盾，过于宽泛的检索条件虽能尽量覆盖数据样本，却也容易纳入无关数据，因此两者之间需要取得一个平衡。（小编推荐一篇论及文本大数据覆盖度的文章给大家参考，请点击这里）这篇论文为达到查全查准的目标，使用关键词先行检索出相对全面的数据，进而多次筛查，清理无关数据，获得相关性和准确度更高的样本。

到这一步，就完成了数据库建立。在数据处理和分析的过程中，本研究尝试全新的研究思路，在信度测试过程中优化和确定编码簿，以大数据算法编码快速完成编码，严控数据质量。

整套操作流程如下：

编码员之间信度测试编码协助优化编码簿

编码簿的设计之初，研究人员参考和整理文献，并人工阅读大量新闻报道文本，归纳出编码类目的选项及对应关键词（可组合逻辑，用于执行大数据自动编码），形成编码簿初稿。为了解这套编码簿及关键词设定的准确性，研究人员组织编码员进行信度测试，并且在这个过程中，反复调整和优化编码簿，直到编码员信度达到优异水平（霍尔斯蒂指数0.89，DiVoMiner®还提供科恩系数、斯科特系数和克利本多夫系数信度计算公式），完成编码员信度测试和编码簿的确认工作。

编码簿框架与编码方法

核验大数据算法自动编码准确度

随机抽取1%的样本作为检验样本（107篇），执行人工编码，对照大数据算法自动编码结果，计算信度，所有类目准确度均在0.87以上，显示大数据自动编码结果良好，可采用该结果作为解读依据。这一步骤是为确保大数据算法自动编码的准确程度。最终由通过信度测试的编码员对大数据算法编码结果进行随机检查和校正，进一步提升了编码准确度，完成数据结果的收集工作。

研究结论

对数据结果进行解读，对比疫情发生前后的新闻报道侧重点，可以发现不少有趣的结论：由于政府和行业对中医参与诊疗的积极推动，具有实际成效，中医的社会形象和媒介形象是有实质性改变和提升的。总体而言此次中西医结合抗疫，一定程度上巩固了中医的生存空间，提升了其社会形象。

编后语：以上这篇论文，从收集数据到数据处理，包括信度测试、算法编码及人工校正，连同数据结果的产出，过程只用了三周时间。当然这离不开研究团队前期花大量功夫整理和消化大量文献，事先做好充足的准备工作，带着明确的思路执行数据处理和分析，最终结合理论解读数据，完成作品！

No Comments In博易-学术研究

2020年7月3日

【DiVoMiner】疫情大数据，非一般的词云图把看不见变得可见

新发地市场新冠肺炎疫情反复，让许多人重新认识到，疫情其实并未离我们远去，而全世界的疫情发展又如何呢？根据约翰斯·霍普金斯大学统计数据，截至北京时间7月2日，全球确诊数接近已突破一千万，达到了10,869,739例，累计死亡病例仍在缓慢上升，已达到521,298例。想要了解最新动态，大家可以查看小编制作的全球新冠肺炎疫情数据库（小白变大神只需三步，手把手教你制作全球新冠疫情实时数据库！?点这里回顾）。

扫描或长按下方二维码查看?

全球新冠肺炎疫情最新动态

本期小编为平台用户介绍一些DiVoMiner^®在量化数据处理和展示的小技巧，选用制作最直观也是最常见的展示方式——词云图。

以全球新冠肺炎疫情数据库中的国家/地区-累计确诊病例词云图为例（数据选取范围：1月22日-7月2日，在学习话题中可下载此示例数据），通过这个结果可快速了解到，目前各国家的疫情确诊病例数量的情况。一目了然，美国是当前疫情的震中，巴西、俄罗斯、印度、墨西哥的情况也不容乐观。（以下内容仅作为示范案例，在学习话题中无法使用此数据）

接下来我们来拆解步骤，鼠标点几下，就能完成上面这张定制化的词云图。

准备工作（点这里看详细说明）：

1. 开通用户话题

2. 上传数据

数据库建构完毕，进入数据分析环节。在【统计分析】中，【创建图表】，然后：

选择【自订变量】-拖拽【国家/地区】至【维度】-下标中选取【聚合】方式
选择【自订变量】-拖拽【累计确诊病例】至【数量】-下标中选取【最大值】；
【图表类型】默认为表格，在右边【图表类型】中选取【词云图】，呈现效果如下。图上可点击国家/地区名，自动浮现累计确诊病例。

进阶操作

在上面基本操作之后，可能有用户会问，我还可以做哪些数据分析的尝试呢？敲黑板，重点来了哦。

例如，只想统计累计确诊病例在【1000人以上】的国家，可以通过制表中的【筛选】功能达到。操作如下：

选择【自订变量】-拖拽【累计确诊病例】至【筛选】-点击右上角符号，设置筛选条件为>1000；

如果在此基础上还想多做一重筛选，只想看【亚洲】和【欧洲】的结果，操作如下：

选择【自订变量】-拖拽【七大洲】至【筛选】-点击右上角符号，设置筛选条件为【变量匹配】-【亚洲】、【欧洲】。

小锦囊每期奉上

Q：用DiVoMiner^®平台工具制图与excel等图表工具有什么不同？

A：利用DiVoMiner^®平台工具，可以很快制作出量化数据的词云图。在制作流程上，开发团队改变了传统excel等图表工具制作流程，让用户用拖拽变量的方式将想要的图表进行直接的展示。这种将图表进行模板化的处理方式，可以让用户直接拿来就用，而不用过多考虑细节的调整，比如用什么颜色，有边框还是无边框等等，方便用户尝试。

Q：图文中所提到的文本关键词云图是一样的制作方法吗？

A：文本关键词云图是对关键词集合及其使用频数运用“词云图”可视化技术进行展示的结果，其显示原理相同，但是它还可具有一些新的功能，如想知道更多详情，请点击文末在看，让小编知道哦。

Q：为什么在【国家/地区】的下标中选取【聚合】方式？

A：数据库【自订变量】字段词云图制作中，默认为【分词】方式，也就是会采用平台自带的字库进行分词，有些词可能就会被分开，比如字段中“中国内地”就被分为“中国”和“内地”，用【聚合】方式则完整呈现原有字段。

Q：为什么在【累计确诊病例】，下标中选取【最大值】？

A：【累计确诊病例】在数据库中是每日更新数据，点开【累计确诊病例】下标，你会发现平台提供多个计算方法，这里是想看到7月2日累计确诊病例，即是【累计确诊病例】的【最大值】，用户也可自行尝试其它计算方法。

No Comments In博易-博易干货

2020年7月1日

【DiVoMiner重磅更新】PDF也能轻松做大数据技术辅助内容分析

用户朋友们最近有没有发现，

DiVoMiner^®页面看上去好像有些不一样了

是的！常规更新、优化不停

是我们一贯的风格，

经过团队夜以继日的努力，

又迎来一波给力新增功能：

识别PDF文本

支持Factiva文档上传后自动解析

统计图表可视化效果设置

一切都是为了让您在DiVoMiner^®上

有更好的研究体验！

1. PDF文本识别，大为简化内容分析过程

以往研究中，PDF文档的分析是一个痛点，需要先转化为文字格式才能进一步分析，光是资料预处理的过程，想想都很头痛。现在DiVoMiner^®解决这个问题，可以做到自动识别PDF文档中的文本，无缝衔接后续内容分析。

整个操作流程上，和以往处理PDF一样，选择【上传PDF/图片】，如下图所示：

注意：目前阶段该功能支持文本格式的PDF文件，无法识别扫描件和图片格式PDF，技术部的小伙伴会持续开发升级功能，敬请期待！

文件上传成功后，PDF内容会自动转为文本格式，切换标题下显示为【文本】形式，就能查看到PDF中的文字内容，如下图红色箭头所示：

这样一来，PDF文档也可以做词云图、可以执行机器编码、可以在人工编码时黄色高亮的形式显示编码提示，大为简化PDF文档处理过程，提升分析效率。掌声响起来！

2. 第三方数据源Factiva数据库，

RTF文档上传后自动解析，

一键完成数据结构化

除了已支持慧科Doc、Text和HTML格式，本次更新增加了对Factiva数据库的文档解析支持，方便小伙伴们使用更为广泛的研究数据源！

注意：慧科和Factiva下载的RTF文档，需要另存为Doc文档后再上传，以便解析正确。

3. 统计图表新增设置功能，

可视化效果升级

考虑到平台用户对图表制作需求的不同，DiVoMiner^®团队同样对此做出了优化和更新：

a. 图例支持滚动选项

针对类目/名称选项很多的情况，可勾选【滚动】。图例效果对比会如下图所示，翻页可见其余图例名称，从而避免了图例过多而影响图表展示效果。

b. 自定义绘图尺寸

用户可自定义图表的大小和边距，方便展示。

No Comments In博易-博易新闻

2020年6月15日

大数据时代建立文本数据样本之科学化检索攻略

网络世界犹如汪洋大海，如果想要做网络文本数据研究，首先会面临一个“棘手”的问题：怎么从这茫茫大海中，捞取到科学的数据样本呢？

传统的调研方法，如电话调查、问卷调查等，会从科学的样本抽取方式出发，要求数据样本具有代表性，以此确保得出的数据结果有解读价值。是否到了大数据时代，网络数据大而全，就不需要考虑样本代表性了呢？实际上处理网络数据时，我们也需要考虑数据是否齐全、具有代表性、和数据质量是否有保证的问题，否则数据样本失焦，难以满足研究要求。

接下来小编就以城市形象主题的论文《大湾区11个城市旅游品牌个性研究》（可留言索取全文）为例，和大家探讨如何在大数据时代获取合理数据样本的方法。这也是将研究问题概念化，并落实到检索条件的设计的过程。

设定检索数据条件之初，需要明确两个问题：

1. 需要什么范围的数据作为研究对象/研究样本？换言之，需要什么样的数据配合研究需要？

2. 确定了想要的数据范围后，用什么检索方式把对应的数据捞取出来？

按这个思路，三步走，完成数据检索工作：

第一站，根据研究主题确定适配的数据范畴

研究者需要在确定研究主题（研究假设）后，决定需要使用什么范畴的数据，可以回答研究问题。比如，在案例论文中，研究问题是想了解大湾区各旅游城市所呈现的品牌个性是什么？同时想了解各旅游城市体现出的旅游资源、形象定位情况。那么理清研究主题、综合文献、明确研究问题后，就可以初步确定，和大湾区各城市与旅游有关的数据，是这个研究中比较合适的数据范畴。

第二站，架构概念化逻辑检索获取数据样本

在研究实践中，检索条件的设计优劣，会影响到数据样本结果的数据量和准确度。一种很容易发生的失误是，检索逻辑（关键词条件）范围过大导致数据目标模糊，样本代表性不佳，混入无关和垃圾信息过多，给研究造成困扰。另一种情况是，检索条件方向偏离，导致查询结果与目标数据范围落差过大，进一步分析时会得不到有效数据结果。

为避免上述问题，小编推荐使用概念化逻辑检索的思路，利用多元检索关键词搭配，配置一定的逻辑语言，建立一套检索概念（有点像建立检索概念数据库），利用检索词在概念上的相关性，检索获得同属一类概念的结果。

在案例论文中，大湾区城市与旅游有关的数据，可以拆解为两大部分，满足下列条件之一，就可认为这个文本是属于我们所需要的研究数据范围：

1. 同时提及大湾区任一城市名称和旅游广泛相关的词语，比如“珠海 AND 海岛游”、“广州 AND 动物园”、“香港 AND 景点”等都属于此列。

2. 大湾区的任一旅游景点名称，基本可确定是和旅游相关，比如“长隆海洋王国”、“世界之窗”等。

需要说明的是，上列举例是一个简化的情况，在实际操作中，“香港”的检索条件会是一个概念类，扩充为“香港 OR "HK" OR "Hong Kong" OR "HongKong”，照顾网络表达语言的多元化，尽可能让捞取的数据范围准确。

第三站，核查数据质量，设定概念排除无关或垃圾信息

由于网络表达的复杂性，即便使用概念化逻辑条件检索文本数据，依然无法保证数据恰如其分刚好是研究范畴内的数据。所以进一步，使用排除逻辑，做初步的数据清理。例如，在某个招聘告示中，有内文提及，公司地点在xxx景区附近，这明显不是我们需要的数据。对于这种情况，我们设置招聘概念类检索条件，把提及“面试 OR 招聘 OR 诚聘”内容的文本排除出去，净化数据。

最终，在这篇论文中，我们使用了超过300个关键词加以组合，建构概念化的、具有逻辑的关键词组，同时排除词超过70个，在DiVoMiner^®平台（有数据源的版本）上进行数据检索，以保证平台在线数据挖掘和数据筛选机制能够确保网络挖掘的数据内容在覆盖度和准确度方面尽可能符合研究目的。

No Comments In博易-博易干货

2020年6月5日

政策文本研究都有哪些思路？5年文献告诉你，大神们都是这样做！

有政策研究的朋友想了解，如何从大量的政策文本中，用内容分析法进行科学化分析呢？于是，小编试着使用DiVoMiner^®制作了基于内容分析法的政策文本分析文献数据库，整合中国知网CNKI上的近五年的文献数据，快速归纳获悉当前政策文本研究思路范式，发现主要有特征化分析、比较分析和发展趋势分析三大类别。

小编在中国知网上以主题为“政策内容分析法”进行精确搜索，近五年时间范围，共检索到187篇论文，从发表年度趋势来看，论文量逐年增加，该类型研究趋于热门。从政策文本从属领域来看，集中在教育、医疗健康、科技、信息化等行业。

注：上图来自中国知网CNKI。

小编想了解，使用内容分析法分析政策文本的论文，在分析思路方面都采用什么样的范式。通过阅读和理解中国知网上的相关文献，根据内容分析法在政策文本分析的适用情况，主要总结以下三种分析范式。

1. 特征分析

适用于分析同类型政策文本、在不同问题或不同情境中显示出的具体政策，使用内容分析，在量化结果中找出具有共性的特征。

比如，以有关智慧城市的政策文本为例，可以针对不同层级单位发布的同主题政策进行特征分析，以了解不同层级政策主体的共同要求。

2. 发展趋势分析

适用于分析同一政策下、不同时期内的政策文本版本，使用内容分析，深度评估及预测政策发展趋势，对量化结果加以比较，找出其中发生变化的因素，较为客观，有据可循。

比如，以有关智慧城市的政策文本为例，可以针对不同时期发布同类型的政策进行发展趋势分析，从而理解智慧城市政策的全局思路和变迁脉络，预测和判断未来的关注主题、应用走向等。

3. 比较分析

适用于分析同一研究问题、不同类型政策文本，进行内容分析，对比不同样本的量化结果，找出异同点。

比如，以有关智慧城市的政策作为分析对象，利用研究理论框架，比较不同类型政策工具在研究理论框架下异同点。

想进一步看看各范式论文的具体情况，小编建立了一个政策文本研究论文数据库，进行分析。具体做法是：

第一步、上传样本，建立数据库

建立数据库首先要做文本数据结构化。什么叫数据结构化，简单来说，把相同属性的内容归于同一个变量（字段）之下。在本例中，从知网上下载论文基本信息列表，已经是高度结构化的数据文档，见下图。在这份文档的基础上，补充摘要信息，可直接上传至DiVoMiner^®平台，供后续分析。共计187篇论文信息。上传变量后可利用已有字段进行统计分析。比如年份统计、标题词云图等。

注：截图内容来自中国知网CNKI，【导出参考文献】选取XLS格式下载。

欢迎大家到DiVoMiner^®平台探索，登录账号后进入案例话题“基于内容分析法的政策文本分析文献数据库”，可查看所有详细数据和分析过程。（扫描下方二维码登录平台?）

第二步、建立编码类目，进行内容编码

创建编码类目“分析思路范式”以及“是否使用了政策工具研究”：

设置好类目后，开始进行人工编码。在编码过程中，剔除无效、重复、无关的文献，做法是在【内容编码】页面直接点击【删除】按键。最终选取133篇有关政府政策文件内容分析法的论文作为拆解的数据来源并完成内容编码。

第三步、统计分析和解读

完成编码后，在【编码结果】中快速查看编码结果，点击图表上的数据点，右侧可以查看对应的数据内容。

观察图表结果，有不少值得关注的地方：

特征分析是比较常见的分析思路（89篇，占总体近三分之二）。大部分论文倾向于去描述政策文本客观内容的统计结果，也有一些论文会采用关键词统计分析的方法，寻找政策文本的特点。

比较分析较常与特征分析结合使用，特别是在政策工具的研究中。在人工编码过程中，小编也发现政策工具的研究是学者比较重视的关注点。检视摘要中包含“政策工具”内容的文献（【质量监控】-【筛选】查看），共计63篇，当中Rothwell & Zegweld (1981) 的政策工具分类框架接近一半（26篇），该框架分为供给政策工具、需求政策工具、环境政策工具三大类。(小编语：进入案例话题可以查看这部分文献，方法是【编码结果】-第二个类目结果“使用政策工具研究”)

发展趋势分析大多采用探索政策的演进趋势的思路，还有一些学者会在此基础上，对未来趋势进行预测和启示的解读。

内容分析法在政策文本研究中具有广阔的应用前景，对此有研究兴趣的朋友们也可以尝试在DiVoMiner^®上，以严谨的内容分析法流程（【让研究更容易】我们为什么用在线内容分析法能更快出论文？?点击查看），进行相应的研究工作。

小锦囊，每期奉上

Q：DiVoMiner^®上可以进行政策文本分析吗？

A：结合传统的社会科学研究方法——内容分析法（content analysis）和大数据技术的DiVoMiner（me.divominer.cn），集信息的整合、机器学习、内容分析、统计分析于一体，一站式进行研究设计，类目建构、内容编码、质量监控、数据分析和可视化结果输出，助力政策文本的内容研究。

Q：DiVoMiner^®在这类型研究的优势是什么？

A：这个问题早有答案，详情可参看—【让研究更容易】无需编程，文科生也能快速做大数据研究！

No Comments In博易-博易干货

2020年5月20日

【內容分析法】编码员信度测试2个新手容易踩的大坑！

首先，小编要发布一个重磅福利消息：

DiVoMiner^®权限免费升级！

学习话题增加配置2个编码员权限！

可以免费组建您的研究团队！

正式标准话题编码员权限增加到6个！

团队容量升级！

升级后的DiVoMiner^®更强大！快来试试！

关于编码员信度测试，小编前期已向各位介绍了，欢迎回顾！

信度测试的基本知识（点击回顾：为什么要进行编码员信度测试，不直接打标签？）
信度测试的操作流程（点击回顾：有最好用的编码员信度测试系统，不信？马上试一下！）

但还是有用户向我们反映，希望能提供信度测试更加详尽的说明。今天呢，小编邀请三位同事作为编码员进行案例话题的实操，以下将分享下在信度测试中常碰到的疑问（大坑），让大家可以更快跨过这个小障碍。

疑问一：研究人员可接受的理想信度有没有标准？

编码员间的信度标准是什么？取决于研究的需要，总的来说，研究人员可接受的误差越大，信度就越低。根据研究经验，客观性类目，如人名、机构名等，信度结果要求较高；主观性类目，如意见态度等，信度要求可相应适度放宽。

根据多数已发表的内容分析法研究结果显示，当用Holsti’s Coefficient Reliability（霍斯提信度测试）时，可接受信度在0.9或以上，而用Scott’s pi等其他类型公式计算，可接受信度在0.75或更高。

目前平台上提供了四种常用的信度指标选择，但无论何种情况，研究员在正式报告中需要有合理的解释。以下为四种常用信度指标的说明：

值得说明的是，Krippendorff’ s alpha可测试两位或以上编码员的编码结果是否具有一致性，也可测试同一位编码员不同时间重复编码的结果是否一致。

疑问二：做了信度测试未能达到理想值要怎么处理？

小编选择了【案例话题】幼儿园虐童事件危机公关，按照指引，在【编码库】-将测试数据【随机导入到测试库】，然后安排编码员进行测试编码。编码完成后在【信度测试】中计算系数结果，再在【编码跟踪】里查看编码结果。

案例话题中的类目，已经是根据传统的理论或经验、研究成果进行了类目的设计，对于编码，只要让编码员根据同一标准对资料进行编码，然后计算编码员间的信度，以达到防范研究者对数据产生的影响，保证编码员对数据较为一致的处理，使研究结果更为客观之目的。在采用Cohen’s Kappa方法对编码员间信度测试之后，小编发现整体信度未能达到理想值，因此需要对问题进行定位。

首先，检查是否有定义不当、定义不清的类目

在实践中，有一种由研究人员根据假设自行设计的类目，那就存在很多不确定性，需要在编码过程中进行类目的完善。因此建议研究人员在制定初步的类目基础上，让编码员进行实验性研究，了解其合理性，研究人员再进行修订，试用，直至发展出客观合理的分析类目和编码明确的操作定义。

其次，对编码员进行培训，识别出意见不同的编码员

在对类目进行详细定义之后，小编对编码员进行了培训，帮助编码员准确了解类目的定义和范围，让他们能准确掌握编码的技巧和方法。在这个过程中，小编发现，编码员A在接受培训的过程中，仍不能与其他人在类目的标准保持一致的理解，因此让其退出研究项目。

在此次信度测试复盘的过程中，小编已帮大家明确了这两种做法，在这个过程中还有什么问题没解释清楚，欢迎留言，会在留言之后回复的哦。

参考文献：

Eugenio, B. D. , & Glass, M. . (2004). The kappa statistic: a second look. Computational Linguistics, 30(1), 95-101.
Fleiss, J. L. , & Cohen, J. . (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement, 33(3), 613-619.
Hayes, A. F. , & Krippendorff, K. . (2007). Answering the call for a standard reliability measure for coding data. Communication Methods & Measures, 1(1), 77-89.
Krippendorff. K. (2004). Reliability in Content Analysis: Some common Misconceptions and Recommendations. Human Communication Research 30, 3: 411-433.
Scott, W. A. . (0). Reliability of content analysis:Public Opinion Quarterly, (3), 3.
周翔。（2014）。传播学内容分析研究与应用。重庆：重庆出版社。

No Comments In博易-博易干货

2020年5月20日

【DiVoMiner x 浸大】社媒品牌分析比赛获奖作品赏析

这学期，香港浸会大学传理学院传播系的同学们，以“社交媒体品牌分析”为题举办数据分析比赛。一个月时间内完成分组报告，为指定品牌进行社交媒体运营分析及制定一系列商业数字传播策略。

本次比赛由DiVoMiner^®与香港浸会大学传理系课程合作，利用社交媒体数据集（Facebook、Instagram、YouTube、Office Website、Mobile App），同学们使用DiVoMiner^®文本大数据挖掘与分析平台作为分析工具。

“Digital Report 2020″（香港）报告显示，香港78%人口有社交媒体账户，即大约580万人口，当中Facebook、YouTube、WhatsApp、Instagram、WeChat、FB MESSENGER使用率皆超过五成，商家亦更为重视网络营销。

冠军组同学以花旗银行CitiBank为例，报告题为《CITI ALL Around You》，分析其社交媒体表现，为企业量身订造宣传方案。DiVoMiner^®专注文本大数据分析，以大数据技术辅助在线内容分析快人一步，洞察机遇，表现卓越，备受高等学府认可。

报告观察和深入分析品牌社交媒体表现情况，发现该品牌在Facebook上积累粉丝最多，YouTube上发文频率最高；投放及引发的网友互动内容有80%是正面和中立。综合分析结果，相信品牌在社交媒体上的表现依然有提升空间，需要整合与连接各传播渠道，以获得更佳线上参与度。

接下来小编带着大家来欣赏一下冠军获奖作品（节选）

No Comments In博易-博易新闻

2020年5月13日

丰巢收费，优化服务还是割韭菜？

在过去的几天里，深圳市丰巢科技有限公司

深陷其“丰巢快递柜收费”的舆论风波

原来，此次事件源于丰巢在4月底发布的

一条关于其会员服务的通知

“包裹保管12小时内免费，

超时后0.5元/12小时，3元封顶”

说白了，一直宣称对用户免费的丰巢快递柜

要开始限时收费了！

此消息一出，立马引起了巨大争议和讨论！

舆论的争议焦点究竟是在哪些方面呢？

小编带你来看下

事件背景

智能快递柜从2015年开始大规模在国内铺开，初衷是为解决快递“最后一百米”的问题，但渐渐的成为快递收取的重要环节。事实上，在这之前智能快递柜企业都有保存24小时以上会收取保管费的告知，这次丰巢将此“隐形”服务费公开告知，引起用户对自己权益保护重新认识。

丰巢作为拥有18万智能快递柜，

市场占有率为44%的企业，

此番收费到底激起怎样的浪花呢？

本期小编整理了4月30日至5月12日的微博及新闻报道，运用文本大数据挖掘及分析平台DiVoMiner^®，为大家梳理下本次事件。

传播路径

丰巢自4月30日推出限时收费模式以来，

几天的时间立马引起了全国多个小区不满，

甚至停用！

在5月10号，丰巢事件达到

网民讨论热度的顶峰！

之后发帖量仍有增加，但热度值明显下滑，

讨论重点从情绪表达转为解决问题。

事件的发酵期

舆论逐渐从正面和中立的情感，走向负面

而对于限时收费模式，

已经有用户表示”不买单”！

会员、收费等词汇提及的次数较多

事件的爆发期

真正引起社会广泛关注的时间在5月10日，

此时，

新闻及微博报道的情感已经以负面为主，

但随时间推移占比有所降低

多个小区也纷纷开始停用丰巢快递柜

丰巢收费，优化服务还是割韭菜？配图4

利益相关者占比

多方博弈，

消费者和快递公司是提及最多的群体

争议焦点究竟在哪些方面呢？

各位请接着往下看?

争议焦点

通过DiVoMiner^®平台的文本分析方法

可以看出，

本次事件的争议主要集中在以下四个方面

丰巢收费，优化服务还是割韭菜？配图6

争议1-快递保管时间不合理

免费快递保管时间从

之前的24小时变为了现在的12小时

足足少了一半的时间！！

丰巢收费，优化服务还是割韭菜？配图8

争议2-超时收费

存放时间超过12小时，

按0.5元/12小时收费，

很多小伙伴表示，我既然付了快递费，

快递不送到家门口，反而放在了丰巢，

是不是已经属于服务打折？

怎么还能收费呢？

丰巢收费，优化服务还是割韭菜？配图9

争议3-双向收费

丰巢在向用户收取费用之前，

已经对快递小哥收费了，

这种双向收费，是否合理，还有待考证！

丰巢收费，优化服务还是割韭菜？配图10

争议4-未经同意，放入快递柜

不少消费者也反映，快递员未经同意

把包裹放在了快递柜，

如果超时取件，那么消费者就要承担费用

有部分快递小哥也表示，包裹不放入快递柜

由于配送时间不匹配等原因，

那么无疑是增加了工作量，降低了效率

一项超时收费模式将丰巢送上热门头条，

你对丰巢这波操作，有何感想呢？

No Comments In博易-学术研究

2020年4月20日

【DiVoMiner】最新！一键get批量操作，效率倍增！

小编在后台经常收到用户提出这样的问题：

上传文本需要批量修改字段内容怎么办？

编码是不是可以批量进行？

数据是不是可以批量删除？

面对这些个性化需求，DiVoMiner^®对产品功能进行迭代升级，正式上线【批量修改】和【批量删除】功能！

现在您进入话题之后，点选【质量监控】页面，在右上角可选择【批量修改】或【批量删除】。

这两个让您效率翻倍的功能如何操作？适合什么样的情景？小编就根据上面的问题做个抛砖引玉的说明，更多应用还请大家根据研究需求进行。

敲黑板！请注意！

以下所有的操作都是基于【筛选】功能，筛选条件可选择一个或多个，确定筛选条件后则在【质量监控】页面中只显示满足筛选条件的数据。当然您也可以不做【筛选】，那就是默认为“所有数据”。

小编以【案例-小黄车退押金事件】作为示例

（在学习话题中可找到此示例数据），

点击【筛选】–【全部条件】

选取“标题”-关键词输入“押金”。（此示例数据不包含类目，下文中为自建类目，仅用于功能介绍说明）

问题一：上传文本需要修改字段内容怎么办？

比如在案例中，想把“标题”这个字段变量的内容全部统一修改“123”。

第一步，点击【批量修改】，对批量修改的数据对象及数据量进行确认；

第二步，设置修改的【变量】-“标题”，【结果更改为】-“123”（此处为自己填写）。

问题二：编码是不是可以批量进行？

比如在案例中，想把类目“1.退押金等待时间”变量的编码全部统一修改为“1个月”。

第一步，点击【批量修改】，然后进行确认；

第二步，选择【变量】-“1.退押金等待时间”，【结果更改为】-“1个月”（此处为点选）。

问题三：数据是不是可以批量删除？

比如在案例中， “标题”-关于关键词“押金”的数据不加入在研究范围中，需全部删除。

点击【批量删除】，将会提示“批量删除后帖子会进入回收站，您确定要执行此操作吗？”，点击确认即可。

小锦囊每期奉上

Q：【批量修改】数据可恢复吗？

A：批量修改不可逆，无法撤销，请确认需要执行该操作后完成。

Q：【批量修改】数据可多条件选择吗？

A：设置修改的变量及修改后结果，在条件右侧的打钩，表示修改为填充该结果。允许同时修改为多项结果，使用条件后加减号增删条件。

Q：【批量删除】数据从哪里可恢复？

A：批量删除的数据可在【数据管理】页面选择【回收库】进行数据恢复，支持多条件选择恢复，详细介绍请见官网使用手册。

No Comments In博易-博易新闻

2020年2月3日

【让研究更容易】恭喜有老师发表了SSCI论文！

香港浸会大学的Angela K.Y. Mak和Song AO的一篇关于兰蔻危机的研究成果成功发表在《公共关系评论》（Public Relations Review）！???该期刊成立于1975年，在公共关系领域具有重要的影响力。

Revisiting social-mediated crisis communication model: The Lancôme regenerative crisis after the Hong Kong Umbrella Movement

这篇研究运用DiVoMiner®获取并分析兰蔻的相关数据，构建兰蔻的危机模型（generative crisis model），并提供示例用以阐释社交媒体中的公众如何通过不同的信息形式和来源，情绪化地创造或消费危机信息。

该研究成果提供了以下四点重要意义：

一、

提供了经验数据以真实案例说明危机模型（regenerative crisis model）。

二、

通过信息形式和来源评估了公众的情绪化反应。

三、

运用内容分析法（content analysis）确定了四种有影响力的社交媒体创建者。

四、

完善了社交媒体危机沟通模型（Social media crisis communication model），并提供了实用的见解。

预祝各位学者在新的一年中发表更多论文！

No Comments In博易-博易新闻

Category 博易-博易新闻