在DiVoMiner®上创建话题成功后,会自动进入到【数据管理】界面。刚开始接触平台的用户可能会有点疑惑,平台左侧的这些按钮,【编码库】【抽样库】【测试库】【回收库】这些系统定义的数据库差别是什么?各自的作用又是什么呢?


首先小编请大家看下面这张图,做个初步了解,然后再一一详细介绍。


一、 数据库管理:【编码库】是内容编码及后续分析的基础


准备数据阶段,首先需要确定不同类型的数据来源,分别建立数据库,例如,历史文献数据与社交媒体数据格式有所不同;不同的社交媒体数据类型有所不同;将格式不同的数据类型分门别类上传至对应的数据库的【编码库】,给数据库命名,完成建库过程。

重点强调的是:不同数据库之间字段可通用。后续数据探索、在线内容分析、统计分析及可视化等是基于【编码库】中数据进行分析。

接下来建立【抽样库】或是【测试库】也是在【编码库】中操作,使用功能键【抽样】、【随机导入到测试库】完成。

二、 抽样库-为研究方法带来更多的可能性


在DiVoMiner®平台的研究流程设计中,是否需要建立【抽样库】看研究者的需求。需要指出的是平台的设计理念及方法论核心是大数据技术辅助在线内容分析法,因此,面对体量庞大且结构繁杂,分析难度较大的文本大数据,其运算能力具有优势,在平台提供的范围内是能够保证对海量文本数据进行计算。

但即便如此,还有很多研究场景需要建立【抽样库】来解决具体问题。


  • 研究分析的需要。如小编同事在第68届国际传播学会会前会议的论文——《虐童事件中的危机公关研究》(点击查看全文)中建立总体数据库呈现整体趋势结果,建立样本库进行结果分析的方式进行。

  • 通过【抽样库】来实现研究方法上的快速验证。在研究中,像类目建构、关键字的设定需要依靠研究者创新性的思维和主观判断,通过建立【抽样库】的方法,可对这类研究内容进行简单化、可行性和可操作性的验证。


  • 通过抽样解决样本分配的问题。在研究当中,可能存在不同类别的数据量差距较大,假设在一个研究话题下,分别有新闻数据库(100条数据),微博数据库(10000条数据),研究者希望研究中微博的数据大约为新闻数据的两倍,这里就可通过建立【抽样库】的方式来满足研究者的需求。


需要重点强调的是,在DiVoMiner®平台的研究设计中,【抽样库】和【编码库】是独立的关系,【抽样库】中同样有【编码库】、【测试库】和【回收库】的配置。

三、 【测试库】-为编码员之间的信度测试提供数据


【测试库】是从【编码库】中抽取部分数据建立,用于测试编码(前测编码),要求编码员对相同的数据进行测试编码,计算编码员之间信度,在信度达到可接受的一致性水平后,开始正式人工编码。

四、 【回收库】-存储清洗数据后删除的数据


清洗数据后删除的数据全部会放到【回收库】中,可在【回收库】中对数据进行恢复或彻底删除的操作。

DiVoMiner®上数据库的设计思想,是源自于对大数据技术辅助在线内容分析法研究过程的功能需求,多库配置,满足独特的研究目的。