网络世界犹如汪洋大海,如果想要做网络文本数据研究,首先会面临一个“棘手”的问题:怎么从这茫茫大海中,捞取到科学的数据样本呢?

传统的调研方法,如电话调查、问卷调查等,会从科学的样本抽取方式出发,要求数据样本具有代表性,以此确保得出的数据结果有解读价值。是否到了大数据时代,网络数据大而全,就不需要考虑样本代表性了呢?实际上处理网络数据时,我们也需要考虑数据是否齐全、具有代表性、和数据质量是否有保证的问题,否则数据样本失焦,难以满足研究要求。

接下来小编就以城市形象主题的论文《大湾区11个城市旅游品牌个性研究》(可留言索取全文)为例,和大家探讨如何在大数据时代获取合理数据样本的方法。这也是将研究问题概念化,并落实到检索条件的设计的过程。

设定检索数据条件之初,需要明确两个问题:

1.   需要什么范围的数据作为研究对象/研究样本?换言之,需要什么样的数据配合研究需要?


2.   确定了想要的数据范围后,用什么检索方式把对应的数据捞取出来?

按这个思路,三步走,完成数据检索工作:

第一站,根据研究主题确定适配的数据范畴

研究者需要在确定研究主题(研究假设)后,决定需要使用什么范畴的数据,可以回答研究问题。比如,在案例论文中,研究问题是想了解大湾区各旅游城市所呈现的品牌个性是什么?同时想了解各旅游城市体现出的旅游资源、形象定位情况。那么理清研究主题、综合文献、明确研究问题后,就可以初步确定,和大湾区各城市与旅游有关的数据,是这个研究中比较合适的数据范畴。

第二站,架构概念化逻辑检索获取数据样本


在研究实践中,检索条件的设计优劣,会影响到数据样本结果的数据量和准确度。一种很容易发生的失误是,检索逻辑(关键词条件)范围过大导致数据目标模糊,样本代表性不佳,混入无关和垃圾信息过多,给研究造成困扰。另一种情况是,检索条件方向偏离,导致查询结果与目标数据范围落差过大,进一步分析时会得不到有效数据结果

为避免上述问题,小编推荐使用概念化逻辑检索的思路,利用多元检索关键词搭配,配置一定的逻辑语言,建立一套检索概念(有点像建立检索概念数据库),利用检索词在概念上的相关性,检索获得同属一类概念的结果

在案例论文中,大湾区城市与旅游有关的数据,可以拆解为两大部分,满足下列条件之一,就可认为这个文本是属于我们所需要的研究数据范围:

1.    同时提及大湾区任一城市名称和旅游广泛相关的词语,比如“珠海 AND 海岛游”、“广州 AND 动物园”、“香港 AND 景点”等都属于此列。

2.    大湾区的任一旅游景点名称,基本可确定是和旅游相关,比如“长隆海洋王国”、“世界之窗”等。

需要说明的是,上列举例是一个简化的情况,在实际操作中,“香港”的检索条件会是一个概念类,扩充为“香港 OR "HK" OR "Hong Kong" OR "HongKong”,照顾网络表达语言的多元化,尽可能让捞取的数据范围准确。



第三站,核查数据质量,设定概念排除无关或垃圾信息


由于网络表达的复杂性,即便使用概念化逻辑条件检索文本数据,依然无法保证数据恰如其分刚好是研究范畴内的数据。所以进一步,使用排除逻辑,做初步的数据清理。例如,在某个招聘告示中,有内文提及,公司地点在xxx景区附近,这明显不是我们需要的数据。对于这种情况,我们设置招聘概念类检索条件,把提及“面试 OR 招聘 OR 诚聘”内容的文本排除出去,净化数据。

最终,在这篇论文中,我们使用了超过300个关键词加以组合,建构概念化的、具有逻辑的关键词组,同时排除词超过70个,在DiVoMiner®平台(有数据源的版本)上进行数据检索,以保证平台在线数据挖掘和数据筛选机制能够确保网络挖掘的数据内容在覆盖度和准确度方面尽可能符合研究目的。