Category 博易-博易干货

【DiVoMiner研究方法课4】为什么用大数据技术辅助在线内容分析法可以快速出论文?

导读
大数据技术辅助在线内容分析法是将传统内容分析的操作流程搬到“线上”,结合大数据技术,用网络挖掘、机器学习、自然语言文本处理等实现文本数据的在线处理,使得内容分析法的全部流程在线一站式完成,大大缩短研究时间,提升研究效率,快速产出研究论文。

大数据技术辅助在线内容分析法为何能快速产出论文呢?以下就是小编总结的几大优势,欢迎大家随时和小编讨论沟通。         

一、研究方法的非介入性

大数据技术辅助在线内容分析法是社会科学研究方法中不受时间和空间限制的方法。相比于其他社会科学研究方法,如控制实验、访谈、焦点小组、问卷调查等,这些测量行为会使得观察者影响研究主体,从而影响测量结果。而在线内容分析法作为一种非反应性或非介入性的研究方法,则避免了观察者对研究对象的影响。

二、保留数据来源的最初概念构想

大数据技术辅助在线内容分析法可将非结构性资料转化成结构性的数据,因分析是建立在原有数据资料生成之后的,可以保留数据来源的概念构想,这是问卷调查和结构性访谈等其他结构性方法所欠缺的。

三、对语境具有敏感性

控制实验、问卷调查和结构性访谈等无法将数据还原至原有语境,而在线内容分析法则承认数据的文本性,对语境具有敏感性。允许研究者针对有意义的或具代表性的数据本身进行处理。


                       

四、可靠且可复制

与所有实证研究一样,大数据技术辅助在线内容分析法依靠系统和可复制的技术来生成数据进行分析研究,主要在于其可靠性和可复制性,换句话说,如果分析类目和编码方案设计合理,任何人都能够进行分析[1],避免了研究者个人观点对研究结构的影响。 

            

五、可处理大量文本

区别于民族志方法、历史编撰学方法和诠释研究,这类仅可以对小量文本进行分析研究的方法,而大数据技术辅助在线内容分析法则因其具明确性的程序和统一的操作性,则可以处理大批量的文本。对于大批量文本的研究分析,这是其他研究方法难以实现的。

参考文献

[1]Neuendorf, K. (2004). Content analysis: A contrast and complement to discourse analysis. Qualitative Methods (newsletter of the APSA Organized Section on Qualitative Methods), 2(1). 33-36.


【DiVoMiner通知】0元领,自动化文本情感分析算法额度!!

自动化文本情感分析算法模型现已开放给个人用户使用啦!中文、英文均可搞定,在界面首页点击领取免费的算法额度!?

   

   


   

   

本期小编将带大家一起了解下关于文本数据自动化情感分析的基本知识!
   

随着主观性文本的增多,在面对复杂的自然语言时,机器是否能够做出准确的自我判断?自动化情感分析的研究思路和应用领域又是什么?本文结合研究团队多年丰富的经验和应用,从文本情感分析技术/方法应用的理解角度进行分享,欢迎读者们批评指正。

               



   

01
                               

什么是文本情感分析
                           

文本的情感分析(sentiment analysis)的目的是在于了解作者在特定文本中的情感态度,这些态度反映了作者在撰写该文本时的个人情绪状态,或是意图经由该文本向读者所传达的情感。一般做法是藉由文字解析出情感态度,可做二分类(正面、负面)或是三分类(正面、负面,或是中立)。
       



   

02
                               

文本情感分析思路
                           

传统的内容分析法(content analysis)涉及到文本的情感倾向研究时,通常藉由在一定编码员内在信度(inter–coder)的标准下,人工辨识文本的语意态度及复杂的情绪状态,该方法优点是准确。但随着 Web2.0 的蓬勃发展,互联网用户由单纯被动地接收互联网信息向主动创造互联网信息迈进,互联网上公开可用的信息不断增长,像是来自社交媒体,评论网站、论坛、博客、新闻及评论等,这些文本议题范围广泛,叙事方式也多种多样,形成大量、快速、多样以及不确定的网络大数据。因此透过人工编码的传统内容分析就无法支持大数据应用的需求,自动化情感分析因应而生。自动化的文本情感分析,是指结合自然语言处理(Natural Language Processing)、文本挖掘(Text Mining),以及计算机语言等领域技术方法,来提取文本中的信息,自动化的文本情感识别流程某种程度上弥补了需要快速掌握信息的需求。
       

       

在自动化文本情感分析当中,经常使用词典法计算文本中的情感,流程上先以人工方式标注一些关键词,然后通过不同的算法把关键词扩展到其他的新词,生成情感词典进行情感极性分类判断。还有一类是基于人工编码的机器学习或者深度学习,可根据训练集所在的数据空间拟合。
       



   

03
                               

文本情感分析的挑战
                           

挑战一:如前所述,互联网上议题范围广泛且复杂,不同来源的文本在叙事方式有极大差异,且内容本身不见得足以判断情感态度(有时可能透过网友留言符号才能判断),自动化情感分析往往是一套固定算法,且基于特定来源及议题为建立基础,因此所谓的“准度”,是建立在特定的测试集,使用通用评价指标(如:accuracy、precision、recall、f1-score)给出的量化值;既然能指定测试集,那么准度就会波动,至于波动范围到底怎样,还得看给的测试集的数据特点,具有不确定性。
       



       

挑战二:在情感分析当中,因为语言很复杂,文本环境有影响,网络媒体情感符号、非正式语言、网络新词等等因素也会产生影响,误判必定存在,“简单”的文章对于机器而言,往往未必那么“简单”。
       



       

挑战三:某些宣传“准”的情感分析模型,其训练数据、测试数据是有领域限制,即数据空间是封闭的,在开放领域的数据分析的准确率则会大打折扣,不能一概而论。上述诸多限制时常受到用户忽略,导致对于信息的错误掌握及情势误判,因此应根据研究实际进行判断。
       



       

由上可见,当前文本情感分析的技术层面,尽管对技术已有多种探讨,然而在不同维度上精确度、准确率、召回率等指标并不能达到理想的效果。因此,可从技术和人工介入两方面结合,以提升自动化情感分析结果的有效程度,如针对文本进行分析的常用研究方法——内容分析法,针对文本中的情绪进行类目细分,采用人工编码的方式对情绪分类进行编码,并运用量化分析工具实现数据的可视化呈现。如此,结合技术与人工思维方式,以期达到分析网络文本情绪的目的。
       



       

有别于一般的算法应用,DiVoMiner®技术团队多年来致力研发大数据人工智能技术,在中文自然语言处理方面积累了丰富的经验。不仅开放用户对算法模型结果进行人工校正功能,更以人工情感判断结果为最优先级的方式,让专业研究人员的经验(HI)配合人工智能技术(AI),将进一步提升情感分析结果“准”度。
       



   

04
                               

情感分析的学术应用
                           


           

小编在CNKI上选取社科类、新闻与传播类、经济与管理科学、哲学与人文科学类学科,研究主题为“情感分析”发表论文的情况来看,从2015年开始,这些学科有关情感分析研究快速增长。

               

   

           

最近两年大有成为学术研究热点的趋势,在线评论、网络舆情、投资者情绪等研究方面都有较为广泛的应用。
               

   

以小编的研究经验来讲,除上面所说的应用外,还可用在社交媒体的用户研究上,比如
   

  • 了解人们在社交媒体上对某一问题的态度。

  • 了解人们对产品、生产企业、人物的看法。

  • 分析广告、营销等活动对用户的影响。

  • 分析危机公共活动对用户的引导。

                                                       

DiVoMiner®一站式执行文本大数据技术辅助内容分析法,助力高效完成可发表期刊的论文,让学者们零编程使用机器算法模型,拓展自己的“研究版图”。
                   

               

最后小编想重点说一句,情感分析即使对人类而言,也是一项非常艰巨的任务,用户在应用文本情感分析模型的过程中,建议还是要选取最适合自己的研究方法。

       

       


哪些海外智库的影响力最大?海外智库在社交媒体Facebook的互动程度又是如何呢?

12月12日,由“一带一路”智库合作联盟指导,中联部当代世界研究中心、广东国际战略研究院、21 世纪海上丝绸之路协同创新中心联合主办的第五届21世纪海上丝绸之路国际智库论坛(2020)在广州开幕,线上线下同步举办。

澳门互联网研究学会会长张荣显博士受邀出席 “网络联通中外,命运心手相连”线上会议,并带来了题为《海外重点智库的社交传播特点分析》的主题演讲。

本次演讲运用大数据技术辅助网络挖掘及内容分析法,分析海外重点智库如何运用脸书(Facebook),研究发现海外智库较为关注中国事务,而 Facebook中国事务话语权仍掌握在海外智库中,中国智库应积极利用社交媒体提升全球传播力。

张荣显博士通过对大量的Facebook数据进行分析后,总结出了以下几个结论:

  • 欧美智库全球综合排名及社交媒体运营均占主导地位。

  • 影响力前十智库在Facebook占据主要影响力。

  • 海外重点智库更新帖文频繁,发文形式多样化。

  • 瑞士智库“World Economic Forum”影响力表现亮眼,注重发文形式。

  • 智库关注议题多样化且与自身属性相关。

  • 社交媒体Facebook中国事务话语权仍掌握在海外智库中,中国智库应积极利用社交媒体提升全球传播力。

此次研究由两位研究人员协助配合,花费一周时间完成研究报告,显示出大数据辅助内容分析法(BACA)流程在社交媒体分析中的高效和科学性。

以下是部分主题演讲PPT内容:(浏览完整主题演讲PPT请登入DiVoMiner®知识库进行查看)

?https://me.divominer.cn/community/


【DiVoMiner研究方法课3】内容分析法应用在哪些领域?近5年约4000篇文献话你知


导读

在前面的方法课上,谈到内容分析法完全采用科学的研究方法,即从研究目的,到研究理论,再到研究假设,最终到研究结果,整个过程应用科学而严谨。该方法既注重资料的量化统计,同时也注重对于资料的质性分析。


在研究和应用价值上面,内容分析法表现出强大的生命力。它能被用于研究任何文献或有记录的交流传播事件 ,因此应用领域十分广泛 ,包括从商业到社会服务、从市场和媒体研究 ,到人种和文化、社会学和政治学、心理认知科学以及很多其他研究领域。

内容分析法应用在哪些研究领域? 

首先在研究方面,内容分析法应用的情况如何呢?

用数据说话。首先在知网上进行检索,时间限定在2016.12-2020.12近五年,以“内容分析法”进行全文精确检索,出现2次以上的文献数量为3,906篇,从发表年度趋势来看,从2016年的74篇,到2020年预计为1,557篇,文献数量增长约20倍。


(图片截取来源:中国知网https://www.cnki.net/)


在研究主题方面,前三十个有关内容分析研究方法、研究综述、政策研究、网络文本、旅游形象研究等主题文献数较高。

(图片截取来源:中国知网https://www.cnki.net/)


在研究学科方面,社科类文献数是最多的,其中图书情报学、新闻与传播、旅游、教育、政治学、心理认知等学科文献数较高。

(图片截取来源:中国知网https://www.cnki.net/)

内容分析法在研究领域的应用案例 

接下来小编整理了部分应用领域的实战案例,供大家进行参考。如果大家还想了解更多的案例,可以登入DiVoMiner®知识库进行检索。

(https://me.divominer.cn/community/)

小贴士:新闻与传播学领域分析方向解读

了解到内容分析法可以应用的一些领域后,小编就以新闻与传播学为例跟读者们谈谈可进行分析研究方向。比如从传播过程中所涉及到的传播内容、传播者、受众的角度设计内容分析的研究模式。

比较传播内容的趋势


分析同一传播来源的内容,在不同时期或阶段的变化。例如:分析过去10年来主流新闻媒体,有关非传染性疾病的报道框架和导致框架差异的潜在原因(点击这里了解相关论文详情);分析网红事件在不同传播阶段的内容,比较同类事件在节点上的差异。

评估情势对传播内容的影响


探讨同一传播来源的内容,在不同的历史、政治、文化情势下,会有哪些变化。例如:分析广告在互联网1.0和2.0时代,不同移动终端广告内容的设计变化;比较抗议背景下,中医与西医媒介形象的变化性(点击这里了解相关论文详情)。

评估读者对传播内容的影响


探讨同一传播来源,面对不同的读者,是否会生产不同的内容。例如:分析新闻报道中有关一带一路议题报导的差异以及探寻差异的原因;比较KOL、政经界代表、厂商针对不同社交媒体(如微博、微信公号、Facebook、Twitter等)发表的内容以及读者与其互动性。

分析传播内容变量间的关系


分析同一传播来源中,不同内容的关联性。例如:分析某社交媒体账号所发表的大量内容之间,是否有关联性;分析同一电视台的不同节目所呈现的价值观念,是否有关联性。

比较传播者之间的差异


比较不同的传播来源的内容,藉以推论传播者之间的差异。例如:比较新闻媒体与社交媒体的社论立场,以探讨不同读者导向的媒体之社论立场,是否有所不同。

评估传播者的表现


在采取某一特定的标准,来评估传播者的表现。例如:以官方声明为标准,比较社交媒体有关疫情传播路径的讨论,以评估网络谣言的产生和发展;以某一传播内容的调查数据为标准,和社交媒体上相同传播内容的情感作一比较,借以评估大众和社交媒体网络情感分析的不同。



参考文献

Kondracki, N. L., Wellman, N. S., Amundson, D.R. (2002). Content Analysis: Review of Methods and Their Applications in Nutrition Education, Journal of Nutrition Education and Behavior. (34), 224-230.

 

West, M. D. (2001). Applications of Computer Content Analysis. Ablex Publishing Corporation.

 

周翔。(2014),传播学内容分析研究与应用,重庆:重庆大学出版社。


从“高原救援”到“旅游”,藏在丁真爆红之后的旅游营销手法

20岁藏族小伙丁真意外走红,“火爆”全网。从11月11日某平台上一则短视频到跨平台传播,一位素人因为颜值有意无意受到网络世界的关注和追捧。在这场全民狂欢中,政府文旅部门撸起袖子亲自上阵让小编更为关注,本文中将以传播阶段顺序,探讨“网红”传播加持下,“互联网+”时代政府在旅游营销传播模式、营销形态、营销内容的建立。

社交媒体红人“丁真”传播发展阶段


“丁真”这个名字在全网狂欢之下,话题热度持续走高,根据跨平台围绕“丁真”话题的检索结果,小编发现该话题的热度值从11月11号开始逐步升温,话题内容也从第一阶段颜值追捧,“素人”变“名人”;到第二阶段视频创作解构“网红”,同时今年直播的兴起,让网民可以用更真实的感受、更娱乐化方式去寻求价值观认同,引发围观效应;再到第三阶段微博上#全国各地都在邀请丁真#这出政府文旅部门宣传大戏的欢乐上演,央视对此波文旅宣传和丁真本人进行报道。

由此可看到社交媒体红人“丁真”的核心吸引力也从“颜值”延伸到原创内容、旅游推广等更多层面。政府文旅部门,特别是丁真家乡四川理塘县,通过契合受众的审美观、价值观、娱乐观,运用自媒体在品牌传播和转化方面做出了一番努力, “理塘”在旅游营销上成功出圈。

接着小编运用2020.01.01-11.11和2020.11.12-11.30围绕“理塘”话题的微博数据,使用DiVoMiner®做出词云图进行对比,11.11之前最多是关于高原救援的内容,而在丁真走红之后(摄影师于11.11在某平台发出7分钟视频),“旅游”热词出现,“藏族”、“赛马”、“天空之城”等与当地有关的旅游形象关键词热度较高。

2020.01.01-11.11 围绕“理塘”话题词云图

2020.11.12-11.30 围绕“理塘”话题词云图


下面小编运用微博围绕“丁真”话题在第二、第三阶段上内容,使用DiVoMiner®做出词云图,简单勾勒出政府部门在这场旅游营销当中怎么“玩”?

旅游形象塑造——当地政府下场塑造“丁真的家乡”


旅游形象的塑造依赖对旅游资源的挖掘。根据DiVoMiner®研究团队过往对旅游资源的研究定义,旅游资源是指对游客具有吸引力的事物,即对旅游者具有吸引力并让他们造访的自然和人文事物。可将旅游资源中的吸引物归为人文和自然两个类别,人文资源主要指当地的历史文化、传统美食、民俗风情、地方特产、娱乐设施、宗教;自然资源则是天然存在的资源,如水资源、岛屿、山脉、气候、森林、湿地、农庄。


以往的旅游营销当中,对理塘的认识大多是高原、仓央嘉措,是资深驴友、自由行群体会去的地方。几乎是一夜之间,“丁真家乡这个身份让它名声大噪,让网民看到了不一样风景的“理塘”。而在今年疫情的影响下,曾经大部分的境外或其他跟团游客群开启国内回流后,国内旅游消费需求发生变化,有特色的、小众的美景会吸引到这部分旅客。全网爆火的“丁真的世界”以及一系列相关的视频,发掘整合了当地人文自然的美感,流量有了,未来是否能满足疫情之后旅客新的消费需求,是否能产生好的旅游体验,形成口碑效应,达到更佳的营销效果,将考验当地的旅游接待能力。

旅游营销形态——从跨平台形象传播到全国蹭热点


这次“网红”传播在第二、第三阶段作为政府文旅部门公关的一种“互联网+”化手段,表现手法带有趣味性,更为贴近生活,一改政府“说教”的形象,通过这一波连续剧般的互动热潮,让网友感觉有趣的同时又欣赏到各地美景。随着政府对“互联网+”工具应用的更为熟练,旅游营销已跨过传统的平铺直叙的广告宣传,迈入出奇制胜的创意阶段。当流量来临时,如何承接住这些流量,各地文旅部门都交出了精彩的答卷。

话题第二阶段中政府的旅游营销形态


在结合“丁真”直播、视频、图片、和文字,四川甘孜迅速打开当地的知名度,有戏称“哪里都观察”的“四川观察”通过新闻、直播、采访报道等方式,让喜爱他的网友对“丁真”和当地人文自然景色有了更真切的认识,当地政府下属的国企签约“丁真”,成为“旅游形象大使”,发宣传视频等等,这一波接一波的内容征服了网友的心。丁真的形象与家乡形象相互融合。 

微博上围绕“丁真”第二阶段话题的词云图

话题第三阶段中政府的旅游营销形态


互联网的爆炸式传播效应,先是让西藏文旅部门嗅到机会,随后各地纷纷对“丁真”发出邀请。我们看到蹭热点式的旅游营销以见效快、高话题度受到各省文旅部门的青睐。看似小小的蹭热点,也是反映出在“互联网+”时代下,各地文旅部门面对新的机遇与挑战,发展出无限的创意和可能。

微博上围绕“丁真”第三阶段话题的词云图

“网红”“丁真”的下半场


“网红”这个词总让人有种“花无百日红”之感,当热度退却之时,如何维持热度以及可持续的发展,让网友们对“丁真”的未来充满不确定性。

纯真的笑容、美丽的天空之城,能否在2021年继续红下去?所有的网友拭目以待。 


【网络传播三人会干货整理1-张荣显】文本大数据的研究怎样做得好?

11月24日晚七点,以"文本大数据的研究怎样做得好?"为主题的第五期网络传播三人会热火朝天地在线上举行,本次线上会议由中国新闻史学会网络传播研究史委员会主办,澳门互联网研究学会承办。来自一百多所大专院校、科研机构,近五百位学者和研究生,共同聆听“如何利用大数据技术辅助进行内容分析法”的实战案例。

本次网络传播三人会的主持人及主讲嘉宾分别是:

  • 主持人:张荣显博士 – 澳门互联网研究学会会长

    引子:文本大数据的研究怎样做得好?如何利用大数据技术辅助内容分析?

  • 主讲嘉宾:王丹博士 – 香港浸会大学传理学院高级研究助理级硕士课程兼职讲师

    主讲题目:海内外报纸报道“一带一路”及内容分析的研究方法

  • 主讲嘉宾:张文瑜博士 – 澳门大学传播系助理教授

    主讲题目:文本大数据研究:自动化新闻或社交媒体文本分析为例

  • 主讲嘉宾:程萧潇 – 清华大学新闻与传播学院博士候选人

    主讲题目:作为数据的文本:大数据技术辅助内容分析中的数据探索与预处理

本期我们首先介绍主持人张荣显博士的发言内容,发言内容以大数据作为开端,介绍了文本大数据的研究路径以及人工智能在文本大数据研究中的不足之处,并提出了大数据技术辅助在线内容分析法(BACA)作为解决这些问题的新路径。

小编将张荣显博士精彩发言进行总结以飨读者,文章较长,分为以下几个部分(整篇大概需要8分钟左右阅读时间):

• 什么是大数据(big data)? 

• 什么是文本大数据 (text big data)? 

• 文本大数据的研究路径

• 人工智能(AI)于文本大数据研究中的缺陷

• 新路径:大数据技术辅助在线内容分析法

后续小编会继续分享主讲嘉宾的精彩演讲,敬请期待…

一、什么是大数据?

 

大数据简而言之,从物理上来讲,就是任何超过一台电脑处理能力的庞大数据量,以前是以TB为单位来描述数据量的多少,而现在是以Pb、EB、zb、yB和BB为单位的大量数据。


大数据具有大(数据量庞大:来自四方八面大量的信号),杂(信息多样性:文字、图像、语音、视频、地理位置…)、快(处理速度快:每分每秒变化)和疑(不确定性:数据是否真实)四个特征,当然还要从这些大数据里面能提炼出什么价值出来,这个才是一个最重要也是最需要关注的一个事情。


二、什么是文本大数据?


文本类的数据,包括新闻、社交网络、访谈文字记录、历史档案、文献文档、政策文本、文学作品、领导发言稿,包括文字、图片、视频等等,这些文本数据都具有大、快和杂的特点。从大数据的结构化程度来看,越往下它的结构化程度会越高,越往上,它的非结构化的程度就越高,也就是说不能单纯从Excel中的一个格来看出一个资料中的数字或者意义,这些都是一种非结构化的状态。


三、文本大数据的三个研究路径

1. 文本挖掘

利用人工智能或机器学习的技术,大量把非结构化的文本数据中抽取的分析书。通常我们都说自然语言处理的NLP的技术来进行产出如情绪主题、词语或者词语图及其相关性或者意图等等,并且可以以可视化的方式来呈现这个结果。通常都是利用python或者说语言来实现。如果做文本挖掘,则需要具备编程的能力,如果是研究人员的,特别是负责编程的,则会有很大的主动性,且可以按照自己的研究设计来回答研究问题。

2. 舆情监测

利用现成的自动化的系统,通常是结合自然语言处理跟机器学习的技术,就可以产出标准化的正负面情绪、词云图、来源分布图、声量趋势图等可视化结果。这一种研究者就无需具有编程的能力,但研究者会受限于系统,因为程序已经规范好,则研究者会缺乏主动性,也就难以按照自己的研究设计来回答研究问题。

3. 内容分析

它也是利用现成的可定制化的一种系统,通常是结合自然语言处理跟机器学习的技术,可产出标准化比如刚才所提到的正负面情绪,来源分布图、声量趋势图等可视化结果。有些系统也可以建模,比如说情绪模型,主题聚类模型,词关系模型和社交网络分析模型等。研究者无需懂得编程的能力,它是以内容分析法作为核心的操作流程,且研究者具有完全的主动性,也就是说研究者可以按照自己的研究设计,类目的建构跟量化系统等手段来回答研究问题。

“目前这三种比较主流的文本大数据的研究路径,各有各的好处,也有不同的人在使用不同的方式,要看你面对的是什么样的研究问题,你有的资源是什么”,张荣显博士表示。

四、关于自动化人工智能应用于

文本大数据研究中的问题

人工智能分两类,一类是弱人工智能,利用机器来模拟人的某些特定技能的智能,来处理一些特定场景和应用问题,例如我们经常看到像语音或人脸识别,这类是偏向于感知,也就是识别这个层面的水平。一类是强人工智能,它需要达到有理解的,有认知的,有判断层面的的水平以及几乎接近人类的这种适应水平,当然现在并没有这样子的一个例子出现,这类是比较偏向于认知和判断层面的水平。

而在文本数据的分析当中,如果涉及到认知跟判断层面的时候,会面临中文语境及上文下理的问题,包括很多场景,也包括常识性的东西,不一定能够理解。另外当文本当中有具体指向物,尤其出现多个的时候,还有反讽、暗语、价值判断、及多变量关系等问题出现。

1. 人工智能 /机器学习的“能”与“不能”

人工智能比较擅长感知,也就是识别,但涉及到情感伦理、道德判断、认知判断,人工智能的效果就不是太好。特别是在情景语境高度相关的情况之下,确实有很大对理解和认知判断的能力,比如曾经有人举例说,你能穿多少就穿多少,这句话在冬天的时候跟夏天的时候,它的含义是完全不一样的。另外一个就是北漂老家的妈妈经常催他结婚,然后回答我原来喜欢一个人,现在喜欢一个人,这样的情形就很难去理解。

所以,从感知和认知去判断,重要的不是我们能看到可视化的一个结果,而是这些结果能带来给我们做出判断的信心和确定性有多高,那就是需要从一开始的数据库建立,到设定分析框架,到测量的分析,都由我们"人"来掌控的。

2. 文本大数据的三大挑战

当前最需要关注的处理文本大数据这三大的挑战:

  1. 覆盖 解释数据是否齐全,代表性如何,数据的质量怎么样?

  2. 测量 可以测量什么?如何测量?

  3. 解释如何分析挖掘以及解释发现?

归根到底,还是3个社会科学研究中永恒的问题:信度!效度!变量之间的差异及关系!

五、新路径:大数据技术辅助在线内容分析法

我们提出新的路径就是大数据技术辅助在线内容分析法(Big-data-tech-aided Online Content Analysis,简称BACA),整个框架就是让海量的数据结构化,从线上或线下提交数据,发现未知的规则,然后在已知当中深度去探索,利用在线内容分析,包括人工编码结合AI编码或者机器学习编码的方式来完成。我们强调就是一个系统化,客观性跟可量化的一种方式。


1. 内容分析法的演变过程

内容分析法的技术演变过程就是从传统内容人工(从纸笔到Excel),计算机辅助内容分析它是辅助做数据处理,包括用一些单机、语料库词库和算法等等的技术导入,大数据技术的内容分析法是人机结合机器算法和数据的驱动来做成,功能包括数据探索,数据管理、信度测试、编码、质量监控、团队协作,统计分析及可视化等等,通过技术的导入,比如云计算、AI算法、ML模型,网络挖掘及统计等来实现。


2. 大数据技术辅助内容分析法的操作流程

通过大数据技术的辅助,可以在线完成整个内容分析法的操作跟分析层面的流程,具体操作流程如下图所示。

3. BACA的研究分析策略

左半蓝色部分是机器技术,右半黄色部分是研究人员,两者相结合在一起,是大数据技术辅助结合人工智慧介入的一个情景。通过人的主动研究,主动思考,把研究设计嵌入到整个分析策略的流程里面,最后用机器产出结果,也可以通过人工去产出结果,或者两者都可以实现的一个研究分析策略流程。

最后,张荣显博士指出,"利用大数据技术辅助在线内容分析法,即使你不会计算机编程,只要你掌握了研究方法的逻辑,遵循学术的规范,都可以主动的按照自己的研究设计,做出“好”的文本大数据研究成果”。


【DiVoMiner研究方法课2】为什么大数据技术辅助在线内容分析法是今后文本大数据研究的一个重要手段?

导读

上一期研究方法课向大家介绍了内容分析法的定义,那么本期研究方法课,小编将向大家简单介绍一下什么是大数据技术辅助在线内容分析法,让大家初步了解一下这个方法是怎么操作的以及应用领域。


 上期回顾:什么是内容分析法 

内容分析法是社会科学研究方法中的一种对文本内容进行编码、分类、语义判断及形成可供统计分析之用的量化分析方法。它是指一种以系统、客观与量化的方式,来研究与分析传播内容,以测量及解读内容的研究方法。[1]

(更多关于内容分析法的内容详见》》》【DiVoMiner研究方法課1】为什么要学内容分析法?

让我们回忆一下往事 

那是在20世纪60年代,哈佛大学的比兹·斯通 (Biz Stone)、埃文·威廉姆斯 (Evan Williams)等人研发了一种计算机辅助定量内容分析的软件——General Inquirer(GI)系统[2],辅助进行内容分析的相关操作,计算机技术辅助内容分析的应用逐渐开始。1980年代,一系列计算机辅助定性分析(computer assisted/aids qualitative data analysis,CAQDAS)软件陆续出现了,例如MAXQDA,NVivo以及ATLAS.ti,辅助进行数据管理、编码、检索、注释和可视化呈现等。[3]


 回到现在 

因而,将大数据平台与人工智能算法结合,辅助在线内容分析是适应当今乃至未来大数据研究环境的必然成果。



 什么是大数据技术辅助在线内容分析法 

大数据技术辅助在线内容分析法是一种 研 究 方 法。


在互联网环境下,海量信息奔涌而出,超大体量的信息研究成为了各行各业乃至各个研究领域都普遍关注的焦点。传统的内容分析法只能借助技术实现大数据研究。这体现在数据采集、数据存储、数据处理和数据分析的过程中,均需要借助技术手段,尤其是在大数据研究过程中面临的种种挑战,如信息的覆盖度问题、数据的测量问题和海量信息的分析结果的解释度问题,均需要结合智能技术、科学严谨的研究方法来解决这些问题,因而大数据技术辅助在线内容分析法应运而生。(详见 张荣显,曹文鸳:《网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析》,《汕头大学学报》(人文社会科学版)2016年,第8期,第111-121页。)[4]



 具体操作过程 

大数据技术辅助在线内容分析法基于科学的方法论——内容分析法的基本流程,运用网络挖掘、机器学习、自然语言文本处理、人工智能编码、实时信度测试、统计分析、社交网络分析等实现文本大数据的在线处理,产出定制性的文本大数据项目研究成果。具体的操作流程如下:(它是一个严谨的方法论研究流程)



有颜色填充的部分都是可以在线完成的,整个大数据技术辅助在线内容分析法都可以在智能科学的DiVoMiner®文本大数据挖掘及分析平台上进行。


在我们确定了研究问题或假设后,研究数据库的建立、抽样、信度、编码、统计分析、可视化呈现等均可在线完成。

不懂编程咋整?


这个问题不需要担心,因为根本无需你编程,我们强大的技术团队经过十年的实践和科学研究经验已经为大家搭建好了一个友好的、智能的、科学的文本大数据挖掘及分析平台,只需要将你设定好的研究计划内容搬到平台上,平台就会帮你进行接下来的研究操作了。

研究计划是什么?


主要就是基于你的研究问题,所准备的研究数据、类目(编码表)以及你需要的编码员。

不用担心研究质量和运算能力的问题,在这方面早有准备,平台设定了完备的质量控制机制,比如学术界普遍认可的信度测试,监控整个信度测试过程,具体到可随时追踪查看编码员所作出的具体选项,自带学术界认可的四种信度计算方法,随时定位编码结果,所有的数据分析结果也可以追踪回溯至原文。

 可应用于哪些领域?


希望大家可以在各自的领域中尝试运用内容分析法进行研究。当然,这只是部分的应用领域,大家了解了大数据技术辅助在线内容分析法后,可以尝试更多的领域和方向。


商业领域中,有研究者使用内容分析法评估相关行业的发展趋势。


社会服务方面可利用内容分析法监测舆情。


新闻传播学领域,主要应用于检视媒体报道、关注的重点、社会舆论情况,揭示传播内容的特征、发展走向或者影响内容的因素,检验传播者与传播内容之间的关联性,推导或验证媒体内容的传播效果等。


心理学和行为学领域,主要应用于分析个体或特定群体的心理倾向、特征及其相应的行为取向和特征,以及对某一对象的态度和看法等,比如消费者心理和行为分析、对政治领袖的拥护度分析等。


情报学领域,可利用内容分析法中常见的主题词词频分析来描述不同学科、知识领域乃至研究主体之间的交叉、渗透和相互关联,解释学科结构与发展动向,为科学管理与预测的研究提供依据。


政治学领域,研究政策发展变迁。

宗教领域,研究佛经中的内容特征和传播特点。

文学领域,研究文学作品中人物角色关系、语言风格特征等。

教育学领域,研究教学材料、中西教育制度、教育方法、观念等。

会展和旅游业领域,研究品牌形象定位与传播。

-其他……欢迎大家前来补充。


[1] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.

[2] General Inquirer的主要用途包括:在文本内系统地找到属于被调查者详细说明的类目的那些单词和短语的实例;计算这些类目出现的次数,并详细说明共同出现的次数;打印表格和绘制图形;执行统计检验;根据它们是否包含特定类目或者类目组合的实例,对句子进行分类和重新分组。参见:Stone P., Dunphy, D., Smith, M., & Ogilvie, D. (1966). The general inquirer: a computer approach to content analysis. Cambridge: MIT Press.

[3] Wiedemann, G. (2016). Text Mining for Qualitative Data Analysis in the Social Sciences: A Study on Democratic Discourse in Germany. Wiesbaden, Germany: Springer VS, 43.

[4] 张荣显,曹文鸳(2016)。网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析。《汕头大学学报》(人文社会科学版),(8),111-121。

[5] Neuman, W. (1997). Social research methods: qualitative and quantitative approaches. Needham, Heights, MA: Allyn & Bacon, 272-273.

[6] Palmquist, M. (2013). Content analysis. Retrieved from https://www.ischool.utexas.edu/courses


【DiVoMiner更新】全新改版的编码界面!多格式数据上传体验优化!操作更灵活!更方便!

   

前段时间,好多位DiVoMiner®平台用户在后台留言咨询平台的优化问题,小编我也汇总了一下大家最为关切的几个疑问。
           

  • 上传的数据文件有改动,重新上传至平台数据会被覆盖掉吗?

  • 可以支持知网的数据格式上传吗?

  • 能不能针对指定类目进行机器编码,全部机器编码太浪费时间了。

   

针对以上问题,有没有解决的办法呢?
       

告诉大家一个好消息,
       

以上的问题在这次的版本更新中
       

已全部得到了解决!
       

有没有很激动呢?
       


       

下面小编就和大家说说这次更新的内容
       

请大家接着往下看?
       

       

       

数据文档
       

    

1. 支持第三方数据源CAJ格式
 
     

新增加了对知网CAJ格式文档的支持,经常浏览和使用知网的用户们再也不用发愁啦!
       

       


       

       

2. Excel文件支持数据排重和数据更新
 
     

上传数据一栏,新增加了数据排重和数据更新选项,平台将会根据指定字段进行数据排重和更新,再也不用为重新上传数据的问题所烦恼了
       

       


       

       

       

平台操作
       

   

1. 机器编码操作界面优化
     
 

用户现在可以针对某一筛选条件来进行机器编码操作,例如按照个别类目,数据范围、日期和来源等,是不是很大程度上节省了你的编码时间呢?
       

       


       

       

2. 任务记录
     
 

新增加了任务记录选项,大家可以看到在总览界面的操作记录,比如创建数据库,机器编码和抽样等内容。
       

       


       

       

3. 话题设定
       

新增加了话题设定选项,可以直观地看到当前话题的基本信息,例如数据容量,文件容量和成员信息,也可以在成员管理界面查看和邀请成员。
       

       


       

       

更多的功能更新和界面优化,还请大家登录平台实际操作来切身感受!还没有平台帐号的朋友们快快登录网站注册体验吧!
       

       


【DiVoMiner研究方法课1】为什么要学内容分析法?

导读

对于缺少计算机编程经验的社科研究者而言,从传统内容分析到计算机辅助内容分析,直至发展到结合人工智能算法和大数据技术的内容分析,研究过程充满荆棘。就算有好的研究思路,不会编程,没有好用的研究工具,面对海量的数据,也是巧妇难为无米之炊。


区别于市面上其他大数据处理工具,DiVoMiner®是一个助力研究的在线数据挖掘与分析平台,以内容分析法为设计核心,利用机器学习编码,人机结合的操作流程,在线完成内容分析法的全部流程,并提供灵活而强大的研究执行及管理功能,是市场上唯一一个兼具实用性和学术性要求的大数据文本内容挖掘和分析平台


从本期开始,研究团队特别策划了《研究方法微课堂》系列,带着读者一起从平台的核心——内容分析法理论开始,再到大数据资源,再到后续的分析(比如分词、主题分析、信度测试等等),再到可视化结果的呈现。让各位读者对DiVoMiner®研究方法有一个详尽和直观的了解。


敲黑板,重点是:研究方法微课堂这个系列还会结合已发表的论文案例进行分析,帮助各位读者高效实现平台应用的终极目标——论文


下面就让小编带领各位读者从“什么是内容分析法?”开启第一次的研究方法之旅吧!

 分析什么内容? 


首先明确内容所指涉的对象,是任意一种可被传播的消息,包括“单词、意义、描述(pictures)、符号、思想、主题等”,区别于文本分析仅限于文本或副本,内容分析的文本则是来源于传播的媒介,包括书面的、视觉上的或是口头表达的[1],包括书籍、章节、采访、讨论、报纸标题和文章、历史资料、演讲、谈话、广告、戏剧、非正式交谈或者任何交流性的语言[2]。 


也就是说,任何符号都可以用来做内容分析。社会科学研究中大多都是针对新闻报道、社交媒体内容、文学作品、历史档案、访谈、学术文献、政策文本、发言稿、图片和视频等进行内容分析。



内容分析法用来做什么? 


内容分析被看成是一种研究方法,该方法使用一整套程序,在文本中得出有效推论[3]。具体方式为测量大众媒介中的某些变量的数量[4]。即“对传播符号的系统性且可重复(replicable)的考察,即根据有效的测量规则对其赋值,并对那些数值涉及的关系运用统计方法进行分析,以便对传播做出描述,对它的意义进行推论”[5]。 


内容分析法是一种研究方法,它是系统的、可重复使用的研究方法,用来把杂乱无章的非结构化文本内容转化成结构化的数据,也就是可视化图表,以对内容进行分析、解读,得出深入的推论、洞察,挖掘价值。

注:博易数据DiVoMiner®文本大数据挖掘及分析平台中【统计分析】模块的部分页面截图


  总结 

(请用心阅读以下定义)


内容分析法是社会科学研究方法中的一种对文本内容进行编码、分类、语义判断及形成可供统计分析之用的量化分析方法。它是指一种以系统、客观与量化的方式,来研究与分析传播内容,以测量及解读内容的研究方法。[6] 


[1] Neuman, W. (1997). Social research methods: qualitative and quantitative approaches. Needham, Heights, MA: Allyn & Bacon, 272-273.

[2] Palmquist, M. (2013). Content analysis. Retrieved from https://www.ischool.utexas.edu/courses

[3] Weber, R. P. (1990). Basic content analysis (2nd ed.). Newbury Park, CA: Sage, 9.

[4] Berger, A. (1991). Media research techniques. Newbury Park, CA: Sage, 25.

[5] Riffe, D., Lacy, S., & Fico, F.G. (2005). Analyzing Media Messages: Using Quantitative Content Analysis in Research (2nd ed.). Mahwah, New Jersey: Lawrence Erlbaum Associates, Publishers, 20.中文译本参见:丹尼尔・里夫,斯蒂文・赖斯,弗雷德里克・G.菲克,里夫,赖斯,菲克等(2010)。内容分析法:媒介信息量化研究技巧。清华大学出版社。

[6] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.


连接琴澳创新科技合作的秘诀是什么?

2020年10月28日,由三一(珠海)投资有限公司及珠海市青年创业协会主办的珠澳科技创新合作论坛暨招商成果发布会在珠海横琴新区三一南方总部大厦举行,澳门互联网研究学会会长、珠海横琴博易数据技术创始人兼总裁张荣显博士应邀出席,与珠澳两地专家学者及企业家等共同解读珠澳创新合作新机遇。

连接琴澳创新科技合作的秘诀是什么? 配图1

论坛出席嘉宾合照

连接琴澳创新科技合作的秘诀是什么? 配图2

论坛现场

当日,张荣显博士在论坛上发表题为《用数据架起琴澳科技合作的桥梁》的主题演讲。

连接琴澳创新科技合作的秘诀是什么? 配图3

易研张荣显博士

连接琴澳创新科技合作的秘诀是什么? 配图4
连接琴澳创新科技合作的秘诀是什么? 配图5
连接琴澳创新科技合作的秘诀是什么? 配图6

在同日举行的珠澳跨境合作圆桌论坛上,张荣显博士就相关问题提出见解,与另外4位优秀企业家共同探讨挖掘珠澳创新科技发展的新机遇、新合作,为珠澳创新合作建言献策。

连接琴澳创新科技合作的秘诀是什么? 配图7

珠澳跨境合作圆桌论坛现场