博易携手UIC产学研融合 大数据教育与产业提速增效

产学研协同攻关,大数据教育与产业提速增效。博易数据创始人兼总裁张荣显博士昨天(6月5日)率团队赴UIC(北京师范大学-香港浸会大学联合国际学院)为师生提供DiVoMiner®教育平台培训,以技术赋能,为教学成果转化搭建创新平台。

博易团队与UIC师生合照

UIC人文与社会科学部助理教授胡帆老师、许夏营老师、李康老师、林庆宝老师与广告专业的同学们出席了DiVoMiner®教育平台培训,与博易团队互动交流。师生对DiVoMiner®教育平台表现出浓厚兴趣,认为其在广告分析、公关成效分析、传播内容分析等方面具有较高的教学及实用价值,能为学生将来就业提供扎实的大数据应用基础。

UIC师生接受DiVoMiner ®教育平台的实操培训

DiVoMiner®是内容分析技术的行业“领跑者”。张荣显博士在培训课上指出,DiVoMiner®是市场上唯一一个兼具实用性和学术性要求的网络挖掘和文本分析平台,是一个基于云计算的数据挖掘平台,以内容分析法为设计核心,利用机器学习及人工校正编码方式,以人机结合的研究方法, 在线完成内容分析法的全部流程,并提供灵活而强大的教学协同及管理功能。

博易数据创始人兼总裁张荣显博士

博易数据产品总监李耿明就DiVoMiner®教育平台的设计架构、方法流程进行了介绍,随后由博易数据研究拓展经理林子筠现场演示如何使用DiVoMiner®教育平台进行严谨的文本数据分析,从数据收集到结果产出均可追踪源头,同时可在平台上进行词云分析、议题分析、描述统计及多变量分析等。

博易数据产品总监李耿明

博易数据研究拓展经理林子筠

社会科学常用的“内容分析法”,对传播内容所含信息量及其变化的分析,过程艰辛而繁复,但利用DiVoMiner®,无论是新闻文本、微博发文、文学作品、历史档案访谈、文字记录、学术文献、政策文本、发言稿,还是图片或视频,都可以在平台上做挖掘与分析,定量与定性分析并存。

UIC师生接受DiVoMiner ®教育平台的实操培训

“曾经需要整整一个月去做的编码工作,现在只要一个上午就能完成。”UIC师生接受博易数据团队针对DiVoMiner®教育平台的实操培训后,认为有助于学生培养技能,让学生更深刻了解内容分析法相关知识及在大数据应用方面打下扎实基础,并对DiVoMiner®的严谨性、实务性、高教学及使用价值纷纷点赞。


虐童事件中的危机公关策略管理(英文)

2018年5月24日,博易团队在ICA – PRSC会前会、第十一届PRAD国际学术论坛暨第三届PRSC学术年会上发表题为《Crisis Management in Public Relations about Children Abuse Events in Kindergartens》的论文,此次会议在布拉格举办。点击下载完整PPT

研究以博易DiVoMiner®文本大数据挖掘及分析平台为数据采集、处理和分析工具,使用大数据技术辅助网络内容分析法,详细分析携程亲子园及红黄蓝幼儿园虐童事件中的危机公关策略。

点评人Anne B.LANE(来自Queensland University of Technology,QUT)表示,博易团队的研究具有实践性意义,对DiVoMiner®科学严谨的方法流程表示了肯定,认为该机制大为提高了研究者研究效率

以下为论文摘要及PPT全文。

Abstract

This study takes the cases of Children Abuse in RYB Education pre-school and Ctrip Parent-child Garden in 2017 to explore the response strategies of the crisis. Online content analysis based on big data technology which combining with web mining and machine learning is utilized. This research presents an overview of two cases and measures the responsibility subject and communication principle of crisis management in public relations involving children abuse. It has been discovered that three points of suggestions for responding the crisis. Firstly, identify the crisis facts and wait for the authoritys investigation result. Secondly, establish a constant public relations mechanism and publish information with one voice. Thirdly, specify implementation plan, the more detailed the better. It is expected to provide a methodological reference for the response strategy of crisis public relations management in related these issues.


【博易在布拉格ICA】祝贺第十一届PRAD国际学术论坛暨第三届PRSC学术年会顺利召开

ICA – PRSC会前会、第十一届PRAD国际学术论坛暨第三届PRSC学术年会在风景如画的布拉格举办,以“多元化的声音:以真实的传播在社会中建立信任及对话(Diverse Voices: Authentic Communication, Trust, Dialogue, and Society)”为会议主题,来自19个国家和地区的近百名学者及专家汇集捷克布拉格查尔斯大学(Charles University),分享多元化的研究成果。此次会议由中国新闻史学会公共关系分会、华中科技大学、香港城市大学、香港浸会大学、台湾世新大学、捷克查尔斯大学、ICA公共关系分会、欧洲公关教育学会和中国新闻史学会会公共关系分会联合主办。

Ralph Tench教授、陈先红教授、李喜根教授、陈怡如教授、赖正能教授和Dinisa Hejlová教授、洪君如教授等多位学术大咖依次在开幕式上进行主题演讲。

(图片来自会务组)

陈先红老师作为主办者代表之一,在会上欢迎来自各方的学者,肯定了PRSC和PRAD十年来的成长,总结了三项重要成果

1) 出版了中国首部集大成的奠基性公共关系理论工具书《中国公共关系学》博易团队参与该书的部分撰写工作,详情请看学公共关系不能少了刚上架的首部《中国公共关系学》巨著

2) 作为智库为政府提供公关传播咨询;

3) 成功举办第一届讲好中国故事创意传播国际大赛。

同时,博易团队也来到布拉格,并于2018年5月24日发表最新的论文成果《Crisis Management in Public Relations about Children Abuse Events in Kindergartens》


学公共关系不能少了刚上架的首部《中国公共关系学》巨著

集合海内外数十位专家学者撰写的《中国公共关系学》一书上下册正式出版!博易及易研团队参与撰写其中第三十二章 「公众咨询方法」(点击下载全文)。

公众咨询方法在学术圈是一个比较少被系统性探讨的议题。然而,资讯时代要求重视舆论、政务公开及公众参与,以建立良好的公众关系挑战越来越大。政府愈加重视公众关系的同时,民众参政议政意愿渐高,使得对公众咨询的需求迫切。为此,本章聚焦于公众咨询领域理论探索,综合团队多年来在多方研究的成果,梳理与总结,为公众咨询研究和实践提供理论及操作层面的参考 

本章作者在澳门本土公众咨询领域的实践中,执行了数十个公众咨询项目,涉及城市规划、人口规划、交通、房屋、环保、央基金、养老、社工等领域。针对当中存在咨询目标及定位不清晰、指引不规范、欠缺科学有效咨询执行机制等问题,进行了系统性的梳理,并结合先进国家或地区的经验,提出了具备科学性及可操作性的全民意公众咨询框架》,以三角校正法为理论指导,把线下的抽样调查、讨论会及线上的网络舆情结合在一起,全方位地执行公众咨询,或许是一个值得持续探讨研究的方向。

《中国公共关系学》分上下册,近一百万字,是中国首部集大成的公共关系理论类奠基工具书。对于中国公共关系学界而言,本书无疑是一本案头必备书,更是一本中西互补、自成一体、名家云集的基础性公共关系理论读本。

本书由中国传媒大学出版社出版,陈先红教授主编,汇聚国内外著名公共关系研究者的系列研究成果。内容分为元理论、方法论、基础理论、应用理论研究四大板块,涵盖52个理论和研究议题。

首发仪式

陈先红教授主编的《中国公共关系学》(上下册)首发式,在第十届PRAD国际学术论坛、第二届PRSC学术年会暨第四届战略传播与公共关系工作坊会议上隆重举行,来自五大洲16个国家的150多位国内外学者共同见证了这场国际化的首发式。易研团队张荣显博士出席首发仪式(第二排左三)。


【重磅干货】不用编程,文社科生也可以做大数据研究!

张荣显博士

对于文科生、社科生,在用大数据做研究时经常会遇到各式各样的问题或困难,不会计算机编程真的不能做大数据研究吗?对此,澳门互联网研究学会会长、珠海横琴博易数据创始人兼总裁张荣显博士作出详细说明解释!

完整PPT请点击《不用编程,文社科生也可以做大数据研究!》下载

完整PPT请点击《不用编程,文社科生也可以做大数据研究!》下载


已斩获9项软件著作权!博易大数据科技创新再升级

珠海横琴博易数据技术有限公司集合了各领域专才,将信息技术、数据技术及科学研究方法有效结合,为客户提供科学、严谨的大数据服务。公司自成立以来一直加大科技研发投入,厚积薄发,锐意进取,不断创新、突破,近日,除了成功入选科技型中小企业外,还获得了广东省高新技术产品证书以及DataMiner博易数据挖掘平台商标注册证,更是斩获9项计算机软件著作权登记证书。如此多大数据产品获得认可,既彰显了公司在科技研发、科学研究应用领域的实力,也为公司进一步提高科技创新能力、科学研究能力和综合竞争力带来了动力。

珠海横琴博易数据技术有限公司专注于非结构化数据的采集、分析、挖掘和洞察,多年来在大数据、咨询、舆情分析等方面具备深度研究经验,为高校、政府、智库及企业等客户提供线下及线上大数据方面专业、高效的解决方案。


【机器学习算法】你是你女神or男神心中的那一位吗?

常说“女人心海底针”“女人心事你别猜”,但男人又何尝不是?想知道你是你女神or男神心中的那一位吗?容小编掐「K近邻算法」一算,此牵连甚广,首先了解何为K近邻算法。

K近邻(K-Nearest Neighbor,KNN)分类算法是典型的监督性学习算法,是一种分类算法,也是最简单易懂的机器学习算法,没有之一。它采用测量不同特征值之间的距离方法进行分类。

它的思想很简单:计算一个点A与其他所有点之间的距离,取出与该点最近的K个点,然后统计这K个点中所属分类比例最大的,则点A属于该分类。简单来说就是由你的邻居来推断出你的类别。

首先,请看下图

 


K=3时,请问绿色圆形属于哪一类? 

K=5请问绿色圆形属于哪一类? 

按照我们肉眼来看,粗糙判断当K=3时,绿色的圆属于红色三角形;当K=5时,绿色圆形属于蓝色正方形。

通过实例看K近邻分类算法

问:当K=3时,P(1.1,0.3)属于哪一类?

若K=3,则P属于A;

若K=2呢? 

若K=4呢?

当K=2,4时,无法准确判断p到底属于A还是B,只能随机选取一个类别,这也是KNN的一个缺点,对此有个办法可以优化KNN分类算法,就是改进类别概率估计,根据A1、A2、A3和A4到P点距离进行加权计算,



距离越小越相似,所以当K=2,3,4时,p分别属于A,A,A。


这只是从最基本的数字上来看K近邻分类算法,那在生活中如何运用K近邻分类算法呢?首先,小编归纳K-近邻算法的一般流程有以下:


(1)收集数据:可以使用任何方法。

(2)准备数据:距离计算所需要的数值,最好是结构化的数据格式

(3)分析数据:使用Matplotlib画二维扩散图

(4)训练算法:此步骤不适用于K-近邻算法

(5)测试算法:计算错误率

(6)使用算法:产生简单的命令行程序,输入一些特征数据测试。

注:在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,此处距离使用了欧氏距离。

K-近邻算法属于惰性学习,但其计算复杂度较高,因为每进新样本,都需要与数据集中每个数据进行距离计算,计算复杂度和数据集中的数据数目n成正比;另一个是K的取值问题,K取不同值时,分类结果可能会有显着不同。一般K的取值不超过20,上限是n的开方。

那么问题来了,有的蝌蚪们可能不知道K的取值为何不超过20,小编找了一下可以让自己接受这个观点的理由,在此可以用Iris数据集稍微解释K的取值为何不超过20。(注意,此处幷非证明K不超过20)

Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理,也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

直接来看K的取值与预测准确性的关系图:


K=60,有

 


K=30,有 

现在让小编带领蝌蚪们探索《机器学习实战》中一个很有意思的例子——海伦心中的那一位到底是谁?

下面我们来看具体操作:

海伦收集的数据是记录每位嘉宾的三个特征:每年获得的飞行常客里程数、玩视频游戏所消耗的时间百分比、每周消费的冰淇淋公升数。数据是txt格式文件,如下图,前三列依次是三个特征,第四列是分类(1:不喜欢的人,2:魅力一般的人,3:极具魅力的人),每一行代表一位嘉宾

共有17条数据,需要将这些数据存到矩阵中,用矩阵来承装这些数据。

需要两个矩阵:一个承装三个特征数据,一个承装对应的分类


于是,我们定义一个函数,函数的输入时数据文档(txt格式),输出为两个矩阵。

可以大概看下这17条数据的散点图分布:


 


计算样本11和样本12之间的距离:

 


可以看到,每年获得的飞行常客里程数对于计算结果的影响远远大于其他两个特征。但这三个特征是同等重要的,因为我们采用方法是将数值归一化处理,取值范围为0,1之间或者-1到1之间。


公式:

newValue = (oldValue – min) / (max – min)

 


归一化后的数据:

 


接下来,我们测试算法:作为完整程序验证分类器


首先将样本数据分一半为测试集,一半为训练集

当K = 3时,K = 4错误率是多少?

可以试一下,当K = 3时有:


 

而当K = 4 时,测试结果为12.500000%

可将K = 1,…9均进行测试,有:


可以参考K = 2 或K = 4时错误率最低

K = 4,输入嘉宾每年获得的飞行常客里程数是:40000;每周消费的冰激淋公升数是:0.9;玩视频游戏所消耗时间:9。输出largeDoses 。有87.5%的把握可以认为这位嘉宾对海伦来说是极具魅力的人。

如需下载本文的例子的Python代码,请关注“博易数据”公众号(微信号: boyidata)并发送“K近邻算法”获取。


北京师范大学-香港浸会大学联合国际学院UIC师生莅临博易数据考察

2018年3月15日,北京师范大学-香港浸会大学联合国际学院UIC胡帆教授以及学生一行20人莅临博易数据考察。博易数据创始人兼总裁张荣显博士带领来宾参观公司,同时向来宾介绍了博易数据的企业文化、公司产品及独家研发的网络大数据挖掘平台DiVoMiner在网络大数据挖掘及内容分析的领先技术和研究方法。

博易数据团队与来宾合影

张荣显博士为来宾详细介绍了网络挖掘方法,提出以大数据技术辅助网络内容挖掘与分析的网络舆情挖掘研究新路径,以网络大数据挖掘平台DiVoMiner作为研究工具,结合数据技术和人工编码的方法,可兼顾广度与深度的舆情分析。

会上,博易数据团队与来宾进行了面对面交流,其中博易数据客户经理范朝晖针对不同产品进行了介绍,随后由博易数据研究经理李景珠现场演示如何使用网络大数据挖掘平台DiVoMiner进行严谨的网络数据分析,从数据收集到结果产出均可追踪源头,同时可在平台上进行自动分析和交叉分析等,可协助研究人员透过科学、严谨的流程,提取有价值的信息,及产出高质量的分析。 


博易数据团队为来宾介绍公司产品

 

此外,博易数据的数据产品经理朱振与来宾分享了大数据库的搭建及管理的相关内容,博易数据的高级网络技术经理温小永则介绍了如何利用Python做数据分析及建模。

 

博易数据团队进行内容分享


对于此次交流分享的内容,来宾展现出浓厚的兴趣,一边听讲解,一边做记录,大家互相探讨,而对于来宾提出的问题,博易数据团队也一一详细解答。

通过此次考察,北京师范大学-香港浸会大学联合国际学院UIC师生们表示不仅开阔了视野,对相关知识有了更深刻的了解,并对网络大数据挖掘平台DiVoMiner的严谨性与实务性表示赞赏和认同。


【机器学习算法】实例详解:运用K-means聚类探索dog&cat的“爱恨情仇”

本篇探讨文本型数据如何进行K-means聚类。

我们分为以下几个步骤来进行:

1、输入各文档数据

2、切词

3、整合文档

4、计算tf-idf权重矩阵

5、取K值,进行K-means聚类

6、判断聚类效果

首先,我们一起来看看dog&cat爱情故事的聚类情况是怎样!以下是文档的数据:

第一份txt : i love dog.

第二份txt: i love cat.

第三份txt: dog.

第四份txt: cat love dog?


这4份文档,简单的四句话,如果分为2类,是1&2、3&4,还是1&3、2&4,又或是其他情况呢?不妨自己先凭直觉将他们分类,再来看看用K-means聚类法后的得出的结果是否和你的猜测一样。 


我们将步骤2(切词)和步骤3(整合文档)合一起,得到:




接下来,计算tf-idf权重矩阵


↑↑↑以上是原始求tf-idf的公式


为了承接我下个问题,先将第一个文档的「dog」改成「you」,即




按照原始公式,有

you -tf =1/3 

you -idf = log(4/2)=0.301    

tf*idf=0.333*0.301=0.1


那么问题来了,将「you」改为「dog」,那「dog 」呢?  经计算出来是0?这时候有人提出了:我用Python软件计算出来的幷不是0啊!为什么会这样?


首先按照原始公式计算出来是0,也是说得过去的,4个文档,有3个文档都说到了dog,放大来说,1000个文档,就有999个文档都说到了dog,那么再来找特征词dog也就没有了意义了不是?但为什么有人就说用软件算出来的dog在第一份文档的tf-idf权值不是0呢?


这就得引入Python里面scikit-learn工具调用的TfidfTransformer()函数了,我们先来打个预防针——这里用到的公式和原始的公式是不一样的。


scikit-learn 中实现的tf为词频,df为文档频率,idf和tf-idf分别是



在scikit-learn中使用的tf-idf公式为:



一般在计算tf-idf之前都会对原始词频进行归一化处理,TfidfTransformer就直接对tf-idf做了归一化,scikit-learn中的 TfidfTransformer使用了L2归一化



好了,那么可以来计算dog 的tf-idf

在第一份档中dog的tf为1,df为3,idftf-idf分别是




同样可计算出love的tf-idf为1.097,进行归一化处理



来看看用Python做出来的结果是什么:



这就对应上了是不是?不过,别高兴太早,接下来该怎么进行聚类


可以联想到上周我们对brother例子的聚类。Brother例子是二维的,而我们这次是三维的,但思维是一样的喔!


计算过程可看:依旧取 K = 2



如此,a1和a3为一类;a2和a4为一类。(是否和你一开始猜测的结果相符,可否接受?)


这时又有个疑问:我想知道这4份文档分成2类合适吗?是最优的吗?如果不是最优的,那K = ?才是最优的呢?


这里引入SK指标。SK指标是用来判断聚类效果。




其中Ci表示第i类数据对象的集合。Ci是簇Ci的质心,K表示该数据集可以划分为K个簇的集合,dist是欧几里德空间里2个空间对象之间的欧式距离。


误差平方和SSE值越小,说明数据点越接近于它们的质心,簇类效果也就越好。



通过计算SK的大小,来反推出最佳簇类个数的选取,SK越小,说明聚类效果越好,幷且对应的K值即为最佳的簇类个数。


像刚才dog&cat爱情故事例子,考虑K=2和K=3即可。



当K=2时,SSK=0.447,SK=0.893;同样,当K=3时,SSK=0.154,SK=0.462。所以分三类,1文档一类,2和4文档为一类,3为一类效果最佳


下面来看看用Python程序运行出来的结果:

首先用jiaba库以及导入自定义词典进行分词幷输出语料库



引入sklearn 模块调用的TfidfTransformerCountVectorizer函数来计算TFIDF矩阵幷进行K-means聚类;



当K=2时,有:



误差平方和SSK=0.447,其SK=0.893;


当K=3时,有:



误差平方和SSK=0.154,其SK=0.462;所以相比K=2,1文档一类,2和4文档为一类,3为一类效果最佳


总结:每一种算法都有其优缺点,我们使用时更多考虑其是否合适。K-means聚类法的优点相信很多人都深有体会——原理简单,实现容易;而它最大缺点是K 值的选定非常难估计,虽然我们知道用SK指标可以判断K 取何值时最优,但当数据量大的时候,这种迭代的消耗几乎成指数倍增加。

如需下载本文的例子的Python代码,请关注“博易数据”(微信号:boyidata)公众号并发送“py K-means2”获取


【机器学习算法】走近K-means聚类法的小心脏

本篇我们将探讨的是非监督式学习的K-means聚类法


在聚类分析中,K-均值聚类算法(K-means algorithm)是无监督分类中的一种基本方法,其也称为C-均值算法,其基本思想是:通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。


K-means算法的基础是最小误差平方和准则。其代价函数是:



表示第i个簇的质心,我们希望得到的聚类模型代价函数最小,直观的来说,各簇内的样本越相似,其与该簇质心的误差平方越小。越小表示数据点越接近于它们的质心,聚类效果也越好。



越小表示数据点越接近于它们的质心,聚类效果也越好。如下图




每一堆点到五角星的簇心的距离加总即代表J,显而易见越小表示数据点越接近于它们的质心,聚类效果也越好。



K-means聚类法步骤


先大概浏览以下公式:


(1)给定大小为n的数据集,令I=1,选取k个初始聚类中心



(2)计算每个数据对象与聚类中心的距离如果满足




  


(3)计算k个新的聚类中心:即取聚类中所有元素各自维度的算术平均数;



(4)判断:若  




,返回(2);否则算法结束。



好嘞,枯燥的公式暂时看到这里,先来看一个网友很有意思的例子!


这6个点,分成几类?怎么分?



第一步:若k=2,选P1和P2为簇心(任选2点即可),计算其他点到P1和P2的距离。如下:




组A:P1

组B:P2、P3、P4、P5、P6

B组需选个大哥出来:P哥((1+3+8+9+10)/5,(2+1+8+10+7)/5)=(6.2,5.6)。


第二步:计算其他点到P1和P哥的距离。如下:




这时可以看到P2、P3离P1更近,P4、P5、P6离P哥更近,所以第二次站队的结果是:

组A:P1、P2、P3

组B:P4、P5、P6(虚拟大哥这时候消失


第三步:按照前面的方法选出两个新的虚拟大哥:P哥1(1.33,1) P哥2(9,8.33),计算这6个点到P哥1、 P哥2的距离





这时可以看到P1、P2、P3离P哥1更近,P4、P5、P6离P哥2更近,所以第三次站队的结果还是与第二次站队一样,聚类结束。


是不是觉得超级简单明了?!没错,Python自己在里面也是如此搞滴!



这是Python的结果,同样明显p1p2p3聚成一类,p4p5p6聚成一类。如果将k=2改成k=3,则哪些点是聚在一起,有兴趣的可以玩一下。


如何将K-means聚类运用在文本上?详情请见今天发出的第一篇文章(附详细步骤及Python代码)。


如需下载本文的例子的Python代码,请关注“博易数据”(微信号:boyidata)公众号并发送“py K-means1”获取。