【机器学习算法】如何運用SVM进行歌曲分类

探讨非线性SVM,了解核函数的概念,并利用Python sklearn库中的SVM模块对不同风格的歌曲进行分类(语料及.Py代码下载方式见文章末处)。


1.非线性SVM

此前我们提过SVM处理非线性问题时需要转化为线性问题,再用线性SVM的算法进行求解,所以实质上SVM只能处理线性问题。这里将非线性问题转化为线性问题的方法主要是借助核函数将的数据映射到高维空间中,使得数据在高维空间中能够线性可分,如下图所示,图左的样本点无法使用直线分类面来划分,但经过映射变成右图的形式后线性可分。

这种变换可以理解为引入了一个非线性变换函数∅(·)将R^n空间的样本X映射到R^m空间,其中n<<m。可以看到图左其实可以用一个二次曲线来进行划分,方程运算式可以写为:

通过构造一个5维空间,令

则在新的空间中分类方程可以写为:

从而变成一个线性可分的问题,此时

然而随着维度的增加,∅(·)函数的计算是非常困难的,甚至会导致维数灾难,故需要引入核函数。核函数能够接收低维空间的向量,计算出经过变换后在高维空间里的向量内积值,而不用先映射到高维空间中再进行内积计算,不用显示的写出映射后的结果。关于核函数的选择,虽然有一些经验的结论,但缺乏比较系统有效的方法,故不进行详细的讨论,多数情况下还是通过多次实验测试的结果来选择最优的核函数。常用的核函数主要有:

加入核函数后分类判别函数表示为:

根据上节讲到的拉格朗日方程得到对偶目标函数为:

C为加入的惩罚因数,表示对离群点的重视程度。最后根据线性SVM的算法对目标函数进行求解,可以得到分类平面的函数。

当然本文只是用通俗浅显的方式对SVM的知识进行了梳理,如果需要更深层的掌握核函数的运用和SVM的原理,需要大家继续探索,相信通过初步的学习大家能够对SVM算法有个基本的认识。同时非常感谢在网络中对该算法无私分享的朋友(包括文章、图片或著作等),若内容上有冒犯的地方请联系我们修改或删除。

下面我们将分享一个简单的使用SVM算法对歌曲进行分类的实例。


2.利用SVM算法进行歌曲分类

小编首先在歌词网站上爬取了郑源、张信哲、成龙等几位歌手所唱歌曲的歌词,并筛选出爱情类歌曲112首,励志类歌曲94首,保存为songs_content.xlsx文件,并标注了具体的类别标签。下面,我们将利用向量空间模型结合SVM算法对这两类歌曲进行建模和分类。

首先导入后面需要用到的库和函数,对歌词进行预处理,使用jieba库进行分词,分词后的效果如下图所示,并将类别标签保存在label列表。

然后通过计算歌词中全部特征的tf-idf值,将歌词文本转化为向量,构建向量空间模型,得到一个206行4481维的特征向量矩阵。再使用train_test_split函数将样本随机分为训练集和测试集,这里我们取出20%的样本用来测试,另80%的样本用来建模。

构建SVM训练模型,选择参数gamma = 0.001,C为100,核函数默认为rbf核函数,将训练集样本输入模型进行拟合后,再使用该模型对测试集进行预测,通过比较预测结果和实际结果,发现精确率、召回率和f1-score的值都比较低。接下来改变核函数,使用线性核linear试试,得到的模型的精确率为0.875,召回率为0.955,f1-score为0.913。

可以看出,使用线性核函数后模型能够得到较高的精度。当然,感兴趣的朋友也可以通过其他方式对该模型进一步优化,如增加样本、删除一些停用词,使用其他方法对文本特征进行提取或调试模型参数等。

如需下载本文的语料及.py文件,请关注“博易数据”(微信号:boyidata)公众号并发送“code-svm”获取。


【机器学习算法】那些你需要理解的知识

1.支持向量机简介

支持向量机(Support Vector Machine,SVM)是机器学习中一种常用的监督学习算法,其优势主要表现在适合解决小样本非线性高维等分类问题,并具有较强的推广能力,在文本分类、人脸识别和语音模式识别等领域都有广泛的应用。“支持向量”是指那些在间隔区间边缘的训练样本点,这些点在分类过程中起决定性作用。“机”实际上是指一个算法,把算法当成一个机器。

支持向量机常用来解决二分类问题,其学习策略是通过学习一个线性分类面使不同类别的样本在特征空间上的间隔最大化,再转化为一个凸二次规划问题来求解。更形象的理解可以将两个不同类别的样本看作朝不同方向行驶的汽车,我们需要在这些汽车中间建立一块隔离带来将它们分开。显然,如果可以将隔离带的面积建得最大,那就可以正确无歧义的将他们分开,所以支持向量机的目标可以说是在约束条件下最大化两类样本点的间隔

2.线性SVM

在处理非线性问题时,通常会将非线性问题转化为线性问题来处理。我们先针对线性SVM進行說明,进行说明,对于两类不同的样本点,其类别可以用y=1或-1来表示,而线性分类面函数可以表示为:

f(x) = (w^T)*X+b = 0

其中w为权重向量系数,b为平面偏移量。通过映射关系,当f(x) = (w^T)*X+b > 0 时,y = 1;当f(x) = (w^T)*X+b < 0时,y = -1。根据训练样本得到这两个参数的值,就可以确定分类面,进而能够对新输入的样本进行分类。

那我们如何来求解这两个参数?如下左图所示,每一条线对分开图中的两类样本都有效,但是哪一条是最好的呢?前面说过使两类样本点间隔最大化的分类面才是最好的分类面,故需要先找到最大间隔

由于函数间隔的可变化性和几何间隔的不变行,样本点(xi,yi)到到分割平面(w,b)的函数间隔为:r1 = Yi(w*Xi +b),几何间隔为r2 = Yi(w*Xi +b)/||w||,即函数间隔与几何间隔的关系为r2 = r1/||w||。我们所要求的最大化间隔,即求Max r1/||w||。因为函数间隔的值不会影响最优化问题的解,故可以假设离分离面最近的样本点到分离面的函数间隔r1 = 1,则其他样本点的间隔都不会小于1。同时将目标函数转化为等价形式求最小值,则目标函数和约束条件可以表示为:

3.凸二次规划问题求解


目标问题为凸二次规划问题,存在全局最优解,将其转化为拉格朗日求极值问题,定义拉格朗日函数为:

则问题转变为:

由于先对a求偏导并令其等于0,以消去a来简化方程对求解w , b没有帮助,所以需要进行对偶变化。因问题满足KKT条件,故将原问题转化为其对偶问题:

在拉格朗日式子先对w和b求偏导并令其等于0,得到:

将w的表达式带入拉格朗日方程,得到:

问题转化为:

再将 w的表达式带入到支持平面方程中,解得b的值为:

关于a的求解,通常会使用序列最小优化SMO算法进行求解,其算法流程为:

最后根据求目标函数对a的极大值解出a的值,进而导出w和b的解,最终得出分离超平面和分类函数。当然,要真正的掌握支持向量机的原理需要大家自己动手去推导和应用。


2017回顾|8个月发表超过10篇论文!博易数据是如何做到?

2017年5月起,勤劳的博易数据团队一刻都没有闲着,曹文鸳老师、赵莹老师及林子筠老师等到了年终的会议高峰期更是奔南走北,力求不落下任何一场学术盛宴!在短短8个月里,博易数据研究团队使用大数据辅助在线内容分析法,发表逾10篇论文,其中3篇论文经由大会介绍予其他刊物接受并即将出版!下面就随小编来看看博易数据团队发表了哪些论文。

2017年,博易数据团队创始人张荣显博士及其团队成员先后受邀于华中科技大学、清华大学、汕头大学、复旦大学等,主讲、发表特别演讲的工作坊/讲座超过20场。其致力推广大数据网络舆情研究新方法,提倡用大数据辅助内容分析法重新定义网络大数据舆情分析方法及内容挖掘的新路径。除研究方法的推广外,其时常受邀发表关于智慧城市、互联网发展的演讲,仍深耕在学术研究前沿,对大数据条件下,自动化网络情绪分析的误区、媒介融合发展提出独到见解。


张荣显博士:两岸四地媒介如何融合?实践与趋势!

2017年12月13日至14日,由澳门新闻工作者协会主办的第十五届海峡两岸暨港澳新闻研讨会在澳门举行,以“新媒体崛起下传媒的融合及经营运作”为主题,来自海峡两岸暨港澳地区的新闻界代表、新闻传播学者近百人参会。澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士应邀出席,在会上发表论文《两岸四地媒介融合的创新实践与发展趋势》




研讨会开幕式于12月13日上午在澳门皇冠假日酒店举行,中联办副主任薛晓峰、澳门基金会行政委员会代主席钟怡、新闻局代局长黄乐宜及四地代表团团长季星星、成嘉玲、陈淑薇、陆波主礼。

本届研讨会三个子题分别是“媒体的发展、融合与管理” “新闻教育如何配合媒体新形势培训人才” “新媒体经营运作个案分享”,四地传媒精英、专家学者于会上发表12篇论文报告,与参会者分享和探讨。

其中澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士在研讨会的“媒体的发展、融合与管理”子题上发表论文《两岸四地媒介融合的创新实践与发展趋势》

张荣显博士基于媒介融合的理论和创新实践,结合大数据及网络挖掘技术,运用线上内容分析法对两岸四地(内地、台湾、香港、澳门)的新闻媒体中关于媒介融合的报道及讨论情况进行分析,从媒体观察当前媒体对于媒介融合的关注焦点,结合前述案例及文献的内容,以期探索媒介融合的未来发展趋势,并提出一些建议。

本届研讨会由澳门新闻工作者协会协同澳门记者联会、澳门传媒工作者协会、澳门传媒俱乐部筹办。海峡两岸暨港澳新闻研讨会自1993年起举办,已成为两岸四地新闻界层次高、规模大、涵盖面较广的一项重要交流活动,促进了四地同业及关心传媒发展人士的了解和联系,推动业务合作。

如有兴趣,可点击☞《两岸四地媒介融合的创新实践与发展趋势》下載完整PPT。

欢迎合作交流!

Email: info@boyidata.cn

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务。


互联网与创新治理:自动化网络情绪分析的误区

2017年12月2日,第五届传播与国家治理论坛暨第二届互联网与社会论坛在复旦大学盛大召开,以“互联网与学科新版图”为主题,近百名政界、业界、学界嘉宾受邀出席会议。会上博易数据团队分享了《互联网与创新治理:自动化网络情绪分析的误区》(作者:澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士、南开大学社会心理学系副教授陈浩、博易数据高级研究顾问曹文鸳、博易数据研究员赵莹)

博易数据资深研究顾问曹文鸳老师代表博易数据团队在互联网大数据条件下对自动化情绪分析进行理念及技术层面的探讨和反思。明晰情绪分析的概念和内涵,并通过梳理当前自动化网络情绪分析的两大类技术方法,基于词库的词汇匹配技术基于机器学习的情绪分析,分析其技术层面存在的问题。


博易数据资深研究顾问曹文鸳老师进行主题分享



其提出当前的很多研究中经常会将情感分析与情绪分析混为一谈,网络文本情绪分析中的误区,主要集中在:概念与测量情景与语境指涉对象



对此,通过提升词库质量、校对分词、修订编码方案、抽样人工编码机器学习等手段提升自动化网络情绪分析技术


当前网络文本自动化情绪分析的技术层面,尽管对技术已有多种探讨,然而在不同维度上精确度、准确率、召回率等指标并不能达到理想的效果。因此,针对网络自动化情绪分析的误区,需从技术和人工介入两方面结合,以提升自动化情绪分析结果的有效程度,如针对文本进行分析的常用研究方法——内容分析法,针对文本中的情绪进行类目细分,采用人工编码的方式对情绪分类进行编码,并运用量化分析工具实现数据的可视化呈现。如此,结合技术与人工思维方式,以期达到分析网络文本情绪的目的

DiVoMiner数据挖掘平台具有灵活开放的操作系统,对研究人员来说,可充分利用平台数据或自有数据扩充数据库,建立专属数据库。可充分发挥研究设计、类目建构、内容编码及数据分析的能力,同时,所有数据及结果均可追踪查证,达到科学透明的学术要求!


欢迎合作交流!

Email: info@boyidata.cn

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务。


第五届传播与国家治理论坛暨第二届互联网与社会论坛顺利召开

2017年12月2日,第五届传播与国家治理论坛暨第二届互联网与社会论坛在复旦大学盛大召开。本次论坛以“学科融合”为特色,汇聚了新闻传播学、哲学、政治学、社会学、计算机科学、法学等专家学者,同时,来自国内网络理政、政务平台及媒体前线的工作人员分享了互联网在社会治理和媒体中的实践经验,各方思想碰撞,探索互联网条件下,学科融合的研究和发展方向。

博易数据团队受邀出席论坛,并分享了《互联网与创新治理:自动化网络情绪分析的误区》(作者:澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士、南开大学社会心理学系副教授陈浩、博易数据高级研究顾问曹文鸳、博易数据研究员赵莹)

博易数据团队

上海市委宣传部副部长燕爽指出中国是世界互联网大国,要在第一手材料中,回答互联网给我们提出的要求,在现代化社会中,不断创造出新的成果。复旦大学校长助理陈志敏及复旦大学新闻学院院长米博华均对聚焦互联网与学科建设表示肯定。陈志敏校长助理指出,以互联网问题为导向,可拓宽传统学科的建设,也可以开辟学科交叉的新领域。米博华院长称互联网改变人类的面貌,对互联网的未知大大超过已知。互联网的发展对国家治理、社会稳定和资源环境都带来了许多难题,学科融合建设对互联网发展是具前瞻性、战略性和先进性的重大课题

(图片来源:复旦大学传播与国家治理研究中心)

主旨演讲更是从传播学哲学计算机科学多角度对互联网格局、安全技术和发展作深入探讨。复旦发展研究院传播与国家治理研究中心主任李良荣教授指出,从大数据看,民营新媒体持续高歌猛进占据主导,传统媒体全面衰退,而报纸、电视这些传统的传播媒介受众逐渐减少(老龄化、农村化)。同时大数据等科学技术颠覆了新闻实践、知识学习和生产的传统方法,大数据广泛应用、网络数据化成为了互联网发展的两大基本潮流



中山大学传播与设计学院院长张志安教授以其团队在大数据跨学科研究的经验作案例分享,并提出了新的思考。其发表题为《大数据与新闻传播研究的学术想象》的演讲,表示现阶段的跨学科大数据分析方法有三种:一是基于词典的文本分析工具;二是机器学习,三是复杂社会网络分析。但现阶段,大数据提供的研究局限在浅层的现象趋势分析,很难进行深入的因果分析,尤其在研究公共表达的情绪方面。

博易数据团队亦在互联网大数据条件下对自动化情绪分析进行理念及技术层面的探讨和反思。明晰情绪分析的概念和内涵,并通过梳理当前自动化网络情绪分析的两大类技术方法,基于词库的词汇匹配技术和基于机器学习的情绪分析,分析其技术层面存在的问题,详情请见今天发出的第二篇文章。


博易数据资深研究顾问曹文鸳老师进行主题分享

DiVoMiner数据挖掘平台具有灵活开放的操作系统,对研究人员来说,可充分利用平台数据或自有数据扩充数据库,建立专属数据库。可充分发挥研究设计、类目建构、内容编码及数据分析的能力,同时,所有数据及结果均可追踪查证,达到科学透明的学术要求!


欢迎合作交流!

Email: info@boyidata.cn

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务。


张荣显博士在复旦大学进行题为“如何利用在线内容分析法做研究”的讲座

2017年12月1日,澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士在复旦大学进行题为《如何利用在线内容分析法做研究》的讲座,分享对传统内容分析法的见解,并延伸至自动化内容分析,介绍运用大数据技术辅助在线内容分析法在网络大数据挖掘平台DiVoMiner高效地完成研究论文及学术报告。

演讲之始,张荣显博士谈及分享的目的,通过分析当前业界处理网络社交大数据的方式,寻求我们所面临的问题的解决对策,在学术上探究新的研究路径——利用大数据技术来辅助在线自动化内容分析法


总体来说,这次讲座分为三大主题:

●当前业界如何处理网络社交大数据

●当前研究网络社交大数据有哪些挑战?我们又有何对策

●如何利用DiVoMiner去做?怎么去做?

在前半段的经验分享中,张荣显博士着重介绍了数据分析技术数据来源,他表示:我们对于数字型及文字型两种数据处理方式不同。中文的语义分析技术在分词、归类及向量化,要将歧义词或无意义数据排除,需要花费大量时间和精力。而因为大部分的数据是孤岛,在整合时会出现忽略、重复的现象。


当前大部分舆情分析处于讯息可视化阶段,传统的5W1H(Where、When、Who、What、How、Why)中的来源、时效、身份、焦点、原因等,容易在网络文本中被淹没不见。因此,我们需要企图通过某些方法,在分析中找回5W1H。

对于数据的来源,张荣显博士提出他的见解:我们不需要“Garbage in, Garbage out”,喂给机器无用的资料,做分析也只是浪费时间。对于做决策或学术研究人员来说,重要的是“Data in, Value out”。


张荣显博士表示,在一个变化的世界中,因果关系依然重要。目前机器无法处理这个问题,“当数据足够大的时候,就可以说自己可以下结论”是危险的认知。

当前大部分的自动化舆情分析的偏差颇大,即便产出漂亮的图表,假象可能多于真相。尤其是场景化的机器误判更为严重,无论是利用词语库匹配或者机器学习,只能解决二元的正负面情绪或以类型分类的情绪表示,效果视乎场景语境而有差异。

因此,张荣显博士认为对于网络大数据「人机融合」是目前最有效的方案,提出全新的网络大数据研究方法——大数据技术辅助在线内容分析法,通过将海量数据采集结构化、网络挖掘结合机器学习技术、在线内容分析(人工编码、机器编码及机器学习),最终产生有意义的洞察结果。

最后,由博易数据资深研究顾问曹文鸳老师现场演示网络大数据挖掘平台DiVoMiner,如何通过在线自动化内容分析法、网络挖掘、机器学习、情绪分析等网络大数据技术的辅助,结合人工智慧的研究设计及分析,可深度挖掘来自新闻媒体、社交媒体及记录文本的大数据(包括文字、图片或视频)。


曹老师同时介绍,研究团队中的3名成员通过运用网络大数据挖掘平台DiVoMiner,仅用了半年时间已产出10篇研讨会论文,其中3篇论文经由大会介绍与其他刊物接受并即将出版


欢迎合作交流!

Email: info@boyidata.cn

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务。


中国企业在海外新闻媒体中的形象研究

博易数据团队提出以大数据技术辅助在线内容分析法的研究路径,并以此为框架,运用数据挖掘平台DiVoMiner采集和处理分析数据,制作的研究报告《中国企业在海外新闻媒体中的形象研究》(☜点击下载论文全文)在20171126日于清华大学举行的第四届国家形象论坛上发表。

博易数据团队从方法创新的角度,采用大数据技术辅助网络内容挖掘与分析的研究方法,在传统内容分析法基础上加上语义机器学习模型并改进流程的操作,在改善运作效率并提高数据及编码的质量的同时,更深入的研究变量间的相关关系。

 

研究报告聚焦海外传统媒体,通过对中国企业具体的企业名称、行业类型、报道主题、媒体报道的正负面表达、整体态度等方面,探究中国企业在海外媒体中的形象,进而为中国国家形象研究提供研究方法和研究面向的参考。

 

部分研究结果显示,阿里巴巴腾讯百度等互联网企业,以及华为这样的知名手机品牌在海外媒体的报道量较高。关于互联网行业的报道,多涉及“BAT”的资本投资运作方面,尤其是人工智能技术的投入。

 

情绪态度图对中国企业的整体态度以中立为主,占比60.0%;正面态度远高于负面态度。

   

对被提及的前十位中国企业/品牌,大部分以中立态度为主。对OFO的态度有六成为正面态度,有两成为反对态度。

如有兴趣,可点击下载研究报告全文《中国企业在海外新闻媒体中的形象研究》

欢迎合作交流!

Email: info@boyidata.cn

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务


聚焦品牌中国 探究中国企业在海外媒体中的形象

2017年是第一个“中国品牌日”年,党中央、国务院高度重视中国自主品牌的建设工作,强调品牌建设的战略性意义。中国的未来发展对世界经济的影响日渐增大,随着“一带一路”倡议的实施和深入推进,从不同纬度建设中国自主品牌,加强人文交流,提升国家形象,已经成为国家发展战略不可或缺的紧迫需要,同时,品牌理论研究和品牌实践探索也成为国家层面的重大战略需求。

2017年11月26日初冬的首都北京,迎来了由清华大学国家形象传播研究中心主办的第四届国家形象论坛。本次论坛以“一带一路与品牌中国”为主题,是清华大学国家形象传播研究中心成立后的第四届年会。众多学者专家以及行业协会代表齐聚清华大学,共同为中国国家形象传播献言献策。

   

开幕式由清华大学新闻与传播学院党委书记、清华大学国家形象传播研究中心理事长胡钰主持。清华大学中国礼学研究中心在开幕式进行了精彩的中华传统礼仪展演“有朋自远方来”,向到来的学者专家表示热烈的欢迎。当日同时举行了《国家形象研究》系列丛书第三辑《国家形象:创新与融合》发布仪式。

   

在“一带一路与中国企业品牌”分论坛中汇聚了来自高校的学者,业界专家,企业代表等,就一带一路与中国企业品牌建设方面的主题展开了实务,案例,理论和方法的讨论,其中博易数据团队从方法创新的角度,采用大数据技术辅助网络内容挖掘与分析的研究方法,在传统内容分析法基础上加上语义机器学习模型并改进流程的操作,在改善运作效率并提高数据及编码的质量的同时,更深入的研究变量间的相关关系。

 

博易数据团队运用数据挖掘平台DiVoMiner采集和处理分析数据,制作的研究报告《中国企业在海外新闻媒体中的形象研究》(☜点击下载论文全文)在此次论坛上发表。研究报告聚焦海外传统媒体,通过对中国企业具体的企业名称、行业类型、报道主题、媒体报道的正负面表达、整体态度等方面,探究中国企业在海外媒体中的形象,进而为中国国家形象研究提供研究方法和研究面向的参考。

 

部分研究结果显示,阿里巴巴、腾讯和百度等互联网企业,以及华为这样的知名手机品牌在海外媒体的报道量较高。关于互联网行业的报道,多涉及“BAT”的资本投资运作方面,尤其是人工智能技术的投入。

 

情绪态度图对中国企业的整体态度以中立为主,占比60.0%;正面态度远高于负面态度。

   

对被提及的前十位中国企业/品牌,大部分以中立态度为主。对OFO的态度有六成为正面态度,有两成为反对态度。

 

欢迎合作交流!

Email: info@boyidata.cn

我们正陆续为高校及研究单位

提供搭建网络大数据研究及教学平台服务。


海峡两岸暨香港澳门互联网+青年创客大赛顺利举行

11月16日,由中国互联网发展基金会、旺旺中时媒体集团、经济日报报业集团共同主办,香港信息科技联合会联合主办的第二届海峡两岸暨香港澳门互联网+青年创客大赛在北京顺利举行,澳门互联网研究学会会长兼珠海横琴博易数据技术有限公司总裁张荣显博士受邀作为评委出席终审赛事。

张荣显博士


第二届海峡两岸暨香港澳门互联网+青年创客大赛现场

此次大赛在两岸四地引起热烈关注,多家高校、加速器、众创空间、创业联盟等单位参与大赛。当天众多知名互联网企业、投融资机构、媒体等行业嘉宾出席终审赛事。

评委合影