快速门厂家
免费服务热线

Free service

hotline

010-00000000
快速门厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

极性分类网络舆情正负面信息辨认的方法

发布时间:2020-03-10 10:55:46 阅读: 来源:快速门厂家

A5交易A5任务 SEO诊断淘宝客 站长团购

随着Web2.0时期的到来,和微博、SNS媒体的兴起,互联网上个人发布的信息迅速增多,企业和政府史无前例的与用户和公众如此之近。掌控企业和政府前程的决策之匙不但握在管理者决策者手中,也同时握在用户和公众手中。如何从互联网获得的海量信息中提取用户或公众的情感偏向、和针对某事物的正负面评论,可以为企业掌控用户的消费态度,为政府把脉公众的情绪提供重要的根据,促进做出更加正确的决策。

面对众多不同消费者,不同渠道发布的大量评价、留言、微博等信息,对数以亿计海量信息进行处理的进程明显是人工没法完成的,近年,国际国内都有专业研究机构对这1问题进行研究开发,并取得了一些进展:计算机系统能够准确抓取这些不同来源的信息并企图了解用户的真实意图,得出正负面评价。那末计算机系统又是如何对各种各样的信息进行理解,分析,并准确分辨出哪些是正面评价,哪些是负面评价呢?

对此,《网络舆情正负面信息辨认的方法》系列文章将为您答疑解惑。通过这一系列稿件,结合本人在优捷信达科技研究工作,将为您详细介绍计算机对自然语言的分析原理,和对情感分析中与舆情正负面密切相干的极性分类领域进行详细介绍,并介绍目前学术上流行的极性分类方式及其优缺点,展望正在研究的最新技术前沿,帮助您了解市场上流行的舆情监测,信息监测,消费者调研等等信息处理系统的工作原理。

互联网上80%以上的信息是以文本方式出现的,网上的用户评论特别如此。这些信息就需要所谓的自然语言处理技术来进行处理。网络文本信息中包括了客观陈说和主观陈说,如果对主观陈说中所包括的情感进行分析,则是自然语言处理方面最活跃的一个研究方向: 情感分析SA(Sentiment Analysis),这1研究方向主要关注所处理的信息中的意见、情感和主观性。在各种情感分析中,对情感的正负面也就是褒义、贬义进行分析判定,是目前为止情感分析方面最主要的任务,也叫做极性分析。极性分析可以被看做是这样一个任务:对给定的一段带有观点的评论性文本,标记出它是整体正面评价或整体负面评价。通俗来讲也就是标记某一段评论性文字所代表的倾向性情感是正面还是负面,对所表达的主题是爱好还是讨厌,是赞同还是反对等等。本文将详细描写极性分析的背景、进程和意义。

1.极性分类的背景

情感分析系统是一种具有情感分析功能的计算机软件系统,它能从微博短文、网页评论等文字中提取情感信息,让计算机自动分辨情感正负面,自动汇报给客户。例如,优捷信达科技对中海地产进行客户关系舆情监测工作时,需要及时准确地掌握获得中海业主的意见和建议,通过慧眼系统自动提取信息,分辨正负面,并汇报给中海地产,协助他们防患于未然,为业主提供更优良的服务。

为了实现上述系统,需要完成以下工作:需要对文章或评论进行检测,分析出带有主观意见的段落句子;对这个句子进行细分,提取主题、意见发起者、相干意见,并对这些意见进行正负面分析或极性分类。

首先,需要让计算机系统分辨出哪些文件或文件的哪一部份能够表达真实的主观信息。这1具有挑战性的任务也被称为主观表述检测,目前这1任务已得到很好的解决。

第二步,基于原始文本中提取的主观信息,将进一步提取其所表达的意见,肯定有哪些内容,和他们之间的关系:

要素1: 主题提取:提取带有评述性的观点,它表述的主题都有哪些方面。

要素2: 观点持有者辨认:肯定持有这些评述性的观点的人。

要素3: 陈说的选择:鉴别哪些是观点持有者发布的意见,然后去除其他人的陈说。

以上三个要素是为了让计算机准确地选择某一个人对某一个主题的观点。第四步是对这1观点进行正负面分析。

要素4:舆论分析:通过计算理解主观表述的偏向,即观点的正负面分析,包括以下几种分析方式。

1. 将舆论归入到情感极性中的正面或负面这个问题被称为极性分类。

2.在正负面两个极端之间肯定它的强度这个问题被称为序列回归。

3. 提取意见的同时也提取出现这个意见的缘由。系统不但可以分析用户是不是喜欢它/用户到底有多么强烈地喜欢它,而且还能分析为何我们的用户喜欢它。

4. 文本分类的观点有点像美国政治人士的政治立场:自由或守旧。

由于篇幅所限,本文仅就将舆论归入情感极性中的正面或负面这1问题进行描写。

2. 极性分类进程

对背景所描写的极性分类进程进行总结,典型的极性分类进程以下:

图表 1 极性分类流程图

包括以下步骤:

第一步,特点提取方法。它将原始文档的主观态度转化为机器可以辨认的符号化的句子或陈说。通俗来讲就是通过计算机系统的设定,用某种方式对网络上的文字进行辨认和提取具有正负面倾向性的内容。这一步是极性分类效果好坏最关键的一步。近年来国际上有很多种方法来进行提取,都有各自的优缺点,在接下来的文章中将详细描写各种方法及其优缺点。目前优捷信达科技主要采取互信息、信息增益等技术,结合本身对舆情分析的掌控,有效提高特点提取的完整性,准确率。

第二步,分类。当前主要应用标准的机器学习分类器,比如被广泛运用的支持向量机SVM(Support Vector Machines),对已提取并数据化表示的特征向量进行正负面分类。简言之,就是将第一步提取出来的具有正负面倾向性的内容,通过计算方式进行比对和分类,确认出这段文章的情感偏向是正面的还是负面的。

第三步,输出报告。

3. 极性分类的意义

极性分类是情感分析中的主要的任务之一。现实世界有很多问题是可以用两极对峙观点来评估的。比如,喜欢或不喜欢某个产品,或某篇文章是不是对某一个话题有所帮助,等等。通过情感分析我们就能更好地理解客户的行动和公众的意见这对企业和政府了解公众真实及潜伏意见来讲非常关键。

极性分类具有巨大商业价值和公共服务价值。优捷信达科技对互联网海量网站、论坛、微博的监测,可以帮助企业客户准确掌握互联网消费者对该企业及产品的正负面评价,在2012年初,优捷信达科技通过对电商行业微博舆情的情感正负面极性分析,准确地掌控了知名电商的口碑辞汇和量级。这类客户调查对企业至关重要由于现有客户的正负面评论不但可以帮助厂家了解消费者意见加以改进,还可以极大地影响潜伏客户的购买意向。而这么大量的调查如果是人为进行的话将非常费时费力,本钱极高,情感分析技术特别是极性分类技术的产生,极好地满足了客户这1潜伏的巨大需求。

通过本文简短的介绍,对网络舆情监测中正负面信息的辨认有了一个整体性的描写。至于目前学术界和应用领域都有哪些极性分析方法,和它们如何在舆情分析领域运用,将在以下的文章中进行论述。

在下一篇文章中,我将详细描写基于语义特点的特点提取方法。

成都到锦州物流货运专线价格

成都到宁夏物流专线公司

成都到新疆货运公司

成都到信阳货运公司