如何挖掘网民意见?评价对象抽取综述

大数据

作者:学飞 从坠落开始

本篇综述主要参考了Liu Bing的《Sentiment analysis and opinion mining》,增加了一些自己的观点。

Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies, 2012, 5(1): 1-167.

摘要

近年来微博等用户自媒体的爆炸式增长,使得利用计算机挖掘网民意见不但变得可行,而且变得必须。这其中很重要的一项任务就是挖掘网民意见所讨论的对象,即评价对象。本文概览了目前主流的提取技术,包括名词短语的频繁项挖掘、评价词的映射、监督学习方法以及主题模型方法。目前抽取的问题在于中文本身的特性、大数据等。

引言

随着互联网信息的不断增长,以往的信息缺乏消失了。但海量的数据造成的后果是,人们越来越渴望能在快速地在数据汪洋中寻找属于自己的一滴水,新的信息缺乏诞生。对于电子商务来说,消费者希望能从众多的商品评论获得对商品的认识,进而决定是否购买,商家则希望从评论中获得市场对商品的看法,从而更好地适应用户的需求。类似的情况相继出现在博客、微博、论坛等网络信息聚合地。为了解决信息过载与缺乏的矛盾,人们初期手动地对网上海量而丰富的资源进行收集和处理,但瞬息万变的网民意见,突发的话题爆发很快让人手捉襟见肘。工程师们慢慢将开始利用计算机自动地对网络信息进行处理,意见挖掘由此应运而生。目前意见挖掘主要的研究对象是互联网上的海量文本信息,主要的任务包括网络文本的情感极性判别、评价对象抽取、意见摘要等。近年来,机器学习的发展让人们看到了意见挖掘的新希望。意见挖掘的智能化程度正在逐步提高。

评价对象(Opinion Targets)是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。如新闻评论中的某个人物、事件、话题,产品评论中某种产品的组件、功能、服务,电影评论中的剧本、特技、演员等。由于蕴含着极大的商业价值,所以现有的研究大部分集中于产品领域的评价对象的抽取,他们大多将评价对象限定在名词或名词短语的范畴内,进而对它们作进一步的识别。评价对象抽取是细粒度的情感分析任务,评价对象是情感分析中情感信息的一个重要组成部分。而且,这项研究的开展有助于为上层情感分析任务提供服务。因而评价对象抽取也就成为某些应用系统的必备组件,例如:

观点问答系统,例如就某个实体X,需要回答诸如“人们喜不喜欢X的哪些方面?”这样的问题。

推荐系统,例如系统需要推荐那些在某个属性上获得较好评价的产品。

观点总结系统,例如用户需要分别查看对某个实体X就某个方面Y的正面和负面评价。如图1所示为淘宝上某秋季女装的评价页面的标签。

大数据

图1:淘宝新款秋季女装的评价简述。其中“款式”、“材质”和“颜色”就是评价对象,红色表示对女装的正面评价,靛色表示负面评价。

这些任务的一个公共之处是,系统必须能够识别评论文本讨论的主题,即评价对象。评价对象作为意见挖掘的一个基本单元,一直是自然语言处理的热点。文章接下来将讨论评价对象抽取的研究现状。首先从名词的频率统计出发,阐述抽取评价对象的早期方法,然后在考虑评价对象与评价词的关系的基础上,讨论如何利用评价词发现已经出现和隐藏的评价对象、接着叙述经典的监督学习方法(隐马尔可夫方法和条件随机场)的优劣,最后详述了主题模型在评价对象抽取上的应用和展现。

研究现状

评价对象抽取属于信息抽取的范畴,是将非结构文本转换为结构化数据的一种技术。目前评价对象的抽取主要用于网络文本的意见挖掘。长如博客,短如微博都可以作为评价对象的抽取对象。在特定的情感分析环境下,所抽取的文本所处的领域往往能简化抽取的难度。一个最重要的特征就是文本中的名词。提取文本所描述的评价对象,并进一步地提取与评价对象相关的评价词,对于文本的自动摘要、归纳和呈现都有非常重要的意义。但需要注意的是评价词与评价对象的提取并没有什么先后关系,由于评价词与评价对象的种种联系。实践中往往会利用评价对象与评价词之间的特定映射来抽取信息。例如“这辆车很贵”中的“贵”是一个评价词(情感词),其评价的对象是车的价格。“贵”和“便宜”往往是用来描述商品的价格的。即使文本中没有出现“价格”,但依然可以判断其修饰的评价对象。第2小节将着重讨论这类隐式评价对象。前四节则探讨如何挖掘在文本中已经出现的评价对象。主流的方法有四种,分别是名词挖掘、评价词与对象的关联、监督学习方法和主题模型。

从频繁的名词开始

用户喜欢...

大数据需要什么样的合作伙伴?

文 | 傅一平 企业做大数据以来,碰到了很多的合作伙伴,大家都有疑问,你需要什么,我能帮到你什么?这里谈谈笔者...


数据分析的一些常见问题

文|西湖小霸王 数据分析和数据挖掘,是大数据应用的核心技术,也是大数据应用的关键所在。 数据分析重要,但是...


聚合数据技术总监邵加佳:数据的流动带来巨额收益

7月6日下午,由36大数据联合搜狐科技、物联中国、至顶网、人民网、泡泡网等多家媒体共同举办的“大数据商业应用...


易观智库:中国大数据产业生态图谱2016(附下载)

以下内容来自易观智库: 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业...


大数据+分析学 数字油田的两把利剑

在石油和天然气行业,数据都是以太字节(TB)和拍字节(PB)来表示的。这两个词语对于你来说或许有些陌生,下面我给你...


传统企业如何实施“数据化”转型?听听数之联周涛怎么说

作者:周涛 八个步骤让你的企业“数据化” 什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美...


阿里巴巴PPT:大数据下的数据安全

随着互联网的发展,大数据已经成为人们生活离不开的新元素。在享受大数据带来的便利的同时,你有没有想过它背...


大数据时代工程师如何应对今日头条走进硅谷技术讲座

作者:董老师 2月2号晚上,旅美科技协会硅谷分会邀请到今日头条技术副总裁杨震原先生做客硅谷,聊一聊他眼中的...


【干货】Kaggle 数据挖掘比赛经验分享

文|陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平...


DT时代,如何用大数据分析创造商业价值(23页PPT)

本PPT来自GrowingIO的CEO, 中国大数据分析俱乐部理事长——张溪梦先生。 张溪梦先生(Simon Zhang)是硅谷大数据分析和...


6个用好大数据的秘诀

这篇文章里,有三位来自不同公司的大数据运营人员各自分享了他们运用大数据的经验。这三位是来自维亚康姆(Via...


挖掘软件 | KNIME中的K-means聚类

Iris Data Set是数据挖掘中常用的数据集,可以直接从UCI机器学习库中获得,原始数据一共有150个cases,4个属性,常用来...


大数据的核心:数据挖掘

大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不...


何明科专栏:用数据化的方式解析投资条款

文|何明科,一面网络技术有限公司 创始人 我想做件疯狂的事情,把风投投资项目中对被投企业的核心条款透明化和...


GrowingIO张溪梦:增长黑客的核心 企业应该重视产品留存率(附PPT下载)

3月6日下午14:00,由36大数据主办『大数据应用与实践』主题沙龙在北京中关村创业大街3W咖啡成功举行。来自国内外...


从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

作者:拖雷 目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,...