互联网时代的社会语言学:基于SNS的文本数据挖掘

今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志,分上下两部分刊于 2012 年 7 月刊和 8 月刊,在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因,《程序员》刊出的文章被和谐过(看到后面大家就自动地知道被和谐的内容是什么了),因而我决定把完整版发在 Blog 上,同时与更多的人一同分享。对此感兴趣的朋友可以给我发邮件继续交流。好了,开始说正文吧。

数据挖掘

作为中文系应用语言学专业的学生以及一名数学 Geek ,我非常热衷于用计算的方法去分析汉语资料。汉语是一种独特而神奇的语言。对汉语资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,比如分词——汉语的词与词之间没有空格,那计算机怎么才知道,“已结婚的和尚未结婚的青年都要实行计划生育”究竟说的是“已/结婚/的/和/尚未/结婚/的/青年”,还是“已/结婚/的/和尚/未/结婚/的/青年”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型已经能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等,它们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关。自动发现新词成为了关键的环节。

技术向:数据挖掘-分词入门

数据处理-分词技术

挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗?有了抽词算法后,我们还能以词为单位做更多有趣的数据挖掘工作。这里,我所选用的语料是人人网 2011 年 12 月前半个月部分用户的状态。非常感谢人人网提供这份极具价值的网络语料。

要想从一段文本中抽出词来,我们的第一个问题就是,怎样的文本片段才算一个词?大家想到的第一个标准或许是,看这个文本片段出现的次数是否足够多。我们可以把所有出现频数超过某个阈值的片段提取出来,作为该语料中的词汇输出。不过,光是出现频数高还不够,一个经常出现的文本片段有可能不是一个词,而是多个词构成的词组。在人人网用户状态中,“的电影”出现了 389 次,“电影院”只出现了 175 次,然而我们却更倾向于把“电影院”当作一个词,因为直觉上看,“电影”和“院”凝固得更紧一些。

为了证明“电影院”一词的内部凝固程度确实很高,我们可以计算一下,如果“电影”和“院”真的是各自独立地在文本中随机出现,它俩正好拼到一起的概率会有多小。在整个 2400 万字的数据中,“电影”一共出现了 2774 次,出现的概率约为 0.000113 。“院”字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。但事实上,“电影院”在语料中一共出现了 175 次,出现概率约为 7.183 × 10-6 次方,是预测值的 300 多倍。类似地,统计可得“的”字的出现概率约为 0.0166 ,因而“的”和“电影”随机组合到了一起的理论概率值为 0.0166 × 0.000113 ,约为 1.875 × 10-6 ,这与“的电影”出现的真实概率很接近——真实概率约为 1.6 × 10-5 次方,是预测值的 8.5 倍。计算结果表明,“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。

当然,作为一个无知识库的抽词程序,我们并不知道“电影院”是“电影”加“院”得来的,也并不知道“的电影”是“的”加上“电影”得来的。错误的切分方法会过高地估计该片段的凝合程度。如果我们把“电影院”看作是“电”加“影院”所得,由此得到的凝合程度会更高一些。因此,为了算出一个文本片段的凝合程度,我们需要枚举它的凝合方式——这个文本片段是由哪两部分组合而来的。令 p(x) 为文本片段 x 在整个语料中出现的概率,那么我们定义“电影院”的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值,“的电影”的凝合程度则是 p(的电影) 分别除以 p(的) · p(电影) 和 p(的电) · p(影) 所得的商的较小值。

用户喜欢...

大数据需要什么样的合作伙伴?

文 | 傅一平 企业做大数据以来,碰到了很多的合作伙伴,大家都有疑问,你需要什么,我能帮到你什么?这里谈谈笔者...


数据分析的一些常见问题

文|西湖小霸王 数据分析和数据挖掘,是大数据应用的核心技术,也是大数据应用的关键所在。 数据分析重要,但是...


易观智库:中国大数据产业生态图谱2016(附下载)

以下内容来自易观智库: 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业...


【干货】Kaggle 数据挖掘比赛经验分享

文|陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平...


如何挖掘网民意见?评价对象抽取综述

作者:学飞 从坠落开始 本篇综述主要参考了Liu Bing的《Sentiment analysis and opinion mining》,增加了一些自己的观...


挖掘软件 | KNIME中的K-means聚类

Iris Data Set是数据挖掘中常用的数据集,可以直接从UCI机器学习库中获得,原始数据一共有150个cases,4个属性,常用来...


大数据的核心:数据挖掘

大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不...


27页PPT|以珍爱网为例,如何构建有业务价值的数据分析系统?

在中小型企业中,作为成本中心的数据团队,更快做出业务价值显得尤为重要,那么我们该怎么廉价的构造我们的数...


大数据如何改变经济咨询服务行业?

文 | 吴裕彬 大数据已经彻底改变了国家经济的方方面面,但其在经济学领域却没有太大反响,这是一件非常奇怪的事...


【权利的游戏】剧透新玩法:情理之中?意料之外

你是热剧《权力的游戏》的铁粉儿?或者是文本分析的死忠拥护者?如果你的答案是‘是’或者‘两者都是’,那么下面...


经典大数据架构案例:酷狗音乐的大数据平台重构(长文)

作者:王劲 本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇...


33页PPT|腾讯社交网络的大数据建模框架探索报告

在10月24日2014中国计算机大会的重要活动之一 ----“大数据高峰论坛”,腾讯公司社交网络运营部专家研究员岳亚丁在...


从拉勾网爬的招聘数据 解析中国数据挖掘人才能挣多少钱

作者|李宁(本文已获得作者本人的转载授权,其他转载请联系本人,36大数据不对任何其他转载侵权行为做背书) 缘...


干货:数据分析师的完整知识结构

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,...


7大板块 组成数据分析师的完整知识结构

作者:Tony数据之行 作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管...


曝光:硅谷巨头们如何玩赚大数据

作者:曾小苏 Clara 硅谷四大不同类型的公司如何玩转大数据。 1.什么是 “改变世界” 的大数据公司 难道有数据就叫...