词云制作 | 词云可视化——中文分词与个性化词云制作

大数据

文 | 沈浩老师

如何制作词云?

————————用软件Tagxedo可能需要翻墙了!————————

近日在微博上大家都在问《个性化词云》制作方法。

大数据

下面简单介绍实现步骤和思路:

随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,文本挖掘和意见挖掘涉及内容更多,特别是中文处理是不可逾越的障碍!

注:俺的中文不好,甚至想过把中文google translate成中文进行研究,英文的文本挖掘技术基本了解!哈哈

从自然语言处理,网络分析、文本挖掘和意见挖掘角度看,主要解决以下内容:

网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘-KOL意见领袖和网络分析—中文语料和文本语义—R或Python语言与分词—用户词典构建—情感词典建设和情感分析—文本聚类分类—归并文本挖掘与网络分析—规则建模推荐算法—PMML模型与云端部署—API插件和接口程序——网络cytoscape可视化分析—Gephi动态可视化分析—Xcelsius仪表盘与Tableau可视化分析—Echart——Javescript——大屏或移动应用等;

在学习的过程中,我们成立了数艺智库和中国传媒大学数据可视化兴趣小组,每周活动一次。同学们都是80、90后的年轻人更有创新意识,学习也快,特别是小技巧和工具的掌握。我特别强调工具的应用,因为同学们都是文科背景,coding的能力不是我们的强项,学会和掌握最好最适合的现成软件工具是我的指导思想。

数据可视化兴趣小组的参与同学热情很高,特别是高年级同学传帮带,象谈和、德凯、若晨等同学成为小组的主要指导教师。这个工具也是同学们先找到了,在谈和同学讲解的过程中,我提出了创意要求。

特别是在数据可视化领域,根据兴趣不同学习了:PS、AI、PREZI、PPT、Xcelsius、Excel、D3js、Processing、Tableau、Romabi、Echart、Zoomchart等,词云的制作也是大家感兴趣的。

下面来说说词云制作,个性化词云制作:

首先:个性化词云制作非常简单,瞬间就可以完成,甚至可以说是一种雕虫小技,在线制作。当然,我还是希望把研究和创作思路告诉大家:

第一:主题和意义

你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。

因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。

大数据

第二:语料收集

个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:1)标签关键词 2)关键词词频,词频决定关键词的显示大小。语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。当然你可以从任何途径和资源活动要表现的语料。

@数据挖掘_PHP

交作业啦~对数据库内1,065,827用户分性别做昵称词云图,抽查了几个,貌似不错.女性爱用叠词做昵称,比如”佳佳/木木/妞妞/果果/格格”,男性爱用状态词做昵称,比如”胖子/路上/大侠/俱乐部/魔王/奋斗”,

大数据

第三:分词和关键词抽取

当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词,例如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM、bosonnlp等,这里推荐考虑用Python的结巴工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。

用户喜欢...

大数据和云计算的冲突

最近,IT行业专家在参加相关会议时发现了一个隐藏的主题,那就是虽然很多人将关注的重点转移到基于云计算的架构...


智能家居为何需要大数据, 大数据在智能家居领域的贡献是什么?

大数据分为大数据存储和大数据分析,属于两种截然不同的计算机技术领域,大数据存储用于大数据分析。大数据存储重点在于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在...


陆金所计葵生:深度解析大数据和AI对未来金融影响

陆金所联席董事长兼CEO计葵生在北京大学数字金融研究中心「数字金融的中国时代」第二届年会上发表主题演讲,深...


大数据时代:十大最热门的大数据技术

随着大数据分析市场快速渗透到各行各业,哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数,这里给出最热的十个大数据技术。 1、预测分析 预测分析是...


乐橙视频云锁闪耀发布,让家与你不再有距离

大华乐橙在深圳会展中心召开了2017 “锁定天下”乐橙智能锁新品发布会,重磅发布了乐橙首款视频云锁。本次发布会...


Nutanix通过Cloudera Enterprise认证,携手打造精简大数据企业云

企业云计算领导者Nutanix今日在2017 .NEXT用户大会(北京站)上宣布,其企业云平台软件已通过Cloudera技术认证计划(...


超过300亿美元的工业级无人机市场将呈爆发式增长, 上海无人机展会引领行业发展

当消费级无人机市场已成为一片红海之际,各大无人机厂商都在工业级无人机领域发力以争夺高端行业应用的市场,...


浪潮与百度联合发布ABC一体机 推进智慧计算的行业落地

在9月举办的2017 百度云智峰会 ABC SUMMIT 上,百度与浪潮共同发布了 ABC 一体机,双方将共同推动人工智能、大数据、云...


IDC发布《IDC MarketScape:中国大数据管理平台厂商评估,2017》

中国大数据市场整体热度逐步降低,数据应用开始落地,而应用的前提是建设统一的大数据管理平台。IDC调研了几十...


中科院国科创新与深圳福田区一揽子战略合作落子于CEEC

北京国科金服科技金融信息服务有限公司(以下称“国科金服”)与中国国际消费电子展示交易中心(以下称“CEEC”...


CA Technologies宣布为IBM z14提供支持交付可信任的系统

CA Technologies (NASDAQ:CA)今日宣布,CA关键的大型主机解决方案为IBM z14提供支持。CA的解决方案利用全新的z14平台,大大降...


大数据新时代:物联网让生活更加智慧

物联网(IoT,Internet of Things)这一概念最早在1999年提出。美国麻省理工学院建立的“自动识别中心(Auto-ID)”,首次提出“万物皆可通过网络互联”,并阐明物联网的基本含义。早期的物联网仅是...


技术牛逼也要懂点社交:数据科学家公司生存指南TOP30秘诀

作者:SeattleDataGuy 数据科学家老司机的30个经验之谈,教你如何在公司内获得认同,带你绕过他们曾经踩过的坑。 作...


20个数据可视化工具点评

第一部分:入门级工具 1.Excel Excel的图形化功能并不强大,但Excel是分析数据的理想工具,上图是Excel生成的热力地图...


商机 | 大数据/政务云采购清单 招标7起,最高招标价为2089.41万(9.2-9.5)

文 | 36大数据 奥兰多 一、政府、企事业单位大数据/政务云中标成交清单,一共8起,最高成交价为1388.89万 二、政府、...


华为轮值CEO郭平:将长期投入公有云 不靠用户数据变现

作者:郭晓峰 在今日举行的华为 2017 全联接大会上,华为轮值 CEO、副董事长郭平表示,华为承诺长期投入公有云建设...