新兴生态系统:数据科学与机器学习软件分析

大数据

作者:Gregory Piatetsky, KDnuggets 本文为36大数据独译,译者ya楠

本文中我们将对现有大数据的顶级工具做项测验:Python和R语言,谁更适用于Spark/Hadoop和深度学习,并确定一个新兴的大数据深度学习生态系统。

上个月,我们对第18届KDnuggets软件的调查结果进行了一次报道:数据分析、数据科学、机器学习中的新领导者、趋势和惊喜。

本文将更详细的考察哪些工具能够相互之间友好合作,哪些工具则兼容性较差。我们还发现了一个新兴的Python友好型工具生态系统,这些工具通常被应用在数据科学的两大前沿:大数据(Spark / Hadoop)和深度学习。

本文的末尾有一个匿名数据集的链接——欢迎读者对数据进行分析,然后将结果发布或者发送给我。

首先,让我们来看一下顶级工具之间的联系。

我们选取了投票超过500票的工具(今年有11项入选)。

衡量两个特征之间的关联程度有很多种方法,比如卡方分析或T检验,但此次我们仍然沿用了在2015年和2016年分析时采用的相对简单的方法。此处先定义一个“Lift”

Lift (X & Y) = pct (X & Y) / ( pct (X) * pct (Y) )

其中pct(X)表示选择X的用户百分比。

Lift(X&Y)> 1表示X&Y 一起出现的频率比预设中两者相互独立要大;Lift=1表示X&Y 一起出现的频率恰好等于预设中两者相互独立,Lift<1表明X&Y 一起出现的频率小于两者相互独立的情况(负相关)。

为了更直观的看到与1之间的差距,我们定义

Lift1 (X & Y) = Lift (X & Y) – 1

表1将排名前11的工具的Lift1值进行了两两比较,并筛选出关联度绝对值abs(Lift1) 大于15%的情况。

大数据

1:数据科学、机器学习高级工具关联度表,2017

注:绿色表示正相关,红色表示负相关。

标签Lift1上文已解释;条形的宽度与Lift1的大小成正比。

我们注意到,Python不仅与Anaconda、Tensorflow和scikit- learn(不出所料)有显著的正相关,另外与Spark还具有显著正相关关系。

在比较流行的工具中,R语言相较于Python则关联性较弱。

除了Tableau之外,RapidMiner与其他顶级工具基本上都处于负相关关系,Excel用户也喜欢Tableau。而与Spark关系最密切的是Tensorflow 和scikit-learn。

Python聚类、Spark、Anaconda、Tensorflow和scikit- learn经常被一起使用,它们似乎形成了基于Python的大数据和深度学习生态系统的核心。

Python vs R语言

接下来我们将研究使用Python或者R语言的前30个工具的亲和度。

用 with_Py(X)= %表示使用Python的工具X,with_R(X) % 表示使用R语言的工具X。可视化亲和度的过程中,我们采取一个非常简单的方式:Bias_Py_R(X) = log2(with_Py(X)/with_R(X)) ,若值为正则表明该工具更多使用了Python,当值为负则表明该工具更倾向于使用R语言。我们可以校正Python和R的相对频率,但由于它们在2017年的使用频率几乎相等,所以这种校正也是微不足道的。

大数据

表2:数据科学、机器学习前30位高级工具与Python vs R语言的关联度(2017)

条形图的长度为上文所定义的Bias_Py_R,条形图的高度与工具的受欢迎程度成正比。

我们注意到,与Python契合度较高的工具不仅包括我们预期的Scikit,PyCharm和Anaconda,而且还包括深度学习工具Keras和Tensorflow,特别是Spark和Scala。

与R语言契合度较高的工具包括SAS Base,Microsoft工具(预计自Microsoft购买Revolution Analytics后),Weka和Tableau。

接下来,我们检查不同工具在大数据和深度学习中的效果

在KDnuggets 2017 Software Poll中,33%的受访者使用了Spark / Hadoop工具,32%使用了深度学习工具。完整的工具列表可在以下图表中查看。

对于每个工具X,我们计算与Spark / Hadoop工具(垂直轴)共同使用的频率以及Deep Learning工具(横轴)共同使用的频率。

大数据

图3:深度学习vs Spark / Hadoop与顶尖数据科学,机器学习工具的亲和力(2017年)

圆形尺寸对应于各工具的使用份额,颜色与Python(蓝色)与R(橙色)相对应。

用户喜欢...

技术牛逼也要懂点社交:数据科学家公司生存指南TOP30秘诀

作者:SeattleDataGuy 数据科学家老司机的30个经验之谈,教你如何在公司内获得认同,带你绕过他们曾经踩过的坑。 作...


20个数据可视化工具点评

第一部分:入门级工具 1.Excel Excel的图形化功能并不强大,但Excel是分析数据的理想工具,上图是Excel生成的热力地图...


商机 | 大数据/政务云采购清单 招标7起,最高招标价为2089.41万(9.2-9.5)

文 | 36大数据 奥兰多 一、政府、企事业单位大数据/政务云中标成交清单,一共8起,最高成交价为1388.89万 二、政府、...


华为轮值CEO郭平:将长期投入公有云 不靠用户数据变现

作者:郭晓峰 在今日举行的华为 2017 全联接大会上,华为轮值 CEO、副董事长郭平表示,华为承诺长期投入公有云建设...


大数据让人开始怀疑人生

《 大数据时代》,维克托·迈尔·舍恩伯格、肯尼思·库克耶著,盛杨燕、周涛译,浙江人民出版社 一年多前听说了...


在 Airbnb 使用机器学习预测房源的价格

作者:Robert Chang 位于希腊爱琴海伊莫洛维里的一个 Airbnb 民宿的美好风景 简介 数据产品一直是 Airbnb 服务的重要组成...


「数据爆炸」预示着网络舆情分析也正式步入大数据时代

随着计算机技术和人工智能的不断发展,大数据时代的网络舆情分析备受关注。目前,在网民数量直奔8亿的大环境下...


MongoDB数据库遭大规模勒索攻击,被劫持26000多台服务器

刚刚曝出的大新闻,MongoDB数据库叕被攻击了。就在上周末,三个黑客团伙劫持了MongoDB逾26000多台服务器,其中规模最...


大数据处理框架的类型、比较和选择

前言 说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Processing on Large Clus...


七牛大数据平台的演进与大数据分析实践

图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会觉得部分有些陌生,这是一张汇集了目前大数据生态下...


HiTSDB 时序数据库技术架构和产品解析

作者:场景研读 摘要: 8月24日阿里云数据库技术峰会上,来自阿里数据库事业部高级专家钟宇带来HiTSDB 时序数据库...


通过数据分析提高企业销售成功率,GetAccept获160万美元种子轮融资

GetAccept的联合创始人Mathias Thulin非常熟悉销售们面临的一个个常见问题:他们和潜在客户聊得非常好,也能马上用邮件...


大数据早报:谷歌重返中国组建团队 天猫发布大闸蟹消费趣味数据报告(9.5)

数据早知道,上36dsj看早报! 来源36大数据,作者:奥兰多 『谷歌』谷歌重返中国组建团队? AI项目在中国开启招聘...


深度学习可视化工具大盘点

深度网络对机器学习研究和应用领域产生了巨大的影响,与此同时却无法很清晰地解释深度网络的来龙去脉。人们一...


数据中心基础架构标准化能否彻底改变超大规模IT部署?

作者:武晓燕 在日益紧密联系的经济发展中,IT基础设施正在进行重大改造以满足行业需求。 随着日常负载需求的增...


营销转数据,两年半到P7,我都做了哪些事儿?

作者:李宁 缘起 标题含义:传统行业的三年管培后,2014.12转型做数据,先后经历艾瑞、携程,于2017.9入职eleme的新零...