是英雄还是狗熊?大数据那些事之SparkSQL

大数据

SparkSQL是Spark新推出来的一个模块。关于SparkSQL的八卦其实知道的不多,但是技术上倒能说几句。

早先我文章提到了Shark是个失败的作品。这个观点从Shark出来不久我就这样觉得了。SparkSQL的论文承认Spark团队也认为Shark是一条胡同走到黑的选择。既不能够对本地的RDD做查询,也不能有效和其他的Spark的模块交互。英雄所见略同。当然狗熊所见也差不多。至于是英雄还是狗熊,各位看官自己判断。

SparkSQL最主要的东西有两个,一个是DataFrame全面取代了RDD。我必须为这个叫声好。作为一个根红苗正的关系数据库思想熏陶出来的人,带有RDD的Spark总给我一种干爹干妈做的数据处理的产品的感觉。用上DataFrame顿时有回到亲爹亲妈做的产品的感觉。期间的差距,可能是无法言语表达的。

DataFrame看起来像表了,有metadata了,既打开了做optimization的空间,又能够很好的和其他的Spark模块结合起来。的确是Spark一步领先步步领先的必然选择,是大杀器。DataFrame一出,Spark的地位就真的牢固起来了。

第二个东西就是SparkSQL有了一个optimizer。这个optimizer粗看起来其实也没什么特殊的。作为在好几个optimizer里改过code的人,这个optimizer一看就是关系数据库的套路。有logical的pass有physical的pass。但是我觉得有几点是不同的。第一点是rule本身是用Scala写的。作为一个functional programming的语言,写tree matching写起来是得心应手。用Scala来写rule的确是非常的有意思和有意义的一个选择。第二是它有很多extension point。这就使得它用起来可获展性好。至于CodeGen成JVM bytecode,自从有了LLVM在数据库里面折腾,就算不上特别的惊艳了。但是起码的好处是不管什么语言无论是python还是java用SparkSQL,性能差距都不大了。

至于这个东西的未来发展,我觉得optimization现在在SQL相关的操作和其他操作之间还是要间断的。如果前面一堆sql的操作,中间有个machine learning的call,接下来又有一个sql的操作,optimization其实很难说把这三个捆在一起,做一个global的optimization。User-defined operator掺和的优化是很有意思又很难的。

另外我很能理解为什么现在系统是rule-based。Cost-based的东西在这种大规模分布式的系统下,很多时候怎么去cost就是个问题,不如Rule来得实用。能做固然是牛逼,但是其实能起作用的地方有限。我想如果我来,也会先上rule看看再说,也许这辈子都不上cost-based了。当然我听说在Spark Summit上,华为来的同学们上了一个cost-based optimizer。我不知道是不是华为的底蕴非常的牛,还是人有多大胆,地有多大产了。

飞总的IT世界面面观

飞总,旅居西雅图的浙江人,IT人士,08年起从事大数据相关的基础构架的研究和开发,素爱读书,博闻强识,对计算机行业和前沿技术的发展有深刻和独到的见解,希望通过这个平台分享他关于IT世界的的心得体会。飞总在36大数据的专栏>>>

End.

用户喜欢...

大数据对投资和金融世界的影响

大数据对投资的影响是巨大的,并将改变金融世界和人们的投资习惯。 传统上,投资世界是平淡无奇的,并且具有排他性。投资工具彼此之间差别不大,最低资本要求意味着投资也只能供给少...


大数据如何改变社交媒体营销

如今,大数据在市场营销中发挥重要作用,并以许多方式正在改变社交媒体营销。 大数据是近年来促进营销领域的最令人印象深刻的技术进步之一。虽然在某些圈子里,大数据已经成为一个流...


大数据在智慧城市建设中的深度应用

随着全球城市化发展的不断衍进,当前城市发展面临着巨大的挑战,对城市运行与管理也提出了新的要求。以中国为例,城市化发展尤其迅速,1978年中国城市化率为17.8%,2017年已达到59%,快速...


大数据是否会导致更多量化的战略决策模型?

大数据正在改变组织决策的未来。阿莱因科技大学教授Belkacem Athamena撰写了一篇关于决策中大数据演变的白皮书。由于新的大数据技术使决策更加可靠,因此企业将比以往更加重视量化决策模型...


大数据解读唐诗宋词 用科技“点亮”传统文化

近日,一组可视化数据作品《宋词缱绻,何处画人间》和《唐女诗人群像》在朋友圈刷屏。该作品由浙江大学CADCG国家重点实验室和新华网数据新闻部合作,历时半年完成。团队分析了5.5万首唐...


大数据主导的七大领域 看看你是否身处其中

在《大数据:一场改变如何我们生活,工作和思考方式的革命》一书中,Viktor Mayer-Schnberger和Kenneth Cukier认为,大数据分析是一种革命性的工具,主要用于商业,科学,研究,媒体行业,和社交...


大数据需求使用的六个Hadoop发行版

Apache Hadoop是一个出色的软件框架,允许处理大数据元素。它可以通过采用模块化系统和处理大量数据来使用商用硬件的强大功能。Hadoop可以在不同的发行版中使用,因为公司通常将其作为打包...


大数据与AI主要发展趋势:基础设施、分析层面及应用层面

技术的进步推动着经济和生活的全面数字化,对数据的重视提到了前所未有的高度,数据是资产已经被广泛认可。正如《大数据时代》作者舍恩伯格所说,虽然数据还没有被列入企业的资产负...


大数据技术在在线游戏中产生了巨大的变化

大数据技术给在线游戏带来了巨大的变化。以下将阐述大数据如何在行业中产生重大影响。 没有人否认这些年来网络游戏产业呈指数增长的事实。人们不断回到这些平台的主要原因之一是为游...


大数据企业落户湖北 可提供就业岗位约3000个

推动湖北省大数据产业发展的马达正在发力。8月20日,联投集团与腾讯云计算(北京)公司签署战略合作协议,与北明软件有限公司等8家企业签署落户联投新城合作协议,意向投资额30亿元,可提...


大数据应用尚需打通采集与规范间的藩篱

数字技术是行业、机构发展的战略制高点。达沃斯发布报告显示,全球企业在数字化转型中投入超万亿美元,仅1%达到或超过预期。医疗行业的数字化程度更是远远落后于其他行业,埃森哲(A...


大数据时代如何避免陷入“算法崇拜”?

数据在今天从来没有如此被广泛关注,以往我们毫不在意地填写手机号码等信息,如今却变得谨慎起来,原因是怕自己的隐私泄露,一个手机号码可以关联到自己诸多的数据。但现实当中,一...


大数据服务提供商富数科技获近亿元Pre-B轮融资 达泰资本领投

近日获近亿元 Pre-B 轮融资,达泰资本领投,虹云创投基金及部分老股东跟投。创始人兼 CEO 张伟奇表示,本轮融资将主要用于团队建设,以及重点投入安全多方计算平台(sMPC)的研发。 富数科技...


大数据时代的用户数据隐私保护

近年来,用户信息安全问题是公众关切的焦点议题之一。个人信息与数据保护作为互联网治理体系的组成部分,也是构建良好互联网秩序的重中之重。近年来发生的个人行踪记录遭售卖、朋友...


大数据引领经济转型 贵州在动能转换中“变道超车”

从中国天眼、神舟飞船,到港珠澳大桥、英国布莱敦大桥等重大项目,都有贵州钢绳有限公司的身影。贵州钢绳的产品广泛用于国内外重大工程,其主导修订的行业标准还成为了钢丝绳的国际...


大数据时代的终结 HPE今天宣布将收购MapR Technologies

HPE今天宣布将收购MapR Technologies的资产,收购金额未对外公开,给这个为期两个月、让MapR这家曾经高速发展的大数据公司陷入困境的戏剧性事件画上了句号。 HPE表示,这次收购包括MapR的技术、...