解答│做大数据过程中遇到的13个问题

大数据

1、最早的数据分析可能就报表

目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据。早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,数据报表就出来了。但是数据量大起来怎么分析呢?数据分析完了怎么做传输呢?这么大的数据量怎么做到实时呢?分析的结果数据如果不是很大还行,如果分析的结果数据还是很大改怎么办呢?这些问题在这篇文章中都能找到答案,下面各个击破。

2、要做数据分析,首先要有数据

这个标题感觉有点废话,不过要做饭需要食材一样。有些数据时业务积累的,像交易订单的数据,每一笔交易都会有一笔订单,之后再对订单数据作分析。但是有些场景下,数据没法考业务积累,需要依赖于外部,这个时候外部如果有现成的数据最好了,直接join过来,但是有时候是需要自己获取的,例如搞个爬虫爬取网页的数据,有时候单台机器搞爬虫可能还爬不完,这个时候可能就开始考虑单机多线程爬取或者分布式多线程爬取数据,中间涉及到一个步骤,就是在线的业务数据,需要每天晚上导入到离线的系统中,之后才可以进行分析。

3、有了数据,咋分析呢?

先将数据量小的情况下,可能一个复杂的SQL就可以搞出来,之后搞个web服务器,页面请求的时候,执行这个SQL,然后展示数据,好了,一个最简单的数据分析,严格意义上讲是统计的分析。这种情况下,分析的数据源小,分析的脚本就是在线执行的SQL,分析的结果不用传输,结果的展示就在页面上,整个流程一条龙。

4、数据量大了,无法在线分析了,咋办呢?

这个时候,数据量已经大的无法用在线执行SQL的形式进行统计分析了。这个时候顺应时代的东西产生了(当然还有其他的,我就知道这个呵呵),数据离线数据工具hadoop出来了。这个时候,你的数据以文件的形式存在,可能各个属性是逗号分隔的,数据条数有十几个亿。这时候你可能需要构建一个hadoop集群,然后把自己的文件导入到集群上面去,上了集群之后,文件就是HDFS的格式了,然后如果要做统计分析,需要写mapreduce程序,所谓的mapreduce程序,就是实现map和reduce的接口,按照自己的业务逻辑写分析流程,之后把程序打成jar包上传到集群,之后开始执行。分析后的结果还是文件的形式产生。

5、分析个数据还要写java代码是不是效率低了点

这个确实是,mapreduce的程序,本身的可测性没有执行一个简单的单元测试来的爽,所以效率确实不高。这个时候,hive出现了,hive是一个数据仓库分析的语言,语法类似于数据库的SQL,但是有几个地方是不同的。有了hive之后,数据分析就好之前写SQL一样了,按照逻辑编写hive SQL,然后控制台执行。可能最大的感觉是,数据库的sql很快就能有结果,但是hive的,即使很小的一个数据分析,也需要几分钟时间。构建hive,需要在hadoop的集群上,原理很简单,就是把文件构建成表的形式(有一个数据库或者内存数据库维护表的schema信息),之后提交写好的hive sql的时候,hadoop集群里面的程序把hive脚本转换成对应的mapreduce程序执行。这个时候,做离线的数据分析简单写脚本就行了,不用再搞java代码,然后上传执行了。

6、数据产生的结果,怎么搞到线上提供服务的数据库中呢?

这个时候分析的结果有了,可能是一个很宽很长的excel表格,需要导入到线上的数据库中,可能你想到了,如果我的数据库是mysql,我直接执行load 命令就搞进去了,哪有那么麻烦。但是数据源可能有多了,mysql/oracle/hbase/hdfs 按照笛卡尔积的形式,这样搞要搞死程序员了。这个时候datax(已经开源)出现了,能够实现异构数据源的导入和导出,采用插件的形式设计,能够支持未来的数据源。如果需要导数据,配置一下datax的xml文件或者在web页面上点击下就可以实现了。

7、离线分析有时间差,实时的话怎么搞呢?

要构建实时的分析系统,其实在结果数据出来之前,架构和离线是截然不同的。数据时流动的,如果在大并发海量数据流动过程中,进行自己的业务分析呢?这里其实说简单也简单,说复杂也复杂。目前我接触过的,方案是这样的,业务数据在写入数据库的时候,这里的数据库mysql,在数据库的机器上安装一个程序,类似JMS的系统,用于监听binlog的变更,收到日志信息,将日志信息转换为具体的数据,然后以消息的形式发送出来。这个时候实现了解耦,这样的处理并不影响正常的业务流程。这个时候需要有个Storm集群,storm集群干啥事情呢?就一件事情,分析数据,这个集群来接收刚才提到的JMS系统发送出来的消息,然后按照指定的规则进行逻辑合并等计算,把计算的结果保存在数据库中,这样的话,流动的数据就可以过一遍筛子了。

8、分析的结果数据特别大,在线请求这些结果数据数据扛不住了,咋搞?

用户喜欢...

大数据对投资和金融世界的影响

大数据对投资的影响是巨大的,并将改变金融世界和人们的投资习惯。 传统上,投资世界是平淡无奇的,并且具有排他性。投资工具彼此之间差别不大,最低资本要求意味着投资也只能供给少...


大数据如何改变社交媒体营销

如今,大数据在市场营销中发挥重要作用,并以许多方式正在改变社交媒体营销。 大数据是近年来促进营销领域的最令人印象深刻的技术进步之一。虽然在某些圈子里,大数据已经成为一个流...


大数据在智慧城市建设中的深度应用

随着全球城市化发展的不断衍进,当前城市发展面临着巨大的挑战,对城市运行与管理也提出了新的要求。以中国为例,城市化发展尤其迅速,1978年中国城市化率为17.8%,2017年已达到59%,快速...


大数据是否会导致更多量化的战略决策模型?

大数据正在改变组织决策的未来。阿莱因科技大学教授Belkacem Athamena撰写了一篇关于决策中大数据演变的白皮书。由于新的大数据技术使决策更加可靠,因此企业将比以往更加重视量化决策模型...


大数据解读唐诗宋词 用科技“点亮”传统文化

近日,一组可视化数据作品《宋词缱绻,何处画人间》和《唐女诗人群像》在朋友圈刷屏。该作品由浙江大学CADCG国家重点实验室和新华网数据新闻部合作,历时半年完成。团队分析了5.5万首唐...


大数据主导的七大领域 看看你是否身处其中

在《大数据:一场改变如何我们生活,工作和思考方式的革命》一书中,Viktor Mayer-Schnberger和Kenneth Cukier认为,大数据分析是一种革命性的工具,主要用于商业,科学,研究,媒体行业,和社交...


大数据需求使用的六个Hadoop发行版

Apache Hadoop是一个出色的软件框架,允许处理大数据元素。它可以通过采用模块化系统和处理大量数据来使用商用硬件的强大功能。Hadoop可以在不同的发行版中使用,因为公司通常将其作为打包...


大数据与AI主要发展趋势:基础设施、分析层面及应用层面

技术的进步推动着经济和生活的全面数字化,对数据的重视提到了前所未有的高度,数据是资产已经被广泛认可。正如《大数据时代》作者舍恩伯格所说,虽然数据还没有被列入企业的资产负...


大数据技术在在线游戏中产生了巨大的变化

大数据技术给在线游戏带来了巨大的变化。以下将阐述大数据如何在行业中产生重大影响。 没有人否认这些年来网络游戏产业呈指数增长的事实。人们不断回到这些平台的主要原因之一是为游...


大数据企业落户湖北 可提供就业岗位约3000个

推动湖北省大数据产业发展的马达正在发力。8月20日,联投集团与腾讯云计算(北京)公司签署战略合作协议,与北明软件有限公司等8家企业签署落户联投新城合作协议,意向投资额30亿元,可提...


大数据应用尚需打通采集与规范间的藩篱

数字技术是行业、机构发展的战略制高点。达沃斯发布报告显示,全球企业在数字化转型中投入超万亿美元,仅1%达到或超过预期。医疗行业的数字化程度更是远远落后于其他行业,埃森哲(A...


大数据时代如何避免陷入“算法崇拜”?

数据在今天从来没有如此被广泛关注,以往我们毫不在意地填写手机号码等信息,如今却变得谨慎起来,原因是怕自己的隐私泄露,一个手机号码可以关联到自己诸多的数据。但现实当中,一...


大数据服务提供商富数科技获近亿元Pre-B轮融资 达泰资本领投

近日获近亿元 Pre-B 轮融资,达泰资本领投,虹云创投基金及部分老股东跟投。创始人兼 CEO 张伟奇表示,本轮融资将主要用于团队建设,以及重点投入安全多方计算平台(sMPC)的研发。 富数科技...


大数据时代的用户数据隐私保护

近年来,用户信息安全问题是公众关切的焦点议题之一。个人信息与数据保护作为互联网治理体系的组成部分,也是构建良好互联网秩序的重中之重。近年来发生的个人行踪记录遭售卖、朋友...


大数据引领经济转型 贵州在动能转换中“变道超车”

从中国天眼、神舟飞船,到港珠澳大桥、英国布莱敦大桥等重大项目,都有贵州钢绳有限公司的身影。贵州钢绳的产品广泛用于国内外重大工程,其主导修订的行业标准还成为了钢丝绳的国际...


大数据时代的终结 HPE今天宣布将收购MapR Technologies

HPE今天宣布将收购MapR Technologies的资产,收购金额未对外公开,给这个为期两个月、让MapR这家曾经高速发展的大数据公司陷入困境的戏剧性事件画上了句号。 HPE表示,这次收购包括MapR的技术、...