close
当前位置: 物联网在线 > 创业 >

大数据技术平台的分类与选择指南

大数据

大数据的处理过程可以分为大数据采集、存储、结构化处理、隐私保护、挖掘、结果展示(发布)等,各种领域的大数据应用一般都会涉及到这些基本过程,但不同应用可能会有所侧重。对于互联网大数据而言,由于其具有独特完整的大数据特点,除了共性技术外,采集技术、结构化处理技术、隐私保护也非常突出。

有很多算法和模型可以解决这些处理过程中的技术问题,并且为了最终用户的使用方便,它们大都被进一步的封装,形成了比较简单易用的操作平台。目前大数据技术平台有很多,归纳起来可以按照以下方式进行分类:

从大数据处理的过程来分:包括数据存储、数据挖掘分析、以及为完成高效分析挖掘而设计的计算平台,它们完成数据采集、ETL、存储、结构化处理、挖掘、 分析、预测、应用等功能。

从大数据处理的数据类型来划分:可以分为针对关系型数据、非关系型数据(图数据、文本数据、网络型数据等)、半结构化数据、混合类型数据处理的技术平台。

从大数据处理的方式来划分:可以分为批量处理、实时处理、综合处理。其中批量数据是对成批数据进行一次性处理,而实时处理(流处理)对处理的延时有严格的要求,综合处理是指同时具备批量处理和实时处理两种方式。

从平台对数据的部署方式看:可以分为基于内存的、基于磁盘的。前者在分布式系统内部的数据交换是在内存中进行,后者则是通过磁盘文件的方式。

此外,技术平台还有分布式、集中式之分,云环境和非云环境之分等。阿里云大数据平台构建在阿里云云计算基础设施之上,为用户提供了大数据存储、计算能力、大数据分析挖掘、以及输出展示等服务,用户可以容易地实现BI商业智能、人工智能服务,具备一站式数据应用能力。在以前的一篇推送(“基于阿里云大数据技术的个性化新闻推荐”)中,描述了基于阿里云大数据技术的个性化新闻推荐系统分析设计与部署方法。

不同的大数据技术平台提供了对这些处理过程的支持,有的平台可能会支持多个过程,但是侧重点也不同,支持的深度也有所不同,因此有必要熟悉各种平台的功能,并做出比较分析,以便在实际应用中选择适合于自己需求的技术平台。

选择一个合适的大数据技术平台是非常重要的,它能够使得大数据应用开发更加容易、让开发人员更集中精力在业务层面的数据分析与处理上。一些共性的基础问题,例如数据如何存储、如何检索、数据统计等,就可以由平台来完成。选择合适的大数据技术平台应当考虑以下因素:

平台的功能与性能:由于不同平台侧重的功能不同,平台的性能也就有很多需要考察的方面。比如对于存储平台来说,数据的存储效率、读写效率、并发访问能力、对结构化与非结构化数据存储的支持,所提供的数据访问接口等方面就是比较重要的。对于大数据挖掘平台来说,所支持的挖掘算法、算法的封装程度、数据挖掘结果的展示能力、挖掘算法的时间和空间复杂度等,是比较重要的指标。

平台的集成度:好的平台应该具有较高的集成度,为用户提供良好的操作界面,具有完善的帮助和使用手册、系统易于配置、移植性好。同时随着目前软件开源的趋势,开源平台有助于其版本的快速升级,尽快发现其中的bug,此外,开源的架构也比较容易进行扩展,植入更多的新算法,这对于最终用户而言也是比较重要的。

是否符合技术发展趋势:大数据技术是当前发展和研究的热点,其最终将走向逐步成熟,可以预见在这个过程中,并非所有的技术平台都能生存下来。只有符合技术发展趋势的技术平台才会被用户、被技术开发人员所接受。因此,一些不支持分布式、集群计算的平台大概只能针对较小的数据量,侧重于对挖掘算法的验证。而与云计算、物联网、人工智能联系密切的技术平台将成为主流,是技术发展趋势。

同时应当充分意识到,技术迭代更新速度加快,当我们花很多时间去掌握熟悉某种技术平台后,可能新的更好的技术平台出现了,导致我们受累奔波于各种技术平台,因此,最好的策略就是全面系统地掌握大数据技术的原理和实现方案,这样学习新的技术平台就很容易上手。


(责任编辑:ioter)

用户喜欢...

技术牛逼也要懂点社交:数据科学家公司生存指南TOP30秘诀

作者:SeattleDataGuy 数据科学家老司机的30个经验之谈,教你如何在公司内获得认同,带你绕过他们曾经踩过的坑。 作...


20个数据可视化工具点评

第一部分:入门级工具 1.Excel Excel的图形化功能并不强大,但Excel是分析数据的理想工具,上图是Excel生成的热力地图...


商机 | 大数据/政务云采购清单 招标7起,最高招标价为2089.41万(9.2-9.5)

文 | 36大数据 奥兰多 一、政府、企事业单位大数据/政务云中标成交清单,一共8起,最高成交价为1388.89万 二、政府、...


华为轮值CEO郭平:将长期投入公有云 不靠用户数据变现

作者:郭晓峰 在今日举行的华为 2017 全联接大会上,华为轮值 CEO、副董事长郭平表示,华为承诺长期投入公有云建设...


大数据让人开始怀疑人生

《 大数据时代》,维克托·迈尔·舍恩伯格、肯尼思·库克耶著,盛杨燕、周涛译,浙江人民出版社 一年多前听说了...


在 Airbnb 使用机器学习预测房源的价格

作者:Robert Chang 位于希腊爱琴海伊莫洛维里的一个 Airbnb 民宿的美好风景 简介 数据产品一直是 Airbnb 服务的重要组成...


「数据爆炸」预示着网络舆情分析也正式步入大数据时代

随着计算机技术和人工智能的不断发展,大数据时代的网络舆情分析备受关注。目前,在网民数量直奔8亿的大环境下...


MongoDB数据库遭大规模勒索攻击,被劫持26000多台服务器

刚刚曝出的大新闻,MongoDB数据库叕被攻击了。就在上周末,三个黑客团伙劫持了MongoDB逾26000多台服务器,其中规模最...


大数据处理框架的类型、比较和选择

前言 说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Processing on Large Clus...


七牛大数据平台的演进与大数据分析实践

图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会觉得部分有些陌生,这是一张汇集了目前大数据生态下...