想要快速的搭建高性能机器学习系统,企业应该怎么干?

大数据

亚马逊目前的运维水平成为行业标准,但凡有公司要自己搭建 OpenStack,先要回答一个问题:OpenStack 比亚马逊云的优势是什么?

对于机器学习来说,公司要自己搭建机器学习系统,也可以先问一个问题:需要多长时间和多少钱,才能达到行业领先的性能?

要知道,时间成本 + 丧失的竞争优势是无价的。

我们来算算这笔账。

1、时间

自建机器学习系统,大概有这么几步:

步骤 1:招聘机器学习团队的 Leader,2 个月

步骤 2:搭建机器学习团队,2 个月

步骤 3:前期业务调研,2 个月

步骤 4:前期技术调研,2 个月

步骤 5:数据采集相关开发和数据积累,0.5 个月

步骤 6:数据分析处理,1 个月

步骤 7:模型调研,0.5 个月

步骤 8:线上系统开发,0.5 个月

步骤 9:a/b测试和模型优化,0.5 个月

合计:11 个月

这是相对较快的时间表,如果在哪个环节踩到坑,拖延的时间就没法计算了。

如果要减少时间,关键是什么?

专业化分工 + 专注核心环节。

实际上,真正需要自己做的是数据采集、模型调研和模型优化,在专业化工具的帮助下,这些环节可以缩短到 1 个月。而其他 10 个月时间的工作,已经有专业化工具可以替代,沟通和实施时间可以缩短到 0.5 个月。

这样就从原来的 11 个月,变成了 1.5 个月。

2、钱

机器学习系统的投入,一般是这样的:

大数据

1000 万行/天的数据规模,机器学习系统一年的支出是 944 万。

如果要减少投入,关键是什么?

专业化分工 + 专注核心环节。

通过使用机器学习平台,上面的投入会变成这样。

大数据

10 台线上机器和 20 台线下机器 ,企业在购买时是按照峰值数据量配备的,但机器实际运转的时间,往往只有 1/8,即每天运行 3 小时。剩下的 7/8 是浪费的。另外,开源机器学习框架对资源利用效率低,又是一大块资源浪费。

所以原本需要 10 台线上机器和 20 台线下机器,通过机器学习平台只需要 2 台线上机器和 4 台线下机器,节约了 240 万。

在人员投入上,30 台的机器需要配备 1 个带头人、3 个研发、1 个测试、1 个运维、1 个机器学习专家和 1 个业务专家,但如果采用机器学习平台,在专业化工具的帮助下,企业只需要 0.5 个机器学习专家和 0.5 个业务专家。

通过使用机器学习平台,企业的人力成本可以节约 588 万。

另外,机器学习平台的思路可以实现 1.5 个月上线,如果全部自己做则需要 11 个月甚至更久。如果错过了抢占市场的黄金期,损失就是巨大了。对于一个 1000 万行数据规模的公司来说,我们假定 9.5 个月延迟的损失是 5000 万。

所以我们得到了两个数字:

如果不考虑时间的机会成本,采用机器学习平台的成本是自建系统成本的 12.3%。

如果考虑时间的机会成本(5000 万),采用机器学习平台的成本是自建系统成本的 2%。

3、机器学习系统

机器学习系统的性能有 3 个要素:

Max AUC:模型能达到最好的效果,好比山的高度

Actual AUC:实际上线模型的效果,好比爬到多高

Time:模型训练和预测所需要的时间,好比多久爬到这个高度

如果自己搭建机器学习系统,首先遇到的瓶颈一般是数据处理能力。

对于大部分机器学习团队来说,他们一般可以处理几十万规模的数据量,但如果数据规模超过 10 亿,那么即便是简单的逻辑回归模型,也会变成一个非常困难的问题。

为了迁就不足的计算能力,一般会做的事情是减少特征数量和样本数量,这样才能在业务需要的时间内把模型训练出来。

但这样会造成很不好的结果,Max AUC 因为特征和样本数量减少而降低,Actual AUC 因为 Max AUC 和计算能力不足而降低,Time 因为计算能力不足而增加,最终整个系统的能力就会遇到瓶颈。

如果要提升性能,关键是什么?

专业化分工 + 专注核心环节。

大规模机器学习的计算框架是一件非常难的事情,因为它不仅需要处理亿万规模的数据,而且要符合机器学习的规则。能做大规模机器学习计算框架的人全国都屈指可数,基本集中在百度、阿里、腾讯以及少数的创业公司。

用户喜欢...

物联网三阶段演进 市场、安全、人力与并购均有影响

物联网演进可分为三个阶段,一、串连各系统;二、智能互连的对象不仅将终端设备连网,更让设备之间彼此相连,...


AI和大数据2017“成长的烦恼”

人工智能和大数据在2017年的发展遇到了以下10个成长的烦恼: 1.人工智能无IQ标准 人工智能领域发展最好的一个领域是无人驾驶,而究其原因不外乎其拥有了从L0到L5的全球通用标准。但是在...


大数据和云计算的冲突

最近,IT行业专家在参加相关会议时发现了一个隐藏的主题,那就是虽然很多人将关注的重点转移到基于云计算的架构...


车子自闭了百年,该让车子“出社会”了

汽车一旦具备物联网的感测能力、网络联机能力后,即成为社会的一员,发挥“分享”、“共有”的各种可能。车与...


智能家居为何需要大数据, 大数据在智能家居领域的贡献是什么?

大数据分为大数据存储和大数据分析,属于两种截然不同的计算机技术领域,大数据存储用于大数据分析。大数据存储重点在于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在...


物联网、人工智能时代来临 五大隐忧不可不提防

随物联网/人工智能时代来临,“弱人工智能”已先渗入人类生活,各界不得不更早审视所有可能影响人工智能范畴,...


孩子王到娱乐霸主!看“迪斯尼乐园”成功的两大关键

2013年迪斯尼研发了智能服务系统,整合了网站、手机应用及魔法手环三部分,形成一个典型的物联网系统...


马云:云计算和大数据将是21世纪的石油

马云认为,数据在21世纪,就会像上一个世纪的石油一样,“起初没人关心石油能用来干嘛”,但是之后会成为极具价...


人工智能混搭自动农业机械,会是未来农业的理想型吗?

美国农机新创公司 Abundant 就发明了“采苹果机器人“,它具有经机器学习调教过的视觉算法,能精准判断每一个苹果...


智慧农业进行式:物联网+大数据,怎么成为农业迈向未来的起跑点?

相信物联之家读者对物联网的科技趋势一点不陌生,但运用在农渔畜牧业中,物联网技术大幅提高了环境资料收集能...


全球物联网时代,农业走向智慧 如何跨领域跨专业“打群架”?

近十年被称为物联网时代,全球商机上看1.5兆美元,各行各业纷纷投入资源做数字化发展,而台湾农业在研发技术占...


机器会沟通、数据会预测?再谈工业 4.0 是什么

工业 4.0 其实亦希望做到将整个流程全自动化,例如机器之间懂得自动交换情报并进行决定,除物联网之外,另一最为...


智慧安全 提前阻挡意外 精准严密守护 (案例)

透过庞大数据数据的加以分析与比对,预测防范犯罪或意外的发生,更可能破解恐怖分子攻击的意图与目标地点等重...


工业、企业、消费者领域物联网安全趋势分析

对消费者来说,物联网有助于提升生活的舒适度、改善生活方式,并节省开销。对产业来说,物联网能增进效率、节...


公共安全物联网:利用数据让城市更安全

2017年10月1日,拉斯维加斯市曼德勒海湾酒店附近发生枪击事件。截止10月3日,枪案已造成至少59人死亡,527人受伤 。...


智能制造跃进 工业4.0与物联网、大数据虚实整合

在工业4.0与物联网、大数据等科技的带动下,硬件革新、 软件升级、软硬整合不断演进,智能制造已成为不可挡的主...