机器学习是什么

近几年机器学习非常火,机器学习并不是近来才出现的已经出现了几十年了,但随着互联网、移动互联网、计算资源的迅猛发展使得机器学习有了庞大的数据廉价的计算资源广泛的应用场景;三种条件可以说缺一不可,互联网、移动互联网带来了大数据与广泛的应用场景,摩尔定律使得机器越来越便宜云计算的出现又让计算资源更廉价了;使得机器学习有了快速的发展并引爆技术圈;现在比较火的深度学习其实也只是机器学习的升级版;

大数据

应用场景

机器学习的应用场景非常广泛,这里简单介绍几个场景:个性化推荐垃圾邮件分类信贷风险预测

个性化推荐现在可以说是每个网民再熟悉不过的了,电商对机器学习应用最早的或许就是亚马逊了,电商中我们看得到的既熟悉又陌生的机器学习应用场景就是“千人千面”,也就是电商的推荐系统,据说亚马逊靠这个技术带来的营收超过5%,千人千面简单简单讲就是每个用户登陆看到的推荐商品都是不一样的,这些都是通过用户购买记录、社交关系通过算法计算出来的;

垃圾邮件每一个人都知道,但垃圾邮件是怎么拦截的可以说知道的人不多;垃圾邮件分类其实用的就是机器学习的分类算法,通过收集垃圾邮件数据集通过特征工程抽取改数据集中共有的特征,特征可以是包含某些关键字、邮件的长度等等,然后通过训练出模型新接受的邮件都通过这个模型来进行垃圾邮件与非垃圾邮件的分类;现在贝叶斯分类器用得比较多;

信贷风险预测也就是金融机构对贷款客户的风控分析,其实也是机器学习的分类算法,收集历史贷款客户的数据房产、职业、资产、社交等等,给出风控模型,然后通过模型预测客户分类为1、2、3、4等,为客户的风险系数;

机器学习怎么做

前面说了不少概念性的东西,接下来说说机器学习到底是怎么应用数据进行学习的; 机器学习从学习方式上分可以简单的分为这么两类:监督学习无监督学习

大数据

监督学习(supervised learning):用来学习的数据集样本中已经中包含了特征、标签(结果);例如要去预测房价已经有这么一个数据集:位置、是否学区、户型、朝向、价格,这个样本集中前面四项就是特征、后面一项就是标签,为模型预测出来的结果;这样的算法就成为监督学习算法;训练模型就是调整生成特征与标签关系映射的最优函数;

无监督学习(unsupervised learning):数据集样本中只包含特征并没有标签;例如要对房子进行归类,有这么一个数据集:位置、是否学区、户型、朝向,数据集只有特征没有标签,可以通过算法如聚类算法来训练模型,用于对房子进行归类;

模型训练流程

下图是最基本机器学习训练流程:

大数据

上图中有几个机器学习算法中很重要的几个元素:假设函数(hypothesis function)代价函数(cost function)theta,这几个可以说是机器学习算法的基础元素;

假设函数:这与我们的模型息息相关如果是线性回归模型则假设函数是线性函数,如是逻辑回归模型通常假设函数为S函数(Sigma   Function)对监督学习而言假设函数可以理解为特征到结果的映射函数,而机器学习就是学习假设函数中参数theta的过程;

代价函数:也称损失函数(Loss Function),用于判断假设函数的优劣,简单的说就是对假设函数进行评分也就是判断当前参数theta下假设函数是否已达到最优化,否则调整参数theta继续学习;代价函数通常有平方误差函数、0-1损失函数、指数损失函数等;

Theta:也称为参数,模型的参数假设函数的参数,通常的机器学习就是学习最优参数的过程,也就是说通过学习参数使得代价函数的损失最小,达到最优化或者损失函数的阈值;

近年来的强化学习、深度学习等其实都是从传统机器学习的基础上发展而来的,机器学习、统计学习就是这些技术的源头;

用户喜欢...

人工智能也有负能量,我们得提前做好准备

最近几天,各种对2018年的科技预测层出不穷,其中对AI的畅想占了大头,内容差不多是一片喜庆祥和。 但事有两来,当我们开始从AI中收获价值的时候,技术升级后带来的潜在风险也在升温。...


透视CES 2018:Segway-Ninebot携黑科技产品将再次亮相

CES 2018国际消费电子展将在美国拉斯维加斯正式拉开帷幕。全球智能短交通和服务类机器人领域的领军企业 -- Segway-...


明年将会看到自动驾驶应用场景落地

“自动驾驶汽车行业才刚刚起步,这将是几十年乃至数十年的发展,”英伟达汽车业务高级总监Danny Shapiro表示。随着...


12英寸晶圆厂再添新势力 广州粤芯半导体项目动工

芯片,极为微小的电子器件,它被喻为“工业粮食”,是所有整机设备的“心脏”。官方介绍,长期以来,广州缺乏...


中科院王飞跃 | 人工智能:第三轴心时代的来临

如何科学地认识人工智能与人类未来的关系,如何有效地抓住人工智能所带来的新技术突破之时机,创新产业升级和...


首届“芯火杯”智能硬件创新创业大赛启动仪式成功举办

主题为“共创美好智能生活”,由中国电子信息产业发展研究院、工业和信息化部软件与集成电路促进中心主办的首...


人工智能系统研究的9大挑战和4大趋势

近年来,随着计算机视觉、语音识别、机器翻译的技术的发展和商业化,及诸如数字广告和智能基础设施等基于机器学习的后台技术的普遍部署,人工智能已经从实验室的研究项目变成了实际...


人工智能时代的研究热点是什么,主要应用领域是什么?

随着不断提高的计算机速度、不断扩大的存储容量、不断降低的价格,以及不断发展的网络,很多在以前无法完成的工作在现在都能够实现。当前,智能接口、数据挖掘、主体及多主体系统是...


人工智能:若盲目跟风投机 热潮恐变成寒潮

人工智能是一个“真货”,但在一些随意和缺乏严谨性的交流或展示中被强烈地夸大了。人工智能未来的良性发展,...


人工智能引入被行业认可 或加速显示屏技术更替

从苹果引入LTPS技术到手机显示屏领域后,显示屏的技术完善与品质管控就渐渐超出了传统工程师的业务能力,仿佛一...


人工智能混搭自动农业机械,会是未来农业的理想型吗?

美国农机新创公司 Abundant 就发明了“采苹果机器人“,它具有经机器学习调教过的视觉算法,能精准判断每一个苹果...


人工智能与商业的8个连接

人工智能的狂潮已经席卷世界,信息化和智能化所代表的下一代生产力规则已经影响和改变当下的秩序,同时也正在...


人工智能和机器学习有什么区别?

人工智能(AI)和机器学习(ML)现在是两个非常热门的流行语,通常似乎可以互换使用。 但这二者并不完全一样,但是有时会导致人们的看法有一些混乱,因此需要解释这二者之间的区别。...


IDC:2017年第三季度智能手机市场低迷与劣汰并存 前排厂商增势明显

国际数据公司(IDC)最新发布的手机季度跟踪报告显示,2017年第三季度,中国智能手机市场出货量略高于第二季度,...


人工智能找到失踪和被剥削的儿童

AI Luminary视频:国家失踪和被剥削儿童中心高级副总裁/首席运营官Michelle DeLaune介绍了从收到的失踪儿童报告的数量来处理和提取情报方面的资源挑战。 在国家失踪和被剥削儿童中心,我们经营...


英特尔释放数据原力,创造未来精彩体验

今天,英特尔公司举行“英特尔品牌之夜”主题活动。英特尔全球市场传播事业部副总裁Becky Brown、英特尔中国区市场...