关于如何解释机器学习的一些方法

大数据

到现在你可能听说过种种奇闻轶事,比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦,预测一个在新生儿重症病房的婴儿是否会罹患败血症啦,或者预测一位消费者是否会点击一个广告啦,等等。甚至于,机器学习算法还能驾驶汽车,以及预测大选结果!… 呃,等等。它真的能吗?我相信它肯定可以,但是,这些高调的论断应该在数据工作者(无论这些数据是否是『大』数据)以及机器学习工作者心里留下些非常困难的问题:我能否理解我的数据?我能否理解机器学习算法给予我的模型和结果?以及,我是否信任这些结果?不幸的是,模型的高复杂度赐予了机器学习算法无与伦比的预测能力,然而也让算法结果难以理解,甚至还可能难以采信。

尽管,我们可能能够强制自变量-因变量关系函数是满足单调性约束的(译者注:单调性的意思是,递增地改变自变量,只会导致因变量要么一直递增,要么一直递减),机器学习算法一直有倾向产生非线性、非单调、非多项式形式、甚至非连续的函数,来拟合数据集中自变量和因变量之间的关系。(这种关系也可以描述为,基于自变量的不同取值,因变量条件分布的变化)。这些函数可以根据新的数据点,对因变量进行预测——比如某位慈善家是否会捐款给基金会,一个在新生儿重症病房的婴儿是否会罹患败血症,一位消费者是否会点击一个广告,诸如此类。相反地,传统线性模型倾向于给出线性、单调、连续的函数用于估计这些关系。尽管它们不总是最准确的预测模型,线性模型的优雅、简单使得他们预测的结果易于解释。

如果说,好的(数据)科学对能够理解、信任模型以及结果是一个一般性要求的话,那么在诸如银行、保险以及其他受监管的垂直行业中,模型的可解释性则是重要的法律规范。商业分析师、医生以及行业研究员必须理解以及信任他们自己的模型,以及模型给出的结果。基于这个原因,线性模型几十年来都是应用预测模型中最易于上手的工具,哪怕是放弃几个百分点的精度。今天,大量机构和个人开始在预测模型任务中拥抱机器学习算法,但是『不易解释』仍然给机器学习算法的广泛应用带来了一些阻碍。

在这篇文章中,为了进行数据可视化和机器学习模型/结果解释,我在最常用的一些准确性度量、评估图表以外,提供了额外的几种方法。我诚挚建议用户根据自己的需要,对这些技巧进行一些混搭。只要有可能,在这篇文章中出现的每一个技巧里,『可解释性』都被解构为几个更基本的方面:模型复杂程度,特征尺度,理解,信任 —— 接下来我首先就来简单对这几点做个介绍。

待解释的响应函数(译者注:因变量关于自变量的函数)的复杂程度

线性单调函数:由线性回归算法创建的函数可能是最容易解释的一类模型了。这些模型被称为『线性的、单调的』,这意味着任何给定的自变量的变化(有时也可能是自变量的组合,或者自变量的函数的变化),因变量都会以常数速率向同一个方向变动,变动的强度可以根据已知的系数表达出来。单调性也使得关于预测的直觉性推理甚至是自动化推理成为可能。举例来说,如果一个贷款的借方拒绝了你的信用卡申请,他们能够告诉你,根据他们的『贷款违约概率模型』推断,你的信用分数、账户余额以及信用历史与你对信用卡账单的还款能力呈现单调相关。当这些解释条文被自动化生成的时候,它们往往被称作『原因代码』。当然,线性单调的响应函数也能够提供变量重要性指标的计算。线性单调函数在机器学习的可解释性中有几种应用,在更下面的第一部分和第二部分讨论中,我们讨论了利用线性、单调函数让机器学习变得更为可解释的很多种办法。

非线性单调函数:尽管大部分机器学习学到的响应函数都是非线性的,其中的一部分可以被约束为:对于任意给定的自变量,都能呈现单调性关系。我们无法给出一个单一的系数来表征某个特定自变量的改变对响应函数带来的影响程度,不过非线性单调函数实际上能够做到『只朝着一个方向前进』(译者注:前进的速度有快有慢)。一般来说,非线性单调的响应函数允许同时生成『原因代码』以及自变量的『相对重要性指标』。非线性单调的响应函数在监管类的应用中,是具备高度可解释性的。

用户喜欢...

Qualcomm将人工智能和视觉处理带入物联网

高通在2017财年超过10亿美元的物联网收入后,宣布为物联网应用专门构建新的产品系列。该公司最初宣布推出一系列IoT芯片组,QCS603和QCS605,以及软件和参考设计,这些都被称为高通视觉智能平...


日本加速推动人工智能(AI)+物联网(IoT) 摸索制造业未来走向

全球制造业导入人工智能(AI)、物联网(IoT)等技术,激荡出AIoT(AI+IoT)新发展,逐渐改变了既有的商业模式,在日本东京...


2018年人工智能还有这五大棘手问题待攻克

在所有关于杀手机器人的高调宣传下,2017年在人工智能方面取得了一些显著的进步。例如,今年初名为Libratus(冷扑大...


人工智能也有负能量,我们得提前做好准备

最近几天,各种对2018年的科技预测层出不穷,其中对AI的畅想占了大头,内容差不多是一片喜庆祥和。 但事有两来,当我们开始从AI中收获价值的时候,技术升级后带来的潜在风险也在升温。...


推荐 10 个饱受好评且功能独特的开源人工智能项目

关于人工智能的项目,相信大家都看过或者用过不少了,但它们的大多数看上去都十分“高大上”,让人感觉要掌握他们犹如习屠龙之术一样。事实上,有很多关于人工智能的项目还是十分实...


大数据和云计算的冲突

最近,IT行业专家在参加相关会议时发现了一个隐藏的主题,那就是虽然很多人将关注的重点转移到基于云计算的架构...


中国电信发布智能音箱,智能家居语音通道正式开启

随着语音交互技术及人工智能的不断发展,应用场景从语音助手、智能音箱等方面加速扩围。2014年11月,亚马逊推出...


透视CES 2018:Segway-Ninebot携黑科技产品将再次亮相

CES 2018国际消费电子展将在美国拉斯维加斯正式拉开帷幕。全球智能短交通和服务类机器人领域的领军企业 -- Segway-...


机器换人趋势不可阻挡 人类该如何应对

11月30日消息,目前,世界上的许多国家都在被一个问题困扰——如何照看越来越多的老人。看护机器人是一款专门为...


中远智信CEO陈虎:智能家居的伪智能正在向人工智能进化

智能家居的发展有近20多年的历史,在过去的2017年,随着智能化产业进入新的市场格局,智能家居有望成为市场下一...


Gartner预测:2025年,人工智能将创造200万个新增就业机会

对于与人工智能(AI)有关的就业动态来讲,2020年将是极其重要的一年,人工智能将带动整体工作机会的正增长。 受人工智能影响的工作数量将因产业而异;2019年时,卫生保健、公共部门与...


最全技术图谱!一文掌握人工智能各大分支技术

在过去的几个月中,我一直在收集有关人工智能的相关资料。随着各种的问题被越来越频繁的提及,我决定整理并分享有关人工智能、神经网络、机器学习、深度学习与大数据的技术合辑。同...


智能家居为何需要大数据, 大数据在智能家居领域的贡献是什么?

大数据分为大数据存储和大数据分析,属于两种截然不同的计算机技术领域,大数据存储用于大数据分析。大数据存储重点在于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在...


AI医疗2.0时代已到,用深度学习助推人工智能落地

最近市场又被人工智能医疗刷屏了。刷屏的原因就是人工智能继战胜了国际各位围棋棋手之后,又有了一个新的突破,这个突破就是在医疗领域。今年11月,国家医学考试中心发布了“2017年国...


物联网、人工智能时代来临 五大隐忧不可不提防

随物联网/人工智能时代来临,“弱人工智能”已先渗入人类生活,各界不得不更早审视所有可能影响人工智能范畴,...


明年将会看到自动驾驶应用场景落地

“自动驾驶汽车行业才刚刚起步,这将是几十年乃至数十年的发展,”英伟达汽车业务高级总监Danny Shapiro表示。随着...