close
当前位置: 物联网在线 > 专题 > 技术专题 >

最全机器学习资源整理

机器学习资源浩如烟海,本文对机器学习资源做了相关整理,希望大家能够根据自己的细分研究领域,着重关注某些学习资源。可能某几个网页链接打不开,那说明需要“科学”上网。机器学习也是一门实践学科,最好的学习就是不断的实践,推荐 BigQuant 一站式的python+机器学习+量化投资平台,打开浏览器就可以使用投资数据和机器学习算法。

 

书籍

 

《Programming Collective Intelligence》(《集体智慧编程》)
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。

 

《数学之美》 
作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。

 

《统计学习方法》
作者李航,是国内机器学习领域的几个大家之一,曾在MSRA任高级研究员,现在华为诺亚方舟实验室。书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。

《机器学习》

 

介绍周志华老师的这本书非常适合作为机器学习入门的书籍,书中的例子十分形象且简单易懂。

《An Introduction to Statistical Learning with Applications in R》

这是一本斯坦福统计学著名教授Trevor Hastie和Robert Tibshirani的新书,并且在2014年一月已经开课:Statistical Learning

The Elements of Statistical Learning: Data Mining, Inference, and Prediction

 

也是一本斯坦福统计学著名教授Trevor Hastie和Robert Tibshirani的书,但是从比较高深的视角讲解机器学习。

Pattern Recognition and Machine Learning

 

本书从贝叶斯学派的角度,讲解机器学习。相信可以从这本书中得到很多很好的见解。

Introduction to Machine Learning

 

一本比较精简的机器学习数据,介绍了很多全面并且基础的机器学习理论。

《Kernel Methods for Pattern Analysis》

SVM等统计学的诸多工具里都用到了核方法,可以将将低维非线性空间映射到高维的线性空间中,但同时会引入高维数据的难题。

《Machine Learning A Probabilistic Perspective》

本书就是一本大杂烩。 这本书涉及的内容很广,概率图模型、GLM、Nonparametric Method,甚至最近比较火的Deep Learning也包括了。

 

《Machine Learning》 
作者Tom Mitchell是CMU的大师,有机器学习和半监督学习的网络课程视频。这本书是领域内翻译的较好的书籍,讲述的算法也比《统计学习方法》的范围要大很多。据评论这本书主要在于启发,讲述公式为什么成立而不是推导;不足的地方在于出版年限较早,时效性不如PRML

 

《Data Mining: Practical Machine Learning Tools and Techniques》(《数据挖掘:实用机器学习技术》) 
作者Ian H. Witten 、Eibe Frank是weka的作者、新西兰怀卡托大学教授。这本书最大的特点是对weka的使用进行了介绍,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。

 

《Brief History of Machine Learning》 
这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.

 

《Deep Learning in Neural Networks: An Overview》 
这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以时间排序,从1940年开始讲起,到60-80年代,80-90年代,一直讲到2000年后及最近几年的进展。涵盖了deep learning里各种tricks,引用非常全面.

 

《A Gentle Introduction to Scikit-Learn》
这是一份python机器学习库,如果您是一位python工程师而且想深入的学习机器学习.那么这篇文章或许能够帮助到你.

 

《Machine Learning is Fun!》 
如果你还不知道什么是机器学习,或则是刚刚学习感觉到很枯燥乏味。那么推荐一读。这篇文章已经被翻译成中文,如果有兴趣可以移步 有趣的机器学习:最简明入门指南 - 文章 - 伯乐在线

 

Choosing a Machine Learning Classifier
我该如何选择机器学习算法,这篇文章比较直观的比较了Naive Bayes,Logistic Regression,SVM,决策树等方法的优劣,另外讨论了样本大小、Feature与Model权衡等问题。此外还有已经翻译了的版本:如何选择机器学习算法 - 我爱机器学习

 

《A Deep Learning Tutorial: From Perceptrons to Deep Networks》
深度学习概述:从感知机到深度网络,作者对于例子的选择、理论的介绍都很到位,由浅入深。翻译版本:深度学习概述:从感知机到深度网络 - xiaowanyer - 博客园

 

《计算机科学中的数学》
这本书是由谷歌公司和MIT共同出品的计算机科学中的数学:Mathematics for Computer Science,Eric Lehman et al 2013 。分为5大部分:1)证明,归纳。2)结构,数论,图。3)计数,求和,生成函数。4)概率,随机行走。5)递归

 

《Machine learning in 10 pictures》
Deniz Yuret用10张漂亮的图来解释机器学习重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam’s razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.

 

Best Machine Learning Resources for Getting Started
机器学习最佳入门学习资料汇总是专为机器学习初学者推荐的优质学习资源,帮助初学者快速入门。而且这篇文章的介绍已经被翻译成中文版。如果你不怎么熟悉,那么我建议你先看一看中文的介绍

 

《Neural networks and deep learning》
神经网络的免费在线书, 还有对应的开源代码:mnielsen/neural-networks-and-deep-learning

 

《Machine Learning Theory: An Introductory Primer》
机器学习最基本的入门文章,适合零基础者

 

《Pattern Classification》(《模式分类》第二版)
作者Richard O. Duda[5]、Peter E. Hart、David。模式识别的奠基之作。

 

《Pattern Recognition And Machine Learning》 
作者Christopher M. Bishop[6];简称PRML,侧重于概率模型,是贝叶斯方法的扛鼎之作,据评“具有强烈的工程气息,可以配合stanford 大学 Andrew Ng 教授的 Machine Learning 视频教程一起来学,效果翻倍。”

 

《The Elements of Statistical Learning : Data Mining, Inference, and Prediction》
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“这本书的作者是Boosting方法最活跃的几个研究人员,发明的Gradient Boosting提出了理解Boosting方法的新角度,极大扩展了Boosting方法的应用范围。

 

《AI, Modern Approach 2nd》
Peter Norvig,无争议的领域经典。

 

《Foundations of Statistical Natural Language Processing》 
自然语言处理领域公认经典。

 

《Information Theory:Inference and Learning Algorithms》
7800次引用,在学术界具有极高价值,稍微有点难,书中某些细节介绍地很简单。

 

《Bayesian Methods for Hackers:Python》
语言概率规划的电子书。

 

course

 

  • 斯坦福深度学习课程
    介绍无监督功能学习和深度学习的主要思想。本课程理论与实践相结合,着重介绍实践中遇到的问题以及如何解决。
     

 

 

 

 

 

 

 

 

  • Machine Learning Category on VideoLectures.Net
    网站中的机器学习目录:这是个很容易令人眼花缭乱的资源库。你可以找出比较感兴趣的资源,并且深入学习。不要纠结于不适合你的视频,或者对于感兴趣的内容你可以做笔记。我自己会一直重复深入学习一些问题,同时发现新的话题进行学习。此外,在这个网站上你可以发现是这个领域的大师是什么样的。
    上面都是机器学习方面造诣很高的大师级人物的课程,相信在课程中边学边做,一定可以提高我们对于机器学习的认识。
     

 

  • 机器学习基石
    台湾大学林轩田老师讲解的机器学习,比较好的一点用的是中文。但讲的比较难。
     

 

  • 机器学习技巧
    台湾大学林轩田老师讲解的机器学习进阶视屏,也是中文课程。
     

 

python库

  • BigQuant - 你的人工智能量化平台 python + 机器学习 + 量化投资 一站式学习实践交易平台,打开浏览器就可以使用投资数据和机器学习算法。
  • MLlib in Apache Spark:Spark下的分布式机器学习库。官网
  • scikit-learn:基于SciPy的机器学习模块。官网

 

  • graphlab-create:包含多种机器学习模块的库(回归、聚类、推荐系统、图分析等),基于可以磁盘存储的DataFrame。官网

 

  • BigML:连接外部服务器的库。官网

 

  • pattern:Python的web挖掘模块。官网

 

  • NuPIC:Numenta公司的智能计算平台。官网

 

  • Pylearn2:基于Theano的机器学习库。官网

 

  • hebel:Python编写的使用GPU加速的深度学习库。官网

 

  • gensim:主题建模工具。官网

 

  • PyBrain:另一个机器学习库。官网

 

  • Crab:可扩展的、快速推荐引擎。官网

 

  • python-recsys:Python实现的推荐系统。官网

 

  • thinking bayes:关于贝叶斯分析的书籍。官网

 

  • Restricted Boltzmann Machines:Python实现的受限波尔兹曼机。官网

 

  • Bolt:在线学习工具箱。官网

 

  • CoverTree:cover tree的Python实现,scipy.spatial.kdtree便捷的替代。官网

 

  • nilearn:Python实现的神经影像学机器学习库。官网

 

  • Shogun:机器学习工具箱。官网

 

  • Pyevolve:遗传算法框架。官网

 

  • Caffe:考虑了代码清洁、可读性及速度的深度学习框架。官网

 

  • breze:深度及递归神经网络的程序库,基于Theano。官网

 

  • TensorFlow:该系统旨在促进对机器学习的研究,同时也让机器学习研究原型过渡到生产系统更加高效容易。官网

 

  • Chainer:一个基于 Python 并且独立的深度学习模型开源框架。官网

 

 

数据分析

  • BigQuant:使用机器学习直接开发量化策略的云端平台。官网

 

  • SciPy:基于Python的数学、科学、工程开源软件生态系统。官网

 

  • NumPy:Python科学计算基础包。官网

 

  • Numba:Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用。官网

 

  • NetworkX:为复杂网络使用的高效软件。官网

 

  • Pandas:这个库提供了高性能、易用的数据结构及数据分析工具。官网

 

 

 

  • zipline:Python的算法交易库。官网

 

  • PyDy:全名Python Dynamics,协助基于NumPy、SciPy、IPython以及 matplotlib的动态建模工作流。官网

 

  • SymPy:符号数学Python库。官网

 

  • statsmodels:Python的统计建模及计量经济学库。官网

 

  • astropy:Python天文学程序库,社区协作编写。官网

 

  • matplotlib:Python的2D绘图库。官网

 

  • bokeh:Python的交互式Web绘图库。官网

 

  • plotly:Python and matplotlib的协作web绘图库。官网

 

  • vincent:将Python数据结构转换为Vega可视化语法。官网

 

  • d3py:Python的绘图库,基于D3.js。官网

 

  • ggplot:和R语言里的ggplot2提供同样的API。官网

 

  • Kartograph.py:Python中渲染SVG图的库,效果漂亮。官网

 

  • pygal:Python下的SVG图表生成器。官网

 

 

paper & survey

 

A Few Useful Things to Know about Machine Learning 
Domingos, 2012 介绍了机器学习中12个重要问题和研究人员在机器学习中可能遇到的一些陷进。

 

Top 10 Algorithms in Data Mining 
Wu, 2008 本文介绍了IEEE识别的十大数据挖掘算法。2006年12月国际数据挖掘会议(ICDM):C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,朴素贝叶斯和CART。 这十大算法是研究界最有影响力的数据挖掘算法之一。

 

Semi-Supervised Learning Literature Survey 
Zhu, 2007 这篇文献主要介绍了半监督学习的相关理论和运用。

 

Interestingness Measures for Data Mining: A Survey 
Geng, 2006 这篇文献主要介绍在数据挖掘过程中的一些常用的有趣的数据处理方法,非常实用。

 

The Boosting Approach to Machine Learning: An Overview 
Schapire, 2003 这篇文献主要介绍了AdaBoost算法理论知识和运用。

 

Two Faces of Active Learning 
Dasgupta, 2011 这篇文章介绍了主动学习,有一定的难度。

 

Supervised Machine Learning: A Review of Classification Techniques 
Kotsiantis, 2007 这篇文章详细介绍了监督式机器学习在分类技术中的运用。

 

Data Clustering: 50 Years Beyond K-Means 
Jain, 2010 这篇文章简要概述了聚类,总结了众所周知的聚类方法,并聚类算法和关键问题、面临挑战、聚类研究方向进行了详细地讨论,可以看做是聚类算法的文献综述。

 

Representation Learning: A Review and New Perspectives 
Bengio, 2012 是介绍表征学习的一篇好文。

 

An Introduction to Variable and Feature Selection 
Guyon, 2003 这篇文章介绍了关于变量选择和特征选择的相关研究,已经涉及到特征工程的内容。

 

A Survey of Dimension Reduction Techniques 
Fodor, 2002 这篇文章写道数十年来数据收集和存储能力的进步导致大多数科学领域的信息超载。 研究人员在域名工作如工程,天文学,生物学,遥感,经济学等
消费者交易,能够收集到越来越多的观测,传统的数据分析方法面临不少挑战,因此引出了数据降维技术的讨论。

 

Ensemble Approaches for Regression: a Survey 
Moreira, 2012 本文讨论了不同研究领域的综合回归方法。

 

Survey of Reinforcement Learning in Relational Domains 
Otterlo, 2005 增强学习的一篇经典论文。

 

Reinforcement Learning: A Survey 
Kaelbling, 1996 本文从计算机科学角度对增强学习进行了研究,是一篇有一定历史的文章。它是为熟悉机器学习的研究人员提供的,有一定难度,但是确实经典。

 

Time-Series Data Mining 
Esling, 2012 这篇文章深入介绍了针对时间序列数据 进行数据挖掘的相关技术。

 

A Survey on Transfer Learning 
Pan, 2010 许多机器学习和数据挖掘算法的一个主要假设是训练集和测试集数据必须在相同的特征空间并具有相同的分布。然而,在许多现实世界的应用中,这种假设可能不成立。因此这正是迁移学习适用的情形,本文详细介绍了迁移学习的理论和具体运用。

 

Recent advances in Personalized Recommender Systems 
Liu, 2009 介绍了个人推荐系统的最新研究成果。

 

A Review of Machine Learning for Automated Planning 
Jimenez, 2009 本文回归了强化学习并重点回顾了在自动规划具体问题中使用到的机器学习方法。

 

A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery 
Freitas, 2003 本章特别讨论了进化算法在数据挖掘和知识发现中(重点是分类任务)的使用,尤其是介绍了遗传算法和遗传规划。

 

Survey on Frequent Pattern Mining 
Goethals, 2003 这是一本介绍关联规则、分类算法的数据挖掘书籍,适合数据挖掘的人员阅读,这个书尤其介绍了以亚马逊”啤酒与尿布”的例子,并指出数据挖掘在商品销售、产品推荐中的重大价值。

 

数学知识

 

 

《Convex Optimization》

Boyd的经典书籍,被引用次数超过14000次,面向实际应用,并且有配套代码,是一本不可多得的好书。

 

《矩阵分析》 Roger Horn。矩阵分析领域无争议的经典

《All Of Statistics》 
机器学习这个方向,统计学也一样非常重要。推荐All of statistics,这是CMU的一本很简洁的教科书,注重概念,简化计算,简化与Machine Learning无关的概念和统计内容,可以说是很好的快速入门材料。

 

《Nonlinear Programming, 2nd》 
最优化方法,非线性规划的参考书,这里的链接给出的是一本中文翻译版本,学习起来不是那么吃力。

 

Numerical Optimization》 
第二版,Nocedal著,非常适合非数值专业的学生和工程师参考,算法流程清晰详细,原理清楚。

 

《Introduction to Mathematical Statistics》 
第六版,Hogg著,本书介绍了概率统计的基本概念以及各种分布,以及ML,Bayesian方法等内容。

 

《Introduction to Linear Algebra》 (3rd Ed.)

作者Gilbert Strang. 这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。

 

博客 & 网站社区

 

爱可可爱生活 新浪博客
听说博主是北邮的一位教授,博客主要发布机器学习、深度学习的最新研究、论文。博主经常凌晨2、3点还在分享干货,目前共3.5万博文,可见作者付出很多心血。勤劳的博主每日还要整理24小时热门分享和每周精华,小伙伴再也不用担心错过好文。

 

算法组 新浪微博
博主来自微软搜索引擎部门。该微博主要分享数据挖掘、大数据、算法、IT相关资讯。

 

AndrewNg吴恩达 新浪微博
全球机器学习三大牛人之一

 

李航博士 新浪微博
《统计学习方法》作者,现为诺亚方舟实验室主任

 

南大周志华 新浪微博
国内机器学习方面的大牛,粉丝不多,博文也不经常发。

 

吴军博士 新浪微博
《浪潮之巅》、《数学之美》的作者,博主现在的博文偏更多介绍作者新书动态。

 

刘知远THU 新浪微博
作者曾经翻译的《机器学习那些事》值得翻来覆去的研读,每一次阅读收获可能都不一样

 

北京大学人工智能实验室 新浪微博
该实验室官方微博,有14万粉丝

 

李沐M 新浪微博
为百度职员,导师为现在机器学习界大牛,今年一篇《博士这五年:流水账、总结感悟》让人感叹原来研究生可以念得这么充实

 

Physcal大魔导书
机器学习、深度学习研究日常博客,有不少随笔和研究教程,适合一遍学习一遍copy代码实现,作者介绍了不少相关库,比如Caffe

 

“机器学习”是什么
【“机器学习”是什么?】John Platt是微软研究院杰出科学家,17年来他一直在机器学习领域耕耘。近年来机器学习变得炙手可热,Platt和同事们遂决定开设博客,向公众介绍机器学习的研究进展。机器学习是什么,被应用在哪里?来看Platt的这篇博文

 

UFLDL-斯坦福大学Andrew Ng教授“Deep Learning”教程
介绍:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。

 

Understanding Convolutions
这是一篇介绍图像卷积运算的文章,讲的已经算比较详细的了

 

Awesome Machine Learning 
一个超级完整的机器学习开源库总结

 

An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples
通过图形可视化地介绍机器学习的理论很具体运用,适合入门。

 

Math ∩ Programming 一个关于数学和编程知识的主页

 

i am trask 该主页拥有大量神经网络、深度学习的干货贴,很多都附带python代码,可以拿来直接运行。

 

explain my data 作者文章不多,但都是干货,文章都是作者实际研究的成果整理,涉及python性能提升、GPU训练神经网络、scikit机器学习、Spark分布式编程框架

 

Statistical Modeling, Causal Inference, and Social Science - 一个关于统计建模,因果推理和社会科学的博客,博文偏方法论

 

Simply Statistics 一个数据科学、统计学的博客,博客内容比较务实,经常更新

 

Home page of Evan Miller 作者是Evan统计工具的创造者,主页是作者的一些博文和evan文档介绍

 

Overkill Analytics 数据竞赛、数据科学的一个主页

 

Peter K. G. Williams 作者是哈佛天文学专业博士后。也对科学研究的基础设施感兴趣,专注于优雅,有根据的数据分析,可视化和通信工具。

 

Blog 博文按年度分类,主要是机器学习、python学习。机器学习包含了文本分析、神经网络、线性判别分析、主成分分析等。

 

Home - colah’s blog 作者是神经网络、深度学习的行家,对广义神经网络、循环神经网络、卷积神经网络进行了可视化的讲解,特别直观易懂

 

This Number Crunching Life 关于行为学预测的一个主页,里面有不少社会行为学领域预测的例子

 

Sebastian Raschka’s Website

作者是Mlxtend(机器学习扩展的开发人员,一个用于日常数据科学任务的有用工具的Python库

 

DogDogFish 博主在搜索引擎有一定的研究,博文也是相关方面的

 

The Etz-Files 博主是贝叶斯统计学派支持者,从事领域为心理学,其博文也是围绕贝叶斯统计展开,

 

Publishable Stuff 主页有贝叶斯数据分析的系列视频,简单直观易理解,适合研究贝叶斯的初学者

 

Explore Probability with Count Bayesie 从名字可以看出,这是一个关于贝叶斯统计的学习专栏,比较全面。

 

No Free Hunch Kaggle数据竞赛的官方博客,介绍数据竞赛的新闻和资讯

 

danvk.org 作者是一个软件工程师,崇尚计算机技术来解决问题。目前在人行道实验室,以前在Hammerlab和Google。主页有多个开发项目。

 

Machine Learning (Theory) 这是一个资源比较丰富的机器学习专栏,文章覆盖多个领域。

 

Blog 作者花了很多来维护主页,主要是关于数据可视化和机器学习的案例,这些案例比较有趣和实用,比如《如何通过眼球运动进行活跃分类图像分类》、《在有限的预算下计算最佳公路旅行》等

 

Data School 数据学院,里面有很多机器学习、数据分析的视频。

 

allendowney.blogspot.ca 这是一个数据分析的博客,博文例子也是比较有趣,比如《在社交媒体帖子的回应中是否有季节性?》《药物使用与抑郁之间的联系》、《大多数恐怖主义是本地的吗?》

 

Healthy Algorithms 主页内容比较杂,包括计算机知识、算法理论、数据科学

 

Pete Warden's blog 关于TensorFlow运用的一个博客,博文都是干货,比如《什么是GPU?》、《如何用TensorFlow量化神经网络?》、《在微控制器上运行TensorFlow》

 

mrtz.org/blog/ 数据分析和机器学习的一个博客,每年作者发布的微博不是很多,但都是个人研究所得。

 

(责任编辑:ioter)

用户喜欢...

机器学习最全面最无痛的入门路径和资源!

最近有不少童鞋给李杰克留言,说自己对机器学习很感兴趣却无从下手,想知道我的学习路径,也希望我可以分享一些适合入门的学习资源给到大家。 在踩过坑、撞过墙、走过弯路之后,我这...


机器学习资源 Machine learning Resources

机器学习资源 Machine learning Resources 。 快速开始学习: 周志华的 《机器学习》 作为通读教材,不用深入,从宏观上了解机器学习 李航的 《统计学习方法》 作为经典的深入案例,仔细研究几个...