■ 介绍机器学习领域的模型、算法和数据训练。
■ 了解监督和非监督机器学习算法。
■ 针对模型使用的数据进行统计验证。
■ 深入了解商业和科学中使用的线性回归模型。
■ 使用单层和多层神经网络计算结果。
■ 介绍基于树的模型的工作原理,以及流行的决策树。
■ 了解R语言中机器学习的生态环境。
■ 介绍R语言提供的强大的工具caret包。
前言
在这篇简短的介绍中,我将讨论几个关键点。本书面向的读者对象本书非常适合对R编程语言有一定了解的人。如果不了解R语言,那么也不用担心,R是一种很容易学习的语言,并且代码可读性很强,相信你可以掌握代码示例中的要点。本书的范围本书是入门级的图书,所以我们不会深入研究每种算法涉及的数学知识。书中展示的内容可以帮助你大致掌握一些基本概念,比如神经网络与随机森林之间的区别等。排版约定本书使用了下述排版约定。斜体(Italic)表示新术语、URL、示例电子邮件地址、文件名、扩展名、路径名和目录。等宽字体(Constant Width)表示代码,在段内用以表示与代码相关的元素,如变量或函数名、数据库、数据类型、环境变量、声明和关键字。等宽粗体字(Constant width bold)表示命令或其他用户输入的文本。斜体等宽字体(Constant Width Italic)表示该文本应当由用户提供的值或由用户根据上下文决定的值替换。OReilly SafariSafari(以前的Safari Books Online)是面向企业、政府、教育和个人的会员制培训与参考平台。
Safari的会员可以访问成千上万的书籍、培训视频、学习路径、交互式教程和推荐的书单。这些内容由250多家出版社提供,其中包括:OReilly Media、Harvard Business Review、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett和Course Technology等。
更多关于Safari的信息,请访问我们的网站:http://oreilly.com/safari。
联系我们请把你对本书的意见和疑问发给出版社:美国:OReilly Media,Inc.1005 Gravenstein Highway NorthSebastopol,CA 95472中国:北京市西城区西直门南大街2号成铭大厦C座807室(100035)奥莱利技术咨询(北京)有限公司这本书有专属网页,你可以在那里找到本书的勘误、示例和其他信息。这个网页的地址是http://bit.ly/intro_ML_withR。
如果你对本书有一些评论或技术上的建议,请发送电子邮件到:bookquestions@oreilly.com。要了解OReilly图书、培训课程、会议和新闻的更多信息,请访问我们的网站:http://www.oreilly.comhttp://www.oreilly.com.cn请在Facebook上联系我们,地址是:http://facebook.com/oreilly。请在Twitter上关注我们,地址是:http://twitter.com/oreillymedia。
请观看我们的Youtube视频,地址是:http://www.youtube.com/oreillymedia。致谢写书一直是我的梦想。小学三四年级的时候,我想写的书是关于我收集的毛绒动物玩具的脱口秀。我从来没想过有一天,我的技术能力足够强到可以为大家讲解复杂的机器学习。
一路走到今天,发生了很多事情,我想在这里感谢所有帮助过我写这本书的人:Allison Randal、Amanda Harris、Cristiano Sabiu、Dorothy Duffy、Elayne Britain、Filipe Abdalla、Heather Scherer、Ian Furniss、Kristen Brown、Kristen Larson、Marie Beaugureau、Max Winderbaum、Myrna Fant、Richard Fant、Robert Lippens、Will Wright和Woody Ciskowski。
Scott V. Burger是一名高级数据科学家。他拥有天体物理学领域的编程经验,并将这些经验用于各种不同的方面。Scott拥有关于如何用简洁的方式向公众解释科学概念的丰富经验,并向普通R语言用户揭示了机器学习的世界。
前言
1
第1章 什么是模型? 5
算法与模型有什么不同? 10
术语说明 12
模型的局限性 13
建模中的统计与计算 15
数据训练 16
交叉验证 17
为什么使用R语言? 18
优点 19
缺点 22
小结 23
第2章 监督学习与无监督机器学习 25
监督模型 26
回归 26
训练数据与测试数据 28
分类 30
混合方法 37
无监督学习 47
无监督聚类方法 48
小结 50
第3章 R语言中的采样统计和模型训练 52
偏差 53
R语言中的采样 58
训练与测试 61
交叉验证 74
小结 76
第4章 全面解析回归 78
线性回归 79
多项式回归 88
拟合数据的优点过度拟合的风险 95
逻辑回归 98
小结 112
第5章 全面解析神经网络 115
单层神经网络 115
用R语言建立一个简单的神经网络 116
多层神经网络 125
回归神经网络 131
神经网络分类 136
使用caret的神经网络 137
小结 139
第6章 基于树的方法 141
简单的树模型 141
决定树的分割方式 143
决策树的优点和缺点 147
条件推理树 158
随机森林 161
小结 164
第7章 其他高级方法 165
朴素贝叶斯分类 165
主成分分析 169
支持向量机 179
k最近邻算法 185
小结 191
第8章 使用caret包实现机器学习 192
泰坦尼克号数据集 193
使用caret 196
小结 207
附录A caret机器学习模型大全 209
|