本书的写作目的旨在帮助大量正走在、或即将走向学习机器学习路上的广大读者朋友。我们在日常教学和培养研究生过程中发现,很多同学一方面想学、愿意学;另一方面又遇到入门难的问题,希望能有一本书旨在帮助正走在或即将走向学习机器学习路上的广大读者朋友。我们在日常教学和培养研究生过程中发现,很多同学一方面想学、愿意学; 另一方面又遇到入门难的问题,希望能有一本书、一本教材讲原理、给数据、给源码、给实验,带着入门。本着这样一个初衷,我们选择了机器学习领域析十大经典算法,把我们平常培养硕士研究生一年级刚入校学生的算法材料整理,开放提供给广大希望学习的读者朋友,写一本机器学习入门级的学习材料。每章完整的源代码扫描二维码即可下载,每个算法一个Python工程,实验数据就在每个工程的data文件夹下。代码风格尽量保持一致,让读者更容易理解。 本书可作为高等学校各专业机器学习及相关课程的教学参考书。本书、一本教材讲原理、给数据、给源码、给实验,带着入门。
带您启航机器学习的风帆
用简单的方式讲述复杂的算法
提供完整Python代码及实验数据下载
本书为《机器学习经典算法实践(JAVA版)》的姊妹篇。应读者要求,由于当前Python语言在机器学习领域的广泛使用,本次出版由书稿写作组李茜博士牵头,将原书稿中全部算法使用Python语言实现。同时,为了保证和原书Java版代码风格一致,在Python实现时尽量保证原有的类设计、函数设计思想。争取做到将原书的JAVA实现翻译成Python实现。
当前,大数据、社交网络、计算智能、深度学习等词汇都已经成为我们日常生活中经常看到的热门专业名词了。如果我们考虑一下这些领域的共性,那么机器学习一定是重要的交集部分。很多来自不同领域、承担不同角色的学生、工作人员都在加入学习机器学习的队伍。
本书旨在帮助正走在或即将走向学习机器学习路上的广大读者朋友。我们在日常教学和培养研究生过程中发现,很多同学一方面想学、愿意学; 另一方面又遇到入门难的问题,希望能有一本书、一本教材讲原理、给数据、给源码、给实验,带着入门。本着这样一个初衷,我们选择了机器学习领域的十大经典算法,把我们平常培养研一刚入校学生的算法材料整理,开放提供给广大希望学习的读者朋友,写一本机器学习入门级的学习材料。
在整体章节的安排上,按照: 监督{KNN(分类),Bayes(分类),C4.5(分类),SVM(分类),AdaBoost(分类),CART(回归)},无监督{KMeans(聚类),Apriori(关联规则),PageRank(排序),EM(参数估计)}的顺序组织章节。在每一章的讲解中,我们以讲故事开始讲解算法原理,接着分别从算法实现类/方法流程图、类/方法说明表、关键代码讲解算法实现,然后给出实验数据,后给出实验结果与分析,写作上尽量做到简单易懂。每章完整的源代码扫描下面二维码即可下载,每个算法一个Python工程,实验数据就在每个工程的data文件夹下。代码风格尽量保持一致,让读者更容易理解。
参与本书写作工作的几位作者都是长期在机器学习领域从事科学研究、工程实践、项目合作的科研人员和高校工作者。我们的想法是通过我们的努力,以开放的心态,能够帮助到更多的希望学习机器学习的读者。
即使是作为一本入门级的学习读物,整个书稿从开始有这个想法到后出版前前后后也修改几十稿。同时我们也参考学习了很多机器学习的书籍和网络资源,真高兴当下国内有许多学者、产业界人员和互联网热心人提供这么多优秀的学习资源。诚然,即便是我们非常努力完善书稿,由于我们水平有限和时间仓促,可能还会有这样或那样的问题,还请读者海涵,并恳请批评指正。另外,我们算法自身也在更新迭代,凡是内容有更新的地方都会体现在本书的后继版本中,我们也希望本书的第二版、第三版等不仅仅是内容的更误,还会加入更多有趣的算法,从传统机器学习到深度学习、增强学习。其实,机器学习经典算法又何止十大呢。
后,感谢所有直接或间接参与支持本书写作的同事朋友,感谢实验室学生在本书的写作过程中帮着收集材料、提意见、讨论书稿,所有的过程都是美好回忆。
本书的完成得到国家重点研发计划(2021YFF0704102)、国家自然科学基金(No. 62006032,62072066)、重庆市教育委重点合作项目(HZ2021008)、重庆市教育委科学技术研究项目(No.KJZDK201900603,KJQN201900629)、重庆市研究生教育教学改革项目(No.yjg183081)、重庆市高等教育教学改革项目(No.203398)、重庆邮电大学出版基金资助。
作者
2021年12月
李茜,博士,重庆邮电大学助理研究员,毕业于北京邮电大学。主要研究方向:大数据、社交网络、信息传播、机器学习。近年来,以作者在IEEE TCSS、Computational Intelligence、IEICE Transactions on Information and Systems、Physica A、网络与信息安全学报等国内外高水平期刊发表论文十余篇。
●第1章KNN
1.1KNN算法原理
1.1.1算法引入
1.1.2科学问题
1.1.3算法流程
1.1.4算法描述
1.1.5补充说明
1.2KNN算法实现
1.2.1简介
1.2.2核心代码
1.3实验数据
1.4实验结果
1.4.1结果展示
1.4.2结果分析
●第2章朴素贝叶斯
2.1朴素贝叶斯算法原理
2.1.1朴素贝叶斯算法引入
2.1.2科学问题
2.1.3算法流程
2.1.4算法描述
2.1.5算法补充
2.2朴素贝叶斯算法实现
2.2.1简介
2.2.2核心代码
2.3实验数据
2.4实验结果
2.4.1结果展示
2.4.2结果分析
●第3章C4.5
3.1C4.5算法原理
3.1.1C4.5算法引入
3.1.2科学问题
3.1.3算法流程
3.1.4算法描述
3.1.5补充说明
3.2C4.5算法实现
3.2.1简介
3.2.2核心代码
3.3实验数据
3.4实验结果
3.4.1结果展示
3.4.2结果分析
●第4章SVM
4.1SVM算法原理
4.1.1算法引入
4.1.2科学问题
4.1.3算法流程
4.1.4算法描述
4.1.5补充说明
4.2SVM算法实现
4.2.1简介
4.2.2核心代码
4.3实验数据
4.4实验结果
4.4.1结果展示
4.4.2结果分析
●第5章AdaBoost
5.1AdaBoost算法原理
5.1.1算法引入
5.1.2科学问题
5.1.3算法流程
5.1.4算法描述
5.1.5补充说明
5.2AdaBoost算法实现
5.2.1简介
5.2.2核心代码
5.3实验数据
5.4实验结果
5.4.1结果展示
5.4.2结果分析
●第6章CART
6.1CART算法原理
6.1.1算法引入
6.1.2科学问题
6.1.3算法流程
6.1.4算法描述
6.1.5补充说明
6.2CART算法实现
6.2.1简介
6.2.2核心代码
6.3实验数据
6.4实验结果
6.4.1结果展示
6.4.2结果分析
●第7章KMeans
7.1KMeans算法原理
7.1.1算法引入
7.1.2科学问题
7.1.3算法流程
7.1.4算法描述
7.1.5补充说明
7.2KMeans算法实现
7.2.1简介
7.2.2核心代码
7.3实验数据
7.4实验结果
7.4.1结果展示
7.4.2结果分析
●第8章Apriori
8.1Apriori算法原理
8.1.1算法引入
8.1.2科学问题
8.1.3算法流程
8.1.4算法描述
8.2Apriori算法实现
8.2.1简介
8.2.2核心代码
8.3实验数据
8.4实验结果
8.4.1结果展示
8.4.2结果分析
●第9章PageRank
9.1PageRank算法原理
9.1.1PageRank算法引入
9.1.2科学问题
9.1.3算法流程
9.1.4算法描述
9.2PageRank算法实现
9.2.1简介
9.2.2核心代码
9.3实验数据
9.4实验结果
9.4.1结果展示
9.4.2结果分析
●第10章EM
10.1EM算法原理
10.1.1EM算法的引入
10.1.2科学问题
10.1.3理论推导
10.1.4算法流程
10.1.5算法描述
10.2EMGMM实现
10.2.1简介
10.2.2核心代码
10.3实验数据
10.4实验结果
10.4.1结果展示
10.4.2结果分析