本书除了介绍推荐系统的一般框架、典型应用和评测方法外,还图文并茂地介绍了各种典型推荐系统与算法的思想、原理、设计、实现和应用场景。除了介绍基于协同过滤的推荐、基于内容的推荐、基于知识的推荐等经典推荐系统与算法外,还介绍了基于排序学习的推荐、基于异质信息网络的推荐、基于图神经网络的推荐等新型推荐系统与算法。此外,为便于读者快速入门并开展相关工程实践,本书还提供了配套的讲解视频和实验内容。
本书可作为计算机科学与技术、软件工程、数据科学与大数据技术、人工智能等专业高年级本科生和研究生的推荐系统、数据挖掘、人工智能等相关课程的教材或参考书,也可作为从事推荐系统、搜索引擎、数据挖掘等研发工作相关人员的参考书。
本书配有电子课件、源代码等教学资源,欢迎选用本书作教材的老师登录www.cmpedu.com注册后获取。
本书遵循教指委相关指导文件和高等院校学生学习规律编写而成。践行四新理念,融入思政元素,注重理论与实践相结合。
由于具有广泛的应用价值同时又面临诸多挑战,推荐系统一直备受各界关注。自本书第1版出版以来,收到了很多读者和授课老师的积极反馈和宝贵建议。在此基础上,结合我们多年的教学与科研积累,从主体内容、内容组织与表现形式、配套资源等多方面对本书进行了修订和升级。
在主体内容方面,通过对各种推荐系统的思想、原理和实现进行系统性抽象与总结,提炼出了推荐系统的统一框架,包括用户建模(画像)、项目建模(画像)、推荐算法等主要模块。在第1版重点介绍各种推荐算法的基础上,进一步给出了各种典型推荐系统中用户画像和项目画像的思路与方法,并相应地给出各种实用推荐系统的设计与实现。此外,还增加了一些近年提出并被学界认可或业界应用验证的推荐算法与框架,例如融合深度神经网络与因子分解机的推荐算法、基于注意力机制的推荐算法、基于图神经网络的推荐框架等。
在内容组织与表现形式方面,采用问题引导与示例展示相结合的方式,增加大量可视化图表,通过原理示意图、系统框图、业务流程图等可视化方式直观展示各种推荐算法与系统的思想、设计、实现和应用;引导读者层层递进地深入思考问题,不断优化解决方案,以培养其精益求精的工匠精神。
在配套资源方面,录制了配套的讲解视频,并在中国大学MOOC、学堂在线等平台上开设了免费在线课程,便于读者线上线下联合学习,进一步提升学习效率。此外,为配合国务院、等部门发布的关于新工科建设的多项规划,开发并开源了书中各种算法、系统和实验配套的源代码,便于读者开展相关的课程实验和工程实践活动,以帮助读者快速入门并不断提高实践动手能力。
本书在编写和相关配套资源的建设过程中,得到了多方支持并获得了一些荣誉,包括获得产学合作协同育人项目资助,荣获北京大学教学成果奖,入选首批工程类专业在线示范课程,入选中国机械工业教育协会十四五普通高等教育规划教材等。
在本书的编写过程中,操懿、杜鹰鹏、王新阳等几位北京大学研究生帮助完成了部分资料的整理工作,在此对他们表示感谢。此外,还要感谢使用本书作为教材或参考书的各位老师以及他们所提出的宝贵意见与建议。
由于学识水平有限,书中难免有一些不足之处,敬请广大读者批评指正。
目录
第2版前言
第1版前言
第1章概述1
1.1推荐系统简介1
1.1.1信息超载1
1.1.2长尾效应2
1.1.3推荐系统的价值3
1.2推荐系统的发展历史4
1.3典型应用场景5
1.3.1电商5
1.3.2新闻6
1.3.3音乐7
1.4推荐系统框架8
1.4.1用户画像9
1.4.2项目画像10
1.5推荐算法分类11
1.5.1基于算法思想的分类11
1.5.2基于应用问题的分类14
习题15
第2章基于邻域的协同过滤16
2.1协同过滤简介16
2.1.1基本思想16
2.1.2算法分类17
2.1.3一般流程17
2.2基于用户的协同过滤18
2.2.1TopN推荐20
2.2.2评分预测23
2.3基于项目的协同过滤25
2.3.1TopN推荐26
2.3.2评分预测29
2.4基于距离的相似度度量30
2.5邻域的选取32
2.6Slope One算法33
2.7基于二部图的协同过滤34
2.7.1激活扩散模型35
2.7.2物质扩散模型37
2.7.3热传导模型39
2.7.4基于图扩散的推荐系统42
习题43
第3章基于模型的协同过滤44
3.1基于关联规则的协同过滤44
3.1.1基本概念45
3.1.2关联规则度量45
3.1.3Apriori关联规则挖掘算法47
3.1.4关联规则的相关分析48
3.1.5基于关联规则的推荐系统49
3.2基于矩阵分解的评分预测50
3.2.1奇异值分解50
3.2.2隐语义模型52
3.2.3概率矩阵分解57
3.2.4SVD 模型61
3.3基于矩阵分解的TopN推荐62
3.3.1基于正样本过采样的矩阵分解62
3.3.2基于负样本欠采样的矩阵分解63
习题64
第4章基于内容和知识的推荐65
4.1基于内容的推荐系统框架65
4.2基于词向量空间模型的文本表示67
4.2.1词袋模型67
4.2.2TFIDF模型68
4.2.3模型改进71
4.2.4向量相似度度量71
4.3基于语义的内容相似度72
4.3.1基于本体的文本相似度72
4.3.2基于网络知识的文本相似度73
4.3.3基于语料库的文本相似度75
4.4基于知识的推荐77
4.4.1基于约束的推荐78
4.4.2基于效用的推荐81
4.4.3基于实例的推荐82
4.4.4基于知识库的推荐84
习题86
第5章混合推荐系统87
5.1混合推荐实例Netflix百万美金公开赛87
5.2混合/组合推荐的动机89
5.2.1实践经验89
5.2.2理论依据90
5.3混合/组合方法分类92
5.3.1有监督组合和无监督组合92
5.3.2基推荐器间依赖关系93
5.4并行式混合推荐94
5.4.1加权式混合94
5.4.2切换式混合95
5.4.3排序混合96
5.5串行式混合推荐97
5.5.1级联过滤97
5.5.2级联学习98
5.6整体式混合推荐99
5.6.1特征组合99
5.6.2特征扩充100
5.6.3基于图模型的混合100
习题102
第6章推荐系统评测103
6.1评测视角103
6.2实验方法104
6.2.1在线实验104
6.2.2用户调查105
6.2.3离线实验106
6.3评分预测评价指标107
6.3.1MAE和MSE107
6.3.2RMSE、NMAE和NRMSE108
6.4TopN推荐评价指标109
6.4.1分类准确度指标109
6.4.2ROC曲线和AUC值111
6.4.3基于排序的评价指标113
6.4.4其他常用评价指标115
6.5公开实验数据集116
习题118
第7章基于排序学习的推荐119
7.1排序学习模型分类119
7.2对级排序学习模型121
7.2.1基本框架121
7.2.2贝叶斯个性化排序123
7.2.3协同对级排序学习125
7.3列表级排序学习模型129
7.3.1PPush CR算法129
7.3.2CofiRank算法131
习题133
第8章基于情境感知的推荐134
8.1情境信息的定义134
8.2情境信息的获取136
8.3基于情境感知的推荐系统框架136
8.3.1数据立方体137
8.3.2基于树的层次信息表达138
8.4融合情境信息的推荐模型139
8.4.1情境预过滤140
8.4.2情境后过滤141
8.5情境建模141
8.5.1基于邻域的方法142
8.5.2基于模型的方法143
习题146
第9章基于时空信息的推荐147
9.1基于时间信息的推荐147
9.1.1最近最热门推荐算法148
9.1.2基于时间的项目协同过滤148
9.1.3基于时间的用户协同过滤149
9.1.4基于会话的推荐150
9.2基于序列感知的推荐151
9.2.1基于马尔可夫模型的序列预测152
9.2.2基于循环神经网络的序列预测155
9.2.3基于注意力机制的序列预测157
9.3基于空间信息的推荐160
9.3.1位置信息的获取与推理161
9.3.2基于位置信息的推荐161
9.3.3融合其他信息的推荐163
习题163
第10章基于社交关系的推荐164
10.1社交关系数据164
10.2基于邻域的社交化推荐166
10.2.1基于用户的协同过滤166
10.2.2基于图扩散的推荐167
10.3基于模型的社交化推荐169
10.3.1基于潜在社交因子学习的推荐169
10.3.2基于显式社交关系的推荐171
10.4基于社会曝光的协同过滤174
习题176
第11章基于异质信息网络的推荐177
11.1基本概念177
11.2基于邻域的HIN推荐算法178
11.2.1基于随机游走的相关度度量178
11.2.2基于元路径的相关度度量179
11.2.3基于元路径和随机游走混合的相关度度量183
11.3基于模型的HIN推荐算法183
11.3.1两阶段融合模型183
11.3.2端到端的学习模型188
习题191
第12章基于图神经网络的推荐192
12.1图神经网络简介192
12.1.1任务分类与定义193
12.1.2一般流程与框架194
12.1.3采样模块195
12.1.4池化模块196
12.1.5传播模块198
12.2图神经网络典型算法202
12.2.1GCN算法202
12.2.2GraphSAGE算法204
12.2.3GAT算法205
12.3基于图神经网络的推荐算法207