这是一本从业务视角解读推荐系统架构设计、评估方法、数据工程和算法原理的著作。
市面上推荐系统方面的著作,内容多以推荐技术、算法和模型为主,让读者误以为掌握了推荐算法就能用好推荐系统并提升业务指标,其实推荐算法只是工具,要真正发挥推荐系统的价值,需要将推荐系统植根于业务之上。本书从业务视角出发,描绘了当下主流推荐系统的设计思想和架构全貌,重点突出系统每个模块所需要解决的问题,进而介绍一到两种实践检验普遍有效、在学术界具备里程碑性质的算法。帮助读者练成识别算法的火眼金睛,从每年大量产出的新算法研究中去粗取精,真正解决实际问题。
阅读本书,你将有如下收获:
从商业、运营、算法、工程视角理解推荐系统,对推荐系统的认知更加立体化;
从业务视角理解推荐系统的顶层设计,掌握业务驱动的推荐系统设计思想;
掌握业务驱动型推荐系统的评估方法,涵盖B端、C端和平台等多个维度;
了解推荐系统的数据工程,掌握获取各类数据、构建特征体系的方法;
从业务视角理解召回、排序和决策智能方面的经典算法和学术界有里程碑意义的算法;
从技术和业务的双重视角去规划推荐算法工程师的成长路径,以达到事半功倍的效果。
CONTENTS
目 录
前言
第一部分 业务驱动下的推荐系统总览
第1章 从业务视角看推荐系统2
1.1 推荐系统的定义与商业价值2
1.1.1 推荐系统的基本概念
与业务驱动思想3
1.1.2 浅谈个性化推荐带来的
商业价值7
1.2 从运营、算法与工程视角
看推荐系统7
1.2.1 推荐业务运营思维:
货找人8
1.2.2 推荐算法建模思维:
人找货10
1.2.3 推荐引擎工程展望:
服务产品化11
第2章 从业务视角看推荐系统的
顶层设计12
2.1 业务驱动下的推荐系统
设计思想12
2.1.1 业务无关的推荐系统
抽象13
2.1.2 推荐算法模块核心能力
的建设15
2.2 从系统框架透视业务生态
循环17
2.2.1 系统大图剖析17
2.2.2 监察者:埋点日志
服务17
2.2.3 业务大脑:数据计算、
分析及仓储服务18
2.2.4 主循环系统:召回与
排序模块19
2.2.5 副循环系统:运营管控
与作业模块21
2.2.6 新陈代谢:运维与实验
平台22
2.3 迭代效率大化:图化服务和
配置化迭代25
第3章 评估推荐系统的方式
与维度27
3.1 业务驱动型推荐系统的评估
要点27
3.1.1 体验优先准则和量化
方式28
3.1.2 评估推荐系统的
方法论29
3.1.3 从3种业务价值出发
设计评估体系31
3.2 B端业务:B端用户体验的
评估维度31
3.2.1 平台玩法的
可解释性31
3.2.2 投放效果的
可预测性32
3.2.3 投入产出比33
3.2.4 基尼指数34
3.3 C端业务:C端用户体验
的评估维度34
3.3.1 兴趣相关性35
3.3.2 内容质量35
3.3.3 结果多样性35
3.3.4 推荐惊喜性36
3.4 平台成长:平台价值评估
维度36
3.4.1 产品调性和品牌
印象37
3.4.2 消费与转化率37
3.4.3 高、中、低活用户
留存37
3.4.4 活跃用户量38
3.5 评估方法概览38
3.5.1 用户调研39
3.5.2 离线评估39
3.5.3 在线评估42
3.6 AB实验42
3.6.1 AB实验中的流量切分
设计43
3.6.2 AB实验的通用流程44
3.6.3 实验结果的显著性校验
和关联分析44
3.6.4 实验报表与监控
报警45
第二部分 推荐系统的数据工程
第4章 业务标签体系48
4.1 业务标签体系概述48
4.1.1 业务标签体系的
含义48
4.1.2 业务标签体系的
价值49
4.1.3 标签体系为什么要业务
定制化49
4.2 业务标签体系的设计思路50
4.2.1 业务标签体系的概念
设计50
4.2.2 业务标签体系的系统
设计52
4.3 业务标签的挖掘方法53
4.3.1 提取式标签挖掘54
4.3.2 生成式标签挖掘55
4.3.3 基于主动学习的人机
协同标注系统56
4.3.4 标签改写、纠错与
聚合56
4.3.5 标签权重计算57
4.4 业务标签体系的评估方法58
4.4.1 离线评估58
4.4.2 在线评估59
第5章 用户画像:业务层面
的人格抽象60
5.1 用户画像概述60
5.1.1 用户画像的含义60
5.1.2 用户画像的业务价值
和算法价值61
5.2 用户画像设计61
5.2.1 用户画像概念体系
设计61
5.2.2 用户画像数据系统
设计64
5.3 用户画像的构建与迭代65
5.3.1 人工挖掘方法65
5.3.2 基于机器学习的挖掘
方法66
5.3.3 用户画像的优化
迭代68
5.3.4 用户画像权重计算70
5.4 用户画像的评估方法71
5.4.1 离线评估71
5.4.2 在线评估72
第6章 生态循环的血液:
数据获取与处理73
6.1 埋点日志服务与埋点体系的
设计思想73
6.1.1 埋点日志服务简介74
6.1.2 业务驱动的埋点体系
设计思想75
6.2 可扩展的业务埋点体系77
6.2.1 SPM埋点体系77
6.2.2 SCM埋点体系77
6.2.3 扩展埋点体系EXT78
6.2.4 会话级埋点设计与
消费路径跟踪78
6.3 基于埋点数据的处理和分析79
6.3.1 常见重要数据指标
释义79
6.3.2 漏斗效应和优化
分析81
第7章 业务定制化特征和
样本工程设计83
7.1 推荐特征体系概览83
7.1.1 推荐特征体系简介84
7.1.2 特征体系的设计
思想85
7.2 推荐系统特征设计及案例86
7.2.1 用户描述性特征86
7.2.2 用户特征的人群
泛化87
7.2.3 内容描述性特征87
7.2.4 内容统计类特征88
7.2.5 内容统计类特征
泛化88
7.2.6 用户与内容的交叉特征
设计89
7.2.7 用户历史行为序列
特征设计91
7.2.8 实时特征的定义和
价值92
7.2.9 实时统计特征设计和
数据流程92
7.2.10 基于机器学习的特征
构造94
7.3 特征应用常见问题95
7.3.1 多值特征处理95
7.3.2 在线、离线特征的
一致性96
7.4 特征去噪96
7.4.1 威尔逊置信区间
方法96
7.4.2 对数平滑方法97
7.4.3 百分位点离散化
方法97
7.5 特征样本构造和模型训练97
7.6 时间穿越及处理98
7.6.1 时间穿越的定义及
影响98
7.6.2 样本现场还原98
7.7 特征与样本消偏99
7.8 特征评估方法100
第三部分 推荐系统的算法原理
与实践
第8章 业务驱动视角下的
召回技术104
8.1 推荐系统召回技术概览104
8.1.1 推荐系统召回技术的
业务定位104
8.1.2 业务驱动下的召回
技术建模思维106
8.2 召回中的策略框架108
8.2.1 圈池策略108
8.2.2 召回多样性策略108
8.2.3 基于业务策略的
召回109
8.2.4 召回模块框架109
8.3 U2I召回算法111
8.3.1 UserCF算法111
8.3.2 矩阵补全算法113
8.3.3 向Neural CF迈进:
Deep Match框架114
8.4 I2I召回算法117
8.4.1 I2I召回的业务价值及
特点117
8.4.2 Trigger Selection
方法118
8.4.3 ItemCF算法118
8.4.4 Item2Vec算法118
8.5 基于图结构的召回算法119
8.5.1 图召回的前世今生和
业务价值119
8.5.2 Swing I2I召回算法120
8.5.3 GraphSage算法122
8.6 向量召回的另一面:近似检索
算法127
8.6.1 ENN向量检索与
ANN向量检索128
8.6.2 ANN向量检索算法的
分类及特点130
8.6.3 HC检索算法131
8.6.4 IVF-PQ检索算法
与Faiss133
8.6.5 SSG检索算法138
8.7 召回中的采样技术140
第9章 业务驱动视角下的
排序技术142
9.1 排序模块概览142
9.1.1 排序模块的业务
价值142
9.1.2 业务驱动下的排序
模块组件143
9.2 粗排模块144
9.2.1 粗排模块的业务价值
和技术思考变迁144
9.2.2 粗排算法选型原则145
9.2.3 GBDT算法145
9.2.4 GBDT+LR复合
排序149
9.2.5 双塔深度网络150
9.2.6 从精排模型蒸馏
出粗排模型151
9.3 精排模型152
9.3.1 精排模型的特点与
业务价值152
9.3.2 从LR到FM:从半人工
走向全自动153
9.3.3 端到端暴力美学:
精排CIN模块155
9.3.4 序列特征建模157
9.3.5 稠密特征处理158
9.3.6 归纳偏执处理159
9.3.7 特征融合160
9.3.8 广义LR排序范式160
9.4 多准则排序161
9.4.1 多准则排序简介及
业务意义161
9.4.2 MMoE建模多准则
任务161
9.4.3 多目标的融合163
9.4.4 从Point-wise到
List-wise:强化
学习重排序165
9.4.5 解决数据匮乏问题:
生成式强化学习
重排167
第10章 算法辅助人工:
决策智能168
10.1 决策智能概述168
10.1.1 决策智能的含义168
10.1.2 推荐业务中的决策
智能169
10.2 决策智能与推荐探索利用
机制169
10.2.1 冷启动中的决策
智能169
10.2.2 场景冷启动中的
人工部分170
10.2.3 新用户冷启动中的
人工部分172
10.2.4 冷启动决策中的
迁移学习173
10.2.5 新内容冷启动
算法175
10.3 因果推断技术178
10.3.1 决策智能与因果
推断178
10.3.2 智能营销与上推
建模179
10.4 流量调控181
10.4.1 流量调控的业务
价值与应用场景181
10.4.2 异质内容混排及
强化学习应用181
10.4.3 履约保量的流量调控
及算法184
第四部分 推荐算法工程师的
自我成长
第11章 推荐算法工程师的
成长路径188
11.1 技术:推荐算法工程师的
立身之本188
11.1.1 推荐算法工程师的
知识体系188
11.1.2 推荐算法工程师的技术
成长路径189
11.2 业务:推荐算法工程师的
立业之道190
11.2.1 推荐算法工程师的
业务成长路径191
11.2.2 推荐算法业务目标
优化迭代的节奏192
11.3 推荐算法工程师的自我
修养193
11.3.1 推荐算法工程师的
工作日常193
11.3.2 优秀的推荐算法
工程师的特征194
11.3.3 在自证价值和技术
沉淀中寻求平衡195