本书是首部关于网页排名科学的著作,是搜索排序姊妹篇的一本。本书主要内容有:网络搜索引擎简介、网络爬行、索引建立和查询处理、通过欢迎度对网页排名、PageRank的数学、PageRank模型中的参数、PageRank的敏感性、作为线性系统的PageRank问题、PageRank大规模实现中的问题、加速PageRank计算、更新PageRank向量、HITS网页排名方法、网页排名的其他链接方法、网络信息检索的未来、网络信息检索资源、数学指南、术语汇编、参考文献、索引。
本书可作为数学、计算机、网络技术、管理学和数据科学等专业领域科研人员和工程技术人员的参考书,也可作为教材使用。
艾米N兰维尔是查尔斯顿学院的数学教授。
卡尔D梅耶是北卡罗莱纳州立大学的数学教授。
他们是《谁排第一?关于评价和排序的科学》(机械工业出版社&普林斯顿大学出版社)的作者。
前言
第1章 网络搜索引擎简介
1.1信息检索简史
1.2传统信息检索回顾
1.3网络信息检索
第2章 网络爬行、索引建立和查询处理
2.1网络爬行
2.2内容索引
2.3查询处理
第3章 通过欢迎度对网页排名
3.11998年的情景
3.2两篇论文
3.3查询无关性
第4章 谷歌PageRank的数学
4.1PageRank的原始求和公式 前言
第1章 网络搜索引擎简介
1.1信息检索简史
1.2传统信息检索回顾
1.3网络信息检索
第2章 网络爬行、索引建立和查询处理
2.1网络爬行
2.2内容索引
2.3查询处理
第3章 通过欢迎度对网页排名
3.11998年的情景
3.2两篇论文
3.3查询无关性
第4章 谷歌PageRank的数学
4.1PageRank的原始求和公式
4.2求和方程的矩阵表示
4.3迭代过程问题
4.4一点关于马尔可夫链理论的介绍
4.5基本模型的早期修正
4.6PageRank向量的计算
4.7谷歌矩阵的谱定理及其证明
第5章 PageRank模型中的参数
5.1α因子
5.2超链接矩阵H
5.3跳转矩阵E
第6章 PageRank的敏感性
6.1对α的敏感性
6.2对H的敏感性
6.3对vT的敏感性
6.4其他敏感性分析
6.5有关敏感性的定理和证明
第7章 作为线性系统的PageRank问题
7.1(I-αS)的性质
7.2(I-αH)的性质
7.3PageRank稀疏线性系统的证明
第8章 PageRank大规模实现中的问题
8.1存储问题
8.2收敛准则
8.3精度
8.4悬挂结点
8.5对后退按钮建模
第9章 加速PageRank计算
9.1一种自适应的幂法
9.2外插
9.3聚合
9.4其他数值方法
第10章 更新PageRank向量
10.1两类更新问题及其发展历程
10.2重启幂法
10.3使用近似聚合进行近似更新
10.4精确聚合
10.5精确聚合与近似聚合的比较
10.6利用迭代聚合进行更新
10.7确定划分
10.8结论
第11章 HITS网页排名方法
11.1HITS算法
11.2HITS的实现
11.3HITS的收敛性
11.4HITS示例
11.5HITS的优点与缺点
11.6HITS与文献统计学的关系
11.7查询无关的HITS
11.8加速HITS
11.9HITS的敏感性
第12章 网页排名的其他链接方法
12.1SALSA
12.2混成排名方法
12.3基于流量的排名
第13章 网络信息检索的未来
13.1垃圾信息
13.2个性化
13.3聚类
13.4智能体
13.5趋势与时间敏感搜索
13.6隐私和审查
13.7图书馆分类方式
13.8数据融合
第14章 网络信息检索资源
14.1入门阶段的资源
14.2用于严肃的科学研究的资源
第15章 数学指南
15.1线性代数
15.2佩隆弗罗贝尼乌斯定理
15.3马尔可夫链
15.4佩隆补
15.5随机补
15.6设限
15.7聚合
15.8去聚合
第16章 术语汇编
参考文献
索引
《谷歌的PageRank及更多》是首部关于网页排名科学的著作,不论是对于好奇于科学的读者而言,还是对于关注于计算方面的技术型读者而言,该书都是易于理解的,书中的每一章都包含了某些能同时适用于这两类读者的内容。艾米兰维尔和卡尔梅耶在书中包括了若干富于娱乐性的杂谈,如搜索引擎如何赢利,以及中国大陆的防火长城如何对研究工作产生影响,等等。书中包括了若干MATLAB代码、示例性网络数据集的链接,以及为帮助一般读者学习更多有关搜索引擎的数学知识而设计的、背景知识广泛的一个介绍性章节。贯穿全书,作者们都鼓励读者去实验书中的思路和算法进行。
任何对提高在主要搜索引擎中的排名抱有严肃兴趣的业者,都能从清晰的示例、例程和所提供的资源列表中获益。