《信息检索实验》共分5章,第1章主要从网络信息采集的角度引导学生进行相关实验;第2章侧重于让学生掌握信息索引的机制及设计实现;第3章介绍了几个典型的信息检索模型及其实现;第4章侧重于从效果的角度引导学生掌握信息检索评价方法;第5章则对XML有关知识及其检索实验进行了介绍。
《信息检索实验》旨在从信息流的视角出发,面向实验与实践,引导学生理解并掌握信息检索相关理论方法和实现技术,提高学生的实验实践能力和创新精神,为进一步开展科学研究和从事相关社会实践工作打下坚实的基础。
随着互联网的飞速发展,网络信息资源呈现爆炸性的增长,因而如何有效地管理和利用这些信息资源就成为情报学和信息管理类专业理论研究和应用实践的重要课题。作为信息管理专业的基础和核心内容之一,信息检索相关理论和方法在信息资源的管理和有效利用方面发挥着日益重要的作用,从Google、Baidu等搜索引擎到中国期刊网、万方等学术数据库,甚至到企业的网站建设,都需要用到信息检索技术。今天,信息检索正渗透到人们生活的各个领域,潜移默化地改变着人们的生活。
广义的信息检索涉及信息资源的采集、加工、存储(索引)、检索利用与评价等多个方面。本实验教材旨在从信息流的视角出发,面向实验与实践,引导学生理解并掌握网络信息采集、信息索引、信息检索模型、检索评价等相关理论方法和实现技术,提高学生的实践能力和创新精神,为其进一步开展科学研究和从事相关社会实践工作打下坚实的基础。
本实验教材共分5章,第1章主要是从网络信息采集的角度引导学生进行相关实验;第2章侧重于让学生掌握信息索引的机制及设计实现;第3章介绍了几个典型的信息检索模型及其实现;第4章侧重于从效果的角度引导学生掌握信息检索评价方法;由于XML在信息传递及网络信息组织等方面日益广泛的应用,第5章对XML的有关知识及其检索实现等通过实验设计进行了介绍。韩曙光、袁泽林、姜捷璞、秦喜艳、刘丹分别负责以上各章的编写,陆伟负责教材整体的修改和统稿。
本书可作为信息管理相关专业本科生、研究生的实验教学用书,亦可作为图书馆学、档案学、电子商务等专业的教学参考用书。
由于时间仓促,文中难免有不足和疏漏之处,敬请读者批评指正!
前言
1 网络信息采集实验
1.1 网络蜘蛛程序设计
1.1.1 实验目标
1.1.2 实验内容
1.1.3 背景知识
1.1.4 实验步骤
1.1.5 参考示例
1.1.6 实验分析
1.1.7 参考程序
1.2 网页清理
1.2.1 实验目标
1.2.2 实验内容
1.2.3 背景知识
1.2.4 实验步骤
1.2.5 参考示例
1.2.6 实验分析
1.3 Google检索接口的调用
1.3.1 实验目标
1.3.2 实验内容
1.3.3 背景知识
1.3.4 实验步骤
1.3.5 参考示例
1.3.6 实验分析
1.3.7 参考程序
2 信息索引实验
2.1 倒排文档索引
2.1.1 实验目标
2.1.2 实验内容
2.1.3 背景知识
2.1.4 实验步骤
2.1.5 参考示例
2.1.6 实验分析
2.2 词干提取和停用词分析
2.2.1 实验目标
2.2.2 实验内容
2.2.3 背景知识
2.2.4 实验步骤
2.2.5 参考示例
2.2.6 实验分析
2.3 中文分词
2.3.1 实验目标
2.3.2 实验内容
2.3.3 背景知识
2.3.4 实验步骤
2.3.5 参考示例
2.3.6 实验分析
2.4 Lucene索引分析
2.4.1 实验目标
2.4.2 实验内容
2.4.3 背景知识
2.4.4 实验步骤
2.4.5 参考示例
2.4.6 实验分析
3 信息检索模型实验
3.1 向量空间模型
3.1.1 实验目标
3.1.2 实验内容
3.1.3 背景知识
3.1.4 实验步骤
3.1.5 参考示例
3.1.6 实验分析
3.2 概率模型
3.2.1 实验目标
3.2.2 实验内容
3.2.3 背景知识
3.2.4 实验步骤
3.2.5 参考示例
3.2.6 实验分析
3.3 基于Lueene的检索扩展
3.3.1 实验目标
3.3.2 实验内容
3.3.3 背景知识
3.3.4 实验步骤
3.3.5 参考示例
3.3.6 实验分析
3.4 PageRank算法及实现
3.4.1 实验目标
3.4.2 实验内容
3.4.3 背景知识
3.4.4 实验步骤
3.4.5 参考示例
3.4.6 实验分析
4检 索评价实验
4.1 查全率和查准率的关系
4.1.1 实验目标
4.1.2 实验内容
4.1.3 背景知识
4.1.4 实验步骤
4.1.5 参考示例
4.1.6 实验分析
4.2 计算MAP和R-prec值
4.2.1 实验目标
4.2.2 实验内容
4.2.3 背景知识
4.2.4 实验步骤
4.2.5 参考示例
4.2.6 实验分析
4.3 利用P@N的搜索引擎比较实验
4.3.1 实验目标
4.3.2 实验内容
4.3.3 背景知识
4.3.4 实验步骤
4.3.5 参考示例
4.3.6 实验分析
5 XML检索实验
5.1 XML查询与显示
5.1.1 实验目标
5.1.2 实验内容
5.1.3 背景知识
5.1.4 实验步骤
5.1.5 参考示例
5.1.6 实验分析
5.2 XHU-XML系统的使用与比较
5.2.1 实验目标
5.2.2 实验内容
5.2.3 背景知识
5.2.4 实验步骤
5.2.5 参考示例
5.2.6 实验分析
附1 Lucene简介
附2 环境安装与配置
主要参考文献