欢迎访问学兔兔,学习、交流 分享 !

返回首页 |
当前位置: 首页 > 书籍手册>计算机与网络 >搜索引擎:原理、技术与系统

搜索引擎:原理、技术与系统

收藏
推荐:升级会员 无限下载,节约时间成本!
关键词:
资源简介
书名=搜索引擎:原理、技术与系统
作者=李晓明 闫宏飞 王继民著
页数=248
出版日期=2005年04月第1版

目录
前言
第一章 引论
第一节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些著名的搜索引擎
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
第一节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第三章 Web信息的搜集
第一节 引言
一、超文本传输协议
二、一个小型搜索引擎系统
第二节 网页搜集
一、定义URL类和Page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 如何首先搜集重要的网页
第六节 搜集信息的类型
第七节 本章小结
第四章 对搜集信息的预处理
第一节 信息预处理的系统结构
第二节 索引网页库
第三节 中文自动分词
第四节 分析网页和建立倒排文件
第五节 本章小结
第五章 信息查询服务
第一节 查询服务的系统结构
第二节 检索的定义
第三节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第四节 本章小结
中篇 对质量和性能的追求
第六章 可扩展搜集子系统
第一节 天网系统概述和集中式搜集系统结构
一、天网系统结构
二、集中式搜集系统
第二节 利用并行处理技术高效搜集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 本章小结
第七章 网页净化与消重
第一节 网页净化与元数据提取
一、引言
二、DocView模型
三、网页的表示
四、提取DocView模型要素的方法
五、模型应用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第八章 高性能检索子系统
第一节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 倒排文件性能模型
一、引言
二、倒排文件的概念
三、倒排文件的一种性能模型
四、结合计算机性能指标的考虑
第三节 混合索引技术
一、引言
二、混合索引原理
三、混合索引实现
第四节 倒排文件缓存机制
一、引言
二、倒排文件缓存
三、负载特性
四、缓存策略的选择
第五节 本章小结
第九章 用户行为的特征及缓存的应用
第一节 用户查询与点击日志
第二节 用户行为特征的统计分析
一、用户查询词的分布情况
二、雷同查询词的衰减统计
三、相邻N项查询词的偏差分析
四、用户在输出结果中的翻页情况统计
五、用户点击URL的分布情况
六、考虑与不考虑查询项时点击URL分布的对比分析
七、查询过程的自相似性
第三节 查询缓存的使用
一、基于用户行为的启示
二、缓存替换策略研究
第四节 用户行为与Web信息的分布特征
一、基本术语
二、海量Web信息的特征分析
第十章 相关排序与系统质量评估
第一节 传统IR的相关排序技术
第二节 链接分析与相关排序
一、链接分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用链接的结构
三、收集用户反馈信息
四、计算最终的权重
第四节 搜索引擎系统质量评估
一、引言
二、查询类别分析与查询集的构建
三、评估实验的建立与分析
下篇 面向主题和个性化的Web信息服务
第十一章 中文网页自动分类技术
第一节 引言
第二节 文档自动分类算法的类型
第三节 实现中文网页自动分类的一般过程
第四节 影响分类器性能的关键因素分析
一、实验设置
二、训练样本
三、特征选取
四、分类算法
五、截尾算法
六、一个中文网页分类器的设计方案
第五节 天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第六节 本章小结
第十二章 搜索引擎个性化查询服务
第一节 基于Web挖掘的个性化技术
一、Web挖掘技术
二、典型个性化Web服务系统的比较
三、基于Web挖掘的个性化技术的发展
第二节 天网知名度系统
一、系统结构
二、网页与命名实体的相关度评价
第十三章 面向主题的信息搜集与应用
第一节 主题信息的搜集
一、主题信息分布的局部性
二、一种主题信息搜集系统
第二节 主题信息的一种搜集与处理模型及其应用
一、模型设计
二、应用实验:以“十六大”为主题
三、总结与讨论
参考文献
附录 术语
后记
图表目录
图1-1 2003年8月20日在天网上检索“伊拉克战争”的结果
图1-2 2003年8月20日在搜狐上检索“伊拉克战争”的结果
图2-1 搜索引擎示意图
图2-2 搜索引擎三段式工作流程
图2-3 搜索引擎的体系结构
图3-1 TSE搜索引擎界面
图3-2 TSE查询结果页面
图3-3 TSE网页快照页面
图3-4 TSE系统结构
图3-5 Web信息的搜集
图3-6 Sockets和端口
图3-7 通过Socket建立连接
图3-8 Web像个海洋
图4-1 网页预处理系统结构
图4-2 原始网页库中的记录格式
图4-3 索引网页库算法
图4-4 正向减字最大匹配算法流程
图4-5 切词算法流程
图4-6 分析网页与建立倒排文件流程
图4-7 过滤网页中非正文信息算法
图4-8 正向索引表记录格式
图4-9 由正向索引建立反向索引
图5-1 信息查询的系统结构
图5-2 基本检索算法
图5-3 动态摘要算法
图5-4 用户查询日志的记录格式
图6-1 天网系统概貌
图6-2 搜集系统的主控结构
图6-3 协调进程工作算法
图6-4 分布式Web搜集系统结构
图6-5 负载方差
图6-6 n个节点并行搜集系统及集中式系统性能随时间的变化
图6-7 分布式系统效率
图6-8 URL两阶段映射
图7-1 用DocView模型提取的网页要素
图7-2 净化后的网页
图7-3 HTML Tree结构
图7-4 内容块权值传递过程
图7-5 有主题网页DocView模型生成过程
图7-6 计算网页特征项权值的算法
图7-7 正文段落识别过程
图7-8 基于anchor text的超链选取算法
图7-9 网页净化前后分类效果对比
图7-10 查全率随选取关键词个数的变化
图8-1 检索系统集成框架结构
图8-2 天网WWW分布式检索系统构架
图8-3 倒排文件结构示意图
图8-4 英语单词和汉语字符的ITF分布
图8-5 扩展词典树结构示例
图8-6 扩展词典匹配查找算法
图8-7 搜索引擎检索系统缓存结构
图8-8 文档数据访问对象大小分布
图8-9 I/O与PAGE序列序号-频度分布
图8-10 I/O与PAGE序列时间间隔分布
图8-11 I/O和PAGE序列中唯一模式串
图9-1 查询词的分布情况
图9-2 查询词分布函数及其拟合函数
图9-3 雷同查询词的衰减
图9-4 相邻1000项查询词的频率的差的平方和
图9-5 用户翻页情况统计
图9-6 用户点击URL的分布情况
图9-7 考虑查询项与否的URL分布情况
图9-8 相邻500项中不同查询项的分布
图9-9 相邻1000项中不同查询项的分布
图9-10 相邻2000项中不同查询项的分布
图9-11 查询项分布的自相似性特征
图9-12 FIFO、LRU和带衰减的LFU的Cache命中率比较
图9-13 3种替换策略的局部比较
图9-14 网页的被访问次数
图9-15 用户点击URL对应网页的入度
图9-16 用户点击URL对应网页的镜像度
图9-17 用户点击URL对应网页的目录深度
图9-18 站内网页的树状结构
图10-1 Inktomi提供的几种搜索引擎技术的比较
图10-2 词典在系统中的地位
图10-3 新词学习
图10-4 网页的互联结构示意
图11-1 自动文档分类算法的分类
图11-2 中文网页自动分类的一般过程
图11-3 中文网页分类器的工作原理图
图11-4 WebSmart——一个网页实例集搜集和整理工具
图11-5 一种中文网页的分类体系
图11-6 Macro-F1值随样本数的变化
图11-7 Micro-F1值随样本数的变化
图11-8 CHI、IG、DF、MI的比较(Macro-F1)
图11-9 CHI、IG、DF、MI的比较(Micro-F1)
图11-10 kNN与NB分类结果的比较
图11-11 k的取值对分类器质量的影响(Marco-F1)
图11-12 k的取值对分类器质量的影响(Micro-F1)
图11-13 兰式距离法与欧式距离法对12个不同类别的分类情况
图11-14 基于层次模型的kNN与基本kNN的比较
图11-15 RCut和SCut截尾算法的比较
图11-16 天网目录的体系结构
图11-17 天网目录导航服务
图12-1 Web个性化的实质
图12-2 Web挖掘的分类
图12-3 网页与实体相关度的建立
图12-4 个性化知名度示意图
图12-5 “天网知名度”系统结构
图13-1 页面对的平均相关性
图13-2 Foused Crawler的系统结构
图13-3 用于表达网上主题新闻强度指标的立方体
图13-4 十六大网页数量在10月22日~11月24日期间的变化情况
表4-1 网页索引文件
表4-2 URL索引文件
表6-1 SOIF数据描述
表6-2 SOIF具体语法
表6-3 参照序列,假设节点数为2
表7-1 类别编号对照表
表7-2 消重实验结果
表7-3 当N=10、δ=0.01时5种算法的查全率和准确率
表7-4 考察δ的取值对算法3和4的影响
表7-5 分段签名算法的时间复杂度及性能
表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)
表8-1 英汉词频统计排序对照
表8-2 一些典型磁盘的性能数据
表8-3 数据集基本统计信息
表9-1 用户在前5页的翻页情况统计
表9-2 调整后的LFU与LRU命中率的比较
表9-3 各网页参数的分布
表10-1 新词学习对检索准确率的影响
表10-2 影响权值的HTML标签
表10-3 补偿因子定义表
表10-4 用户查询信息类别
表11-1 样本集中类别及实例数量的分布情况表
表11-2 kNN和NB算法的分类质量和分类效率比较
表11-3 欧式距离与兰式距离的比较
表11-4 基于层次模型的kNN与基本kNN的比较
表11-5 RCut和SCut截尾算法的比较
表11-6 一个分类器的设计方案
表12-1 典型Web个性化系统的比较
表12-2 天网知名度系统与其他检索系统的横向比较结果
表12-3 天网知名度系统的纵向比较结果
下载地址