《物联网导论》第12章-搜索引擎v1.1分析.ppt 本资源摘要信息是关于《物联网导论》第12章的搜索引擎v1.1分析,主要介绍搜索引擎的基本概念、体系结构和相关技术。搜索引擎是物联网“更深入的智能化”的关键技术之一,它提供“普适性的数据分析与服务”,能够快速响应用户的查询请求,返回相关信息的结果列表。 搜索引擎的发展可以追溯到1992年,第一个原始搜索引擎W3Catalog于1993年出现,随后WebCrawler、Lycos等商用搜索引擎相继出现。2004年,Google的建立标志着搜索引擎的技术提升。搜索引擎的基本结构包括网络爬虫模块、索引模块和搜索模块三个部分。 网络爬虫模块主要功能是通过对Web页面的解析,根据Web页面之间的连接关系抓取这些页面,并储存页面信息交给索引模块处理。索引模块主要完成对于抓取的数据进行预处理,建立关键字索引以便搜索模块输出。搜索模块则根据用户的关键词,根据数据库的索引知识给出合理的搜索结果。 搜索引擎的体系结构包括信息采集、索引技术和搜索服务三个部分。信息采集模块主要功能是Web上收集页面信息,即Web机器人(爬虫)程序基于超文本传输协议(Hypertext Transfer Protocol, 简称HTTP)体系结构。索引技术则是对抓取的数据进行预处理,建立关键字索引以便搜索模块输出。搜索服务则是根据用户的关键词,根据数据库的索引知识给出合理的搜索结果。 本章内容还介绍了搜索引擎的三个重要问题,即响应时间、关键词搜索和搜索结果排序。响应时间是指搜索引擎返回结果的时间, 一般来说合理的响应时间在秒这个数量级。关键词搜索是指根据用户的查询关键词,返回相关信息的结果列表。搜索结果排序是指如何对海量的结果数据排序,以便返回最相关的结果。 此外,本章内容还介绍了搜索引擎的信息采集模块的工作模式,包括网络爬虫程序的基础结构、网络连接优化策略、域名系统的缓存策略和网页抓取算法等内容。网页抓取算法包括深度优先算法、广度优先算法和基于内容算法等,目的是提高搜索引擎的性能和服务质量。
剩余34页未读,继续阅读
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~