搜索引擎的工作原理是什么呢
(山东新华电脑学院整理供稿)
一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中
漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以
及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相
关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查
询、显示查询结果、提供用户相关性反馈机制。
搜索引擎工作原理分为 4 步
抓取网页,搜索引擎排除爬虫(蜘蛛),从一个网站爬到另外一个网站,通过超链分析访问并抓取更
多的网页。
过滤,所有抓取到的网页会存放到一个临时的库中,通过过滤,把质量高的页面存放在索引库中,质
量低的页面存放在底层库中。
收录并建立索引,搜索引擎把抓取过来的页面进行精细化的整理,通过页面分析、切词分词、建立倒
排索引,最后再入库写库。
排名-结果呈现,影响排名的因素:网站定位、网站结构、网站布局、网站代码、网站内容、用户忠诚
度、外链推广等等。网页经历了抓取建库,参与排序计算,最终展现在搜索引擎用户面前。