搜
搜
索
索
引
引
擎
擎
技
技
术
术
介
介
绍
绍
屈
屈
波
波
2007
2007
年
年
8
8
月
月
目
目
录
录
一、搜索引擎总体介绍
二、爬虫技术介绍
三、中文分词和排序算法介绍
四、查询/存储技术、Cache Server介绍
五、内部、外部监控系统介绍
六、移动通信运营商搜索引擎独特优势
一
一
、
、
搜
搜
索
索
引
引
擎
擎
总
总
体
体
介
介
绍
绍
(一)搜索引擎定义
“搜索引擎”技术,完全来源于历史悠久的全文检索技术。
“搜索引擎”从字面上可拆分为“搜”、“索”、“引擎”三个含
义。
“搜”就是大量信息的抓取,抓取回来后的信息进行智能提
取、排重、质量分析等处理。
“索”就是大量处理后信息的存储、信息排序、快速查询等
。
“引擎”就是指系统不但能存储亿级的数据,而且还能有巨
大的并发处理能力,这样的系统才有资格被叫着“引擎”。
一
一
、
、
搜
搜
索
索
引
引
擎
擎
总
总
体
体
介
介
绍
绍
(二)搜索引擎和移动搜索引擎
搜索引擎也可以看成为“专家系统”,通过把数百亿互联网
网页所提供的信息,作为其庞大的“知识库”,通过用户的
输入词,找到相关信息。
从技术上来讲,基于手机的移动搜索引擎,在其技术上和
搜索引擎是完全一样的。
用户查询信息的媒体,由PC被手机替代,可以随时随地提
供搜索服务,用户更方便地进行信息查询。并且,手机的
用户群体是远大于PC用户群体,所以,移动搜索引擎肯定
是搜索引擎领域未来发展的重点和方向。
一
一
、
、
搜
搜
索
索
引
引
擎
擎
总
总
体
体
介
介
绍
绍
(三)搜索引擎主要核心技术:
搜索引擎主要核心技术为:
(1)中英文分词语言处理;
(2)排序算法;
(3)网络爬虫;
(4)查询/存储技术
开发搜索引擎系统主要涉及到的具体技术为:
(1)http网络协议.
(2)多线程技术.
(3)socket通信.
(4)高效服务端程序开发.