# 基于新闻的高级中文搜索引擎
# 摘 要
随着大数据时代来临,互联网信息量海量倍增, 浏览网络新闻也已经成为大家了解社会动态的一个重要渠道。搜索引擎为用户提供了一个找海量新闻信息的快速入口,然而,随着信息搜索技术的不断发展,用户对信息搜索的要求也在不断提高。通用搜索技术已经满足不了人们更加个性化的查询请求。因此,提供更高级的搜索功能将有助于为用户提供感兴趣的新闻服务,增强用户的体验性,增加用户的粘性。
本文旨在设计并实现一个基于新闻的高级中文搜索引擎。我们通过从网易新闻、腾讯新闻、新浪新闻、凤凰新闻、今日头条、搜狐新闻6个网站获得8个分类的新闻,分类包括军事、体育、科技、娱乐、社会、国际、国内、数码。然后使用最大概率分词对新闻进行分词,用VOLSUNGA进行词性标注,并为新闻建立倒排索引,最后使用TF-IDF对检索结果进行排序,为用户提供个性化的新闻搜索服务。
**关键词**:新闻;高级中文搜索引擎;最大概率分词;倒排索引;TF-IDF;VOLSUNGA
# Abstract
With the advent of the big data era, a huge amount of information on the Internet has redoubled, browsing network news has become an important channel for everyone to get the social dynamics. Search engine provides a quick entrance to help users find a large amount of news information, however, with the continuous development of information technology, the users' requirements of information search are also rising. Universal search technology has been unable to meet people's personalized query request. Therefore, providing a more advanced search function will help to provide users with services of finding news, to enhance the users’ experience, to increase users stickiness.
The purpose of this paper is to design and implement an Advanced Chinese search engine based on news. We get eight categories of news data including military, sports, science and technology, entertainment, social, international, domestic and digital from six websites,Netease News, Tencent News, Sina News, Phoenix News, today's headlines and Sohu News,and then use the maximum probability segmentation for the participle about news, and tag the part of speech by VOLSUNGA, and establish inverted index for news, and finally use the TF-IDF to sort the search results, to provide users with personalized news search service.
**Keyword**:news; advanced Chinese search engine; Maximum probability segmentation; Inverted index; TF-IDF; VOLSUNGA
# 第一章 绪论
## 1.1 课题背景
随着网络在世界范围内的不断发展和扩张,网络信息量也跟着大范围的增长,互联网已经成为一个包含有巨大信息量的空间。根据 2014 年中国互联网发展报告指出,中国网民规模截止 2013 底达到 6.18 亿,全年共计新增网民 5358 万人。通过通用搜索引擎得来的内容不够全面,搜索出来的内容,有许多是用户所不想要的内容,这样就造成了用户在使用搜索引擎时会有一个不好的体验,不能够达到用户对搜索结果的满意度。
包括新闻搜索在内的垂直搜索引擎主要专注于特定的网页内容,因此也叫做特色或主题搜索引擎。通常的垂直搜索引擎包括购物,汽车行业,法律信息,媒体信息,医药信息,学术型内容和旅游等。垂直搜索引擎定位于特定的用户搜索内容,它能满足那些需要查找精确和特定信息的用户的要求。垂直搜索引擎在所查找出的结果集相对通用搜索引擎要少,能够更加贴切用户的要求,同时能够对搜索的网页信息进行及时更新,所以说它的搜索结果更具体化和专业。垂直搜索引擎是现阶段搜索引擎的一个重要研究领域,在学术和工业界是一个热门的研究领域。
垂直搜索引擎的三个特点:
- 垂直搜索引擎对查询的信息有更高的精确度,这得益于它有限的搜索范围
- 充分利用领域知识,包括分类法和本体
- 针对用户的特定需求,给用户提供有价值的信息服务
对比通用搜索引擎,垂直搜索引擎与其的异同点包括以下几方面:
- **不同的服务目的**:垂直搜索引擎专注于某一个专门的知识领域,能够给用户提供定制的的搜索体验
- **搜索方式不同**:通用搜索引擎是对整个互联网内的内容进行整个爬取,而垂直搜
索引擎则按照预先设定的网络爬虫,爬取特定领域内的 web 页面,丢弃那些符合要求的页面,所以说这将节约大量的网络资源
## 1.2 国内外研究现状分析
第一个搜索引擎系统Archie是由Montreal University的学生Alan Emtage、Peter Deutsch和Bill Heelan在1990年开发的。Archie索引互联网上的FTP网站的文件,严格上它还不算是真正的搜索引擎。随着搜索引擎技术的发展,出现了许多著名的搜索引擎:Alta Vista、Yahoo、Google等。随着搜索引擎的不断发展,搜索引擎也多元化发展,不止提供基本的文字搜索功能,例如Google搜索引擎还提供了天气预报、股价、地图、新闻等特殊功能。
垂直搜索专注于某一领域的信息,为用户提供更专、更精、更深的信息搜索服务。国内外也出现了许多垂直搜索引擎系统。 Medical Matrix是美国医学信息学会主办的、1994 年由堪萨斯大学创建的、目前最重要的医学专业的垂直搜索引擎。它是一个可免费进入的临床医学数据库,提供了关键词搜索和分类目录搜索服务。LIBClient-IRISWeb系统是由 North Carolina 大学计算机科学系和法学院联合开发的,提供了对网络上的法律信息进行了全文索引,法律领域的相关人员可以从搜索中获取法律专业的信息。
赛迪 IT 罗盘是国内最具代表性的垂直引擎,它是国内第一个中文 IT 垂直搜引擎,是真正意义上的首个中文领域的垂直搜索引擎。赛迪 IT 罗盘融入了个性化的设计,用户可以参与网站的评价,用户可以个性化定制搜索。Deepdo垂直搜索引擎是面向工作职位的搜索引擎,从 51job、chinahr 等招聘网站上收集数据,并为用户提供工作搜索的垂直搜索引擎。
在国外,D Freitag提出Machine learning for information extraction in
Information domains技术,将机器学习的理论融入信息提取技术中。GuPta等提出DOM一based content extraction of HTML documents技术,利用DOM树对HTML网页分析,进而得到有效信息。Christos Makris等提出Category ranking for personalized search算法,在排序算法中加入用户反馈信息与用户偏好信息。
# 第二章 主要算法详细介绍
## 2.1 搜索引擎主要工作原理
搜索引擎是一个信息检索系统,从互联网中采集各种网络资源信息,将采集来的信息进行组织和处理后存储在数据库中,然后为用户提供搜索功能,帮助用户从海量的互联网信息中快速地找到感兴趣的资源。
搜索引擎的工作原理大致可以分为:
- **搜集信息**:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。
- **整理信息**:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎不用重新翻查它所有保存的信息而迅速找到所要的资料。
- **接受查询**:用户向搜索引擎发�
没有合适的资源?快使用搜索试试~ 我知道了~
精选_基于新闻的高级中文搜索引擎_源码打包
共691个文件
pyo:604个
pyd:26个
txt:22个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 119 浏览量
2022-03-12
08:15:11
上传
评论
收藏 42.69MB ZIP 举报
温馨提示
基于新闻的高级中文搜索引擎
资源推荐
资源详情
资源评论
收起资源包目录
精选_基于新闻的高级中文搜索引擎_源码打包 (691个子文件)
QtGui4.dll 7.76MB
QtGui4.dll 7.76MB
python27.dll 2.35MB
python27.dll 2.35MB
QtCore4.dll 2.34MB
QtCore4.dll 2.34MB
pywintypes27.dll 165KB
pywintypes27.dll 165KB
libpng16.dll 147KB
libpng16.dll 147KB
zlib.dll 65KB
zlib.dll 65KB
基于新闻的高级中文搜索引擎.docx 568KB
frame.exe 11.05MB
LICENSE 1KB
README.md 21KB
darlin搜索引擎.pptx 363KB
Search.py 8KB
Inverted_index.py 6KB
frame.py 5KB
doc_proccess.py 4KB
volsunga.py 3KB
news_search.py 3KB
create_news_doc.py 2KB
tool.py 2KB
segmentation.py 2KB
init_static.py 450B
get_exe.py 438B
__init__.py 0B
Inverted_index.pyc 9KB
Search.pyc 8KB
doc_proccess.pyc 5KB
volsunga.pyc 4KB
tool.pyc 3KB
segmentation.pyc 3KB
news_search.pyc 2KB
init_static.pyc 644B
QtGui.pyd 5.67MB
QtGui.pyd 5.67MB
QtCore.pyd 1.61MB
QtCore.pyd 1.61MB
_ssl.pyd 1.35MB
_ssl.pyd 1.35MB
_hashlib.pyd 985KB
_hashlib.pyd 985KB
unicodedata.pyd 672KB
unicodedata.pyd 672KB
pyexpat.pyd 134KB
pyexpat.pyd 134KB
win32api.pyd 98KB
win32api.pyd 98KB
_ctypes.pyd 91KB
_ctypes.pyd 91KB
sip.pyd 77KB
sip.pyd 77KB
bz2.pyd 71KB
bz2.pyd 71KB
win32evtlog.pyd 49KB
win32evtlog.pyd 49KB
_socket.pyd 47KB
_socket.pyd 47KB
select.pyd 11KB
select.pyd 11KB
win32con.pyo 137KB
win32con.pyo 137KB
winerror.pyo 110KB
winerror.pyo 110KB
locale.pyo 49KB
locale.pyo 49KB
doctest.pyo 44KB
doctest.pyo 44KB
urllib.pyo 40KB
urllib.pyo 40KB
vi.pyo 40KB
vi.pyo 40KB
pdb.pyo 38KB
pdb.pyo 38KB
optparse.pyo 38KB
optparse.pyo 38KB
ElementTree.pyo 32KB
ElementTree.pyo 32KB
pickle.pyo 31KB
pickle.pyo 31KB
__init__.pyo 30KB
__init__.pyo 30KB
lineobj.pyo 29KB
lineobj.pyo 29KB
httplib.pyo 27KB
httplib.pyo 27KB
case.pyo 27KB
case.pyo 27KB
difflib.pyo 26KB
difflib.pyo 26KB
uiparser.pyo 26KB
uiparser.pyo 26KB
qtproxies.pyo 24KB
qtproxies.pyo 24KB
subprocess.pyo 24KB
subprocess.pyo 24KB
inspect.pyo 23KB
共 691 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7
资源评论
工具盒子
- 粉丝: 60
- 资源: 1313
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功