没有合适的资源?快使用搜索试试~ 我知道了~
非常好用的中文分词,直接能用
3星 · 超过75%的资源 需积分: 9 15 下载量 152 浏览量
2010-03-06
15:25:40
上传
评论 1
收藏 4.6MB GZ 举报
温馨提示
共23个文件
map:4个
pdat:3个
pos:3个
目前的搜索引擎,大多是基于一种称为倒排索引的结构[1]。以什么做为索引的Key值,直接影响到整个搜索引擎的准确度、召回率[2]、速度。我们先看看不使用中文分词的情况。 如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎'字。同样,对于一篇文章,先把所有的汉字都单独索引一次,并记录他们的位置。搜索过程中,也是先找'雅'字的所有文档,再找'虎'字的所有文档,然后做交叉'与'运算,即包含这两个字,而且位置连续的文档才会做为符合要求的结果。这种方式是最基本的索引方式,现在有些小引擎中还在使用。但这里存在一个很有挑战性的问题:总共的常用汉字是3000多个,我们每次查询过程中,进行'与'操作的计算量会相当大,对于大数据量搜索引擎来说(超过10亿的文档),每天上亿次查询,这样的索引结构,无疑是对硬件和算法的极大挑战。
资源推荐
资源详情
资源评论
收起资源包目录
httpcws-1[1].0.0-i386-bin.tar.gz (23个子文件)
httpcws-1.0.0-i386-bin
httpcws.cpp 7KB
ICTCLAS
httpcws 882KB
README.txt 973B
dict
Configure.xml 717B
Data
PKU.map 307B
CoreDict.unig 467KB
FieldDict.pos 72B
nr.fsa 3KB
PKU_First.map 288B
GranDict.pos 1.7MB
CoreDict.pos 1.7MB
ICTCLAS30.ctx 36KB
GranDict.pdat 1.89MB
CoreDict.pdat 1.62MB
nr.role 1.68MB
nr.ctx 2KB
BiWord.big 3.36MB
ICTPOS.map 406B
ICTCLAS_First.map 288B
FieldDict.pdat 256KB
charset.type 64KB
ICTCLAS30.log 0B
httpcws_dict.txt 1.6MB
共 23 条
- 1
资源评论
- yinge12342014-03-07还行,安装简单
- pandalsh32014-03-21有点问题,不是太好用
- mwszwsa2014-03-05不错, 很好用,不过有问题
pkuluck
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功