# 中文分词性能对比
>>> 以下分词工具均能在Python环境中直接调用(排名不分先后)。
* jieba(结巴分词) 免费使用
* HanLP(汉语言处理包) 免费使用
* SnowNLP(中文的类库) 免费使用
* FoolNLTK(中文处理工具包) 免费使用
* Jiagu(甲骨NLP) 免费使用
* pyltp(哈工大语言云) 商用需要付费
* THULAC(清华中文词法分析工具包) 商用需要付费
* NLPIR(汉语分词系统) 付费使用
分词工具使用方式见[Tutorial](Tutorial.md)。每个分词工具可能有多种分词模式,本文所对比的为默认分词模式。
---
### 计算公式:
![公式](images/1.png)
---
### 使用方式:
```shell
pip install jieba
pip install pyhanlp
pip install snownlp
pip install foolnltk
pip3 install jiagu==0.1.2
pip install pyltp # 需要下载模型,模型地址见上诉Tutorial教程,模型所放的路径与Tutorial同
pip install thulac
pip install pynlpir # 安装好后需要使用证书,见上诉Tutorial教程
git clone https://github.com/ownthink/evaluation.git
cd evaluation
python3 test.py # 测试工具是否能够使用
python3 eval.py # 测试(时间较长)
```
### 测试集:
* msr
* pku
* other
1. msr测试结果
![msr](images/2.png)
2. pku测试结果
![pku](images/3.png)
3. other测试结果
![other](images/4.png)
4. 时间测试结果
![time](images/5.png)
没有合适的资源?快使用搜索试试~ 我知道了~
Python-各大中文分词性能评测
共19个文件
txt:6个
png:5个
md:4个
需积分: 44 31 下载量 97 浏览量
2019-08-10
09:36:57
上传
评论 2
收藏 27.95MB ZIP 举报
温馨提示
jieba(结巴分词) 免费使用 HanLP(汉语言处理包) 免费使用 SnowNLP(中文的类库) 免费使用 FoolNLTK(中文处理工具包) 免费使用 Jiagu(甲骨NLP) 免费使用 pyltp(哈工大语言云) 商用需要付费 THULAC(清华中文词法分析工具包) 商用需要付费 NLPIR(汉语分词系统) 付费使用
资源推荐
资源详情
资源评论
收起资源包目录
Python-各大中文分词性能评测.zip (19个子文件)
evaluation-master
eval.py 2KB
images
5.png 25KB
1.png 54KB
2.png 22KB
4.png 23KB
3.png 22KB
utils.py 2KB
data
test_pku.txt 5.29MB
test_other.txt 12.38MB
pku.txt 6.34MB
test_msr.txt 11.75MB
other.txt 14.97MB
msr.txt 13.93MB
model
README.md 13B
test.py 2KB
__pycache__
utils.cpython-34.pyc 4KB
Tutorial.md 5KB
result
README.md 15B
README.md 2KB
共 19 条
- 1
资源评论
weixin_39840387
- 粉丝: 791
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功