# 中文分词
## 一、简介
基于机器学习的中文分词实现,包括双向最大匹配算法、HMM、CRF、双向GRU、Transformer-Encoder,数据集采用MSR。
## 二、说明
### 2.1 编写训练测试环境
* Python-3.7.11、TensorFlow-2.0.0、scikit-learn-0.24.1
### 2.2 运行
* Dict-Base包含双向最大匹配,直接运行bi-mm.py即可。
* Sequence-Labeling-Base包含剩余的算法与模型,同样直接运行对应名字的py文件即可,其中Transformer分为了多个py文件,但文件名已说明。
### 2.3 测试结果
| Model | Precision | Recall | F1 |
| :----: | :----: | :----: | :----: |
| crf | 0.9937 | 0.9945 | 0.9941 |
| bi_gru | 0.9878 | 0.9943 | 0.9910 |
| bi_mm | 0.9701 | 0.9676 | 0.9688 |
| HMM | 0.9831 | 0.9232 | 0.9486 |
| Transformer | 0.9889 | 0.9916 | 0.9903 |
没有合适的资源?快使用搜索试试~ 我知道了~
基于机器学习与深度学习不同算法的中文分词实现.zip
共27个文件
py:12个
txt:4个
png:4个
需积分: 5 0 下载量 86 浏览量
2024-04-23
14:53:08
上传
评论
收藏 22.48MB ZIP 举报
温馨提示
基于机器学习与深度学习不同算法的中文分词实现
资源推荐
资源详情
资源评论
收起资源包目录
基于机器学习与深度学习不同算法的中文分词实现.zip (27个子文件)
content
Sequence-Labeling-Base
utils.py 959B
corpus
msr_test.utf8 543KB
msr_test_gold.utf8 745KB
msr_training.utf8 16.03MB
msr_training_data_processed.txt 48.18MB
msr_test_gold.txt 1.15MB
msr_training_data_processed_idx.txt 44.25MB
get_data_for_transformer.py 1011B
get_data.py 2KB
train_for_transformer.py 3KB
bi_gru.py 6KB
hmm_viterbi.py 6KB
dicts
tag2idx.json 32B
char2idx.json 64KB
img
bi_gru_report.png 116KB
hmm_test_report.png 135KB
transformer_report.jpg 142KB
crf_report.png 133KB
crf.py 5KB
transformer.py 8KB
evaluate_for_transformer.py 3KB
Dict-Base
img
bi_mm_report.png 113KB
rmm.py 2KB
fmm.py 2KB
bi_mm.py 2KB
dict
dict.txt 1.07MB
README.md 835B
共 27 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3794
- 资源: 4173
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功