没有合适的资源？快使用搜索试试~ 我知道了~

文库首页行业研究行业报告基于机器学习与深度学习不同算法的中文分词实现.zip

基于机器学习与深度学习不同算法的中文分词实现.zip

共27个文件

py：12个

txt：4个

png：4个

需积分: 5 0 下载量 86 浏览量 2024-04-23 14:53:08 上传评论收藏 22.48MB ZIP 举报

温馨提示

基于机器学习与深度学习不同算法的中文分词实现

资源推荐

资源详情

资源评论

收起资源包目录

基于机器学习与深度学习不同算法的中文分词实现.zip （27个子文件）

content

Sequence-Labeling-Base

utils.py 959B

corpus

msr_test.utf8 543KB

msr_test_gold.utf8 745KB

msr_training.utf8 16.03MB

msr_training_data_processed.txt 48.18MB

msr_test_gold.txt 1.15MB

msr_training_data_processed_idx.txt 44.25MB

get_data_for_transformer.py 1011B

get_data.py 2KB

train_for_transformer.py 3KB

bi_gru.py 6KB

hmm_viterbi.py 6KB

dicts

tag2idx.json 32B

char2idx.json 64KB

img

bi_gru_report.png 116KB

hmm_test_report.png 135KB

transformer_report.jpg 142KB

crf_report.png 133KB

crf.py 5KB

transformer.py 8KB

evaluate_for_transformer.py 3KB

Dict-Base

img

bi_mm_report.png 113KB

rmm.py 2KB

fmm.py 2KB

bi_mm.py 2KB

dict

dict.txt 1.07MB

README.md 835B

共 27 条

# 中文分词 ## 一、简介基于机器学习的中文分词实现，包括双向最大匹配算法、HMM、CRF、双向GRU、Transformer-Encoder，数据集采用MSR。 ## 二、说明 ### 2.1 编写训练测试环境 * Python-3.7.11、TensorFlow-2.0.0、scikit-learn-0.24.1 ### 2.2 运行 * Dict-Base包含双向最大匹配，直接运行bi-mm.py即可。 * Sequence-Labeling-Base包含剩余的算法与模型，同样直接运行对应名字的py文件即可，其中Transformer分为了多个py文件，但文件名已说明。 ### 2.3 测试结果 | Model | Precision | Recall | F1 | | :----: | :----: | :----: | :----: | | crf | 0.9937 | 0.9945 | 0.9941 | | bi_gru | 0.9878 | 0.9943 | 0.9910 | | bi_mm | 0.9701 | 0.9676 | 0.9688 | | HMM | 0.9831 | 0.9232 | 0.9486 | | Transformer | 0.9889 | 0.9916 | 0.9903 |

评论收藏

内容反馈

资源评论