# ChineseSegmentationPytorch
这是中文分词项目,使用pytorch框架的cnn,lstm等模型
#### 1.preprocess
data目录里是数据集
删去无用字符,打乱后 train 70% / dev 20% / test 10% 划分
#### 2.represent
序列向量化,得到 sent、label,pad() 填充为相同长度
#### 3.build
通过lstm,cnn构建序列标注模型,计算 mask_loss、mask_acc
#### 4.segment
predict() 比较原句和填充长度得到 mask_pred,在为 1 的字后插入空格
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于python+pytorch框架的cnn,lstm等模型实现的中文分词项目+源码,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于python+pytorch框架的cnn,lstm等模型实现的中文分词项目+源码,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 项目简介: 这是中文分词项目,使用pytorch框架的cnn,lstm等模型 1.preprocess data目录里是数据集 删去无用字符,打乱后 train 70% / dev 20% / test 10% 划分 2.represent 序列向量化,得到 sent、label,pad() 填充为相同长度 3.build 通过lstm,cnn构建序列标注模型,计算 mask_loss、mask_acc 4.segment predict() 比较原句和填充长度得到 mask_pred,在为 1 的字后插入空格
资源推荐
资源详情
资源评论
收起资源包目录
中文分词项目.zip (20个子文件)
ChineseSegmentationPytorch-master
preprocess.py 1KB
segment.py 2KB
data
test.json 2B
train.json 38.62MB
PKU.txt 10.18MB
MSR.utf8 16.11MB
dev.json 4.29MB
nn_arch.py 5KB
note 788B
feat
embed.pkl 7.63MB
word_vec.pkl 11.91MB
word_ind.pkl 77KB
represent.py 4KB
build.py 6KB
__pycache__
represent.cpython-35.pyc 4KB
segment.cpython-35.pyc 2KB
nn_arch.cpython-35.pyc 6KB
build.cpython-35.pyc 6KB
test.py 2KB
README.md 486B
共 20 条
- 1
资源评论
- congerjiede2024-06-23资源太好了,解决了我当下遇到的难题,抱紧大佬的大腿~
梦回阑珊
- 粉丝: 5193
- 资源: 1681
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功