## English Stopwords
From https://gist.github.com/sebleier/554280
## Chinese Stopwords
- 综合多个词表(结巴、哈工大、川大),不包含百度停用词,百度停用词中的词是搜索相关的,有些实词和有意义的词也会在里面,所以准确的角度考虑百度停用词最好不使用。
- 人工进行了部分修改(见下表)。
```json
# 删除
风雨无阻
奋勇
# 增加
即是
来到
见到
异于
何谓
没什么
赶到
没啥
123
只剩
途中
只能
所谓
看到
只好
丢下
撇下
看不到
记得
任何理由
最大
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
NLP预/后处理工具 功能特性 专为文本 IO 设计的灵活的 Pipeline 灵活的文本清理/提取工具 文本增强 按句切分或按中文字符切分文本 文本分桶 中文字符归一化 文本各种长度计算 中英文常用停用词 预处理魔术方法 并发、批量化、实体 BIO 转实体 安装 需要 Python3.7+。 pip install pnlp
资源推荐
资源详情
资源评论
收起资源包目录
pnlp-master.zip (41个子文件)
pnlp-master
setup.py 986B
Makefile 190B
tests
test_pnorm.py 5KB
__init__.py 0B
test_ptrans.py 3KB
test_penh.py 7KB
test_utils.py 2KB
test_pmag.py 357B
test_ptxt.py 7KB
piop_data
outfile.file 50B
json.json 68B
a.md 38B
yaml.yaml 106B
outjson.json 75B
first
fa.md 41B
fc.data 41B
second
sb.txt 41B
sa.md 41B
sc.data 41B
fb.txt 41B
b.txt 38B
csv.csv 26B
c.data 38B
list_dict.json 54B
outfile.listdict 27B
test_pcut.py 9KB
test_piop.py 4KB
test_stopwords.py 338B
pnlp
utils.py 4KB
__init__.py 1KB
pcut.py 5KB
piop.py 6KB
ptxt.py 7KB
penh.py 12KB
pmag.py 1KB
pnorm.py 5KB
ptrans.py 1KB
stopwords
__init__.py 1KB
chinese_stopwords.txt 11KB
english_stopwords.txt 6KB
ReadMe.md 588B
共 41 条
- 1
资源评论
博士僧小星
- 粉丝: 2214
- 资源: 5986
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 【Unity幻想王国资源】Fantasy Kingdom - Spawner Pack
- express大学生就业管理系统程序源码39654
- 基于jsp+access 实现的网上书店毕业设计(源代码+论文)
- matlab代码.zip
- 唯品会各品类商品榜单数据-20240911.zip
- springboot新闻发布管理系统程序源码38229
- 基于JSP+SqlServer实现的的猎头公司管理软件-内部事务部分毕业设计(源码+论文)
- 基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码+数据库+文档+PPT).zip
- lol dataset for low light enhancement and denoising
- 基于SpringBoot的“书籍学习平台”的设计与实现(源码+数据库+文档+PPT).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功