## Introduction ##
这里将会有中英文数据处理脚本,编程语言不限,会有详细的README说明。
## Script Lists ##
1. [中文繁体转简体](https://github.com/bamtercelboo/corpus_process_script/tree/master/chinese_t2s)
2. [维基百科数据处理](https://github.com/bamtercelboo/corpus_process_script/tree/master/wikidata_process)
3. [抽取单字特征](https://github.com/bamtercelboo/corpus_process_script/tree/master/split_zh_char)
4. [抽取双字特征](https://github.com/bamtercelboo/corpus_process_script/tree/master/split_zh_bichar)
5. [抽取汉字笔画信息](https://github.com/bamtercelboo/corpus_process_script/tree/master/extract_zh_char_stoke)
6. [去除非中文字符](https://github.com/bamtercelboo/corpus_process_script/tree/master/clean)
7. [中文Money转换数字Money](https://github.com/bamtercelboo/corpus_process_script/tree/master/cn_to_arabic)
8. [全半角转换](https://github.com/bamtercelboo/corpus_process_script/tree/master/StrQ2B)
9. [python2代码批量转换python3](https://github.com/bamtercelboo/corpus_process_script/tree/master/python-2to3)
10. [NER标签转换(BIO, BMESO)](https://github.com/bamtercelboo/corpus_process_script/tree/master/tag_for_NER)
## Question ##
- if you have any question, you can open a issue or email bamtercelboo@{gmail.com, 163.com}.
- if you have any good suggestions, you can PR or email me.
没有合适的资源?快使用搜索试试~ 我知道了~
中英文语料处理脚本,python,c++,java_Python_Shell_下载.zip
共42个文件
py:15个
txt:10个
md:10个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 136 浏览量
2023-04-26
10:55:48
上传
评论
收藏 555KB ZIP 举报
温馨提示
中英文语料处理脚本,python,c++,java_Python_Shell_下载.zip
资源推荐
资源详情
资源评论
收起资源包目录
中英文语料处理脚本,python,c++,java_Python_Shell_下载.zip (42个子文件)
corpus_process_script-master
cn_to_arabic
cn_to_arabic.py 2KB
README.md 393B
clean
clean_corpus.py 2KB
README.md 752B
Data
zhwiki.txt 164KB
zhwiki_remove.txt 147KB
tag_for_NER
convert_tag.py 6KB
run.sh 150B
chinese_t2s
chinese_t2s.py 2KB
README.md 945B
Data
wiki_zh_10_sim.txt 140KB
wiki_zh_10.txt 140KB
split_zh_bichar
split_zh_bichar.py 3KB
run.sh 85B
README.md 611B
Data
giga_small.txt 110KB
giga_small_out.txt 269KB
extract_zh_char_stoke
merge_file.py 2KB
Stoke
__init__.py 214B
character_stoke.py 3KB
character_stoke_handian.py 4KB
default_stoke.txt 348B
handian.py 4KB
run.sh 166B
extract_zh_char_stoke.py 5KB
README.md 895B
Data
giga_small.txt 110KB
LICENSE 11KB
StrQ2B
run.sh 80B
strQ2B.py 2KB
README.md 575B
wikidata_process
README.md 416B
wiki_process.py 1KB
.gitignore 1KB
python-2to3
README.md 342B
2to3.py 96B
split_zh_char
split_zh_char.py 3KB
run.sh 83B
README.md 544B
Data
giga_small.txt 110KB
giga_small_out.txt 148KB
README.md 1KB
共 42 条
- 1
资源评论
快撑死的鱼
- 粉丝: 1w+
- 资源: 9156
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功