[README written in English](README.en-US.md)
------------------------------
# 中文 Wikipedia 维基百科语料库构建工具
本项目提供了工作流和脚本工具,从零开始创建中文维基百科语料库。
## 开始使用
克隆或者下载本 repo 至本地文件系统
### 系统要求&软件依赖
支持 python 3.4+, 不支持 python2
#### Ubuntu/Debian 用户
脚本 `install_dependencies_on_ubunut.bash` 会帮你自动安装好所有的依赖
#### 其他操作系统用户
##### python 软件包
使用如下命令安装所需的 python 依赖:
```bash
pip install -r ./requirements.txt
```
##### 非 python 软件包
需要安装 [OpenCCC](https://github.com/BYVoid/OpenCC),用户按照官方的指示,安装即可。
Ubuntu / Debian 用户,使用 `apt` 命令即可:
```bash
sudo apt-get install opencc
```
### 使用
#### 全自动脚本
`allinone_process.bash`
#### 手动运行
见 [workflow](workflow.zh-Hans.md)
## TODO
Jieba 分词模型性能不佳,考虑替换成 [LTP](https://github.com/HIT-SCIR/ltp) 或者 [THULAC](https://github.com/thunlp/THULAC), 优先考虑使用 `THULAC`, 因为它是开源软件
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
中文 Wikipedia 维基百科语料库构建工具 本项目提供了工作流和脚本工具,从零开始创建中文维基百科语料库。 开始使用 克隆或者下载本 repo 至本地文件系统 系统要求&软件依赖 支持 python 3.4+, 不支持 python2 Ubuntu/Debian 用户 脚本 install_dependencies_on_ubunut.bash 会帮你自动安装好所有的依赖 其他操作系统用户 python 软件包 使用如下命令安装所需的 python 依赖: pip install -r ./requirements.txt 非 python 软件包 需要安装 ,用户按照官方的指示,安装即可。 Ubuntu / Debian 用户,使用 apt 命令即可: sudo apt-get install opencc 使用 全自动脚本 allinone_process.bash 手动运行 见
资源详情
资源评论
资源推荐
收起资源包目录
chinese-wikipedia-corpus-creator-master.zip (30个子文件)
chinese-wikipedia-corpus-creator-master
.gitignore 2KB
extracted_json_data
.gitignore 15B
requirements.txt 30B
normal_text.py 1KB
normaled_plain_files
.gitkeep 0B
spacy_standard_plain_files
.gitkeep 0B
install_dependencies_on_ubunut.bash 115B
workflow.zh-Hans.md 923B
download_wikipedia_raw_corpus.bash 287B
token_cleaned_plain_files
.gitkeep 0B
json_corpus_to_plain_text.py 1KB
allinone_process.bash 200B
LICENSE.txt 11KB
split_text_to_sentence.bash 82B
file_shard_spliter.py 2KB
.github
workflows
pythonapp.yml 739B
README.md 1KB
json_corpus_to_plain_text.bash 103B
get_wikiextractor.py 355B
sentence_data
.gitkeep 0B
token_plain_text.bash 87B
token_plain_text.py 1KB
README.en-US.md 1KB
raw_data
.gitignore 14B
split_text_to_sentence.py 1KB
normal_text.bash 94B
sharded_files
.gitignore 14B
extract_wikipedia_json_corpus.bash 205B
workflow.md 968B
batch_executor.py 893B
共 30 条
- 1
六演
- 粉丝: 18
- 资源: 4793
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- STM32F103单片机连接A7680C-4G模块实现远程采集及控制RS485接口的设备(数据透传).zip
- STM32F103单片机连接A7680C-4G模块实现接打电话.zip
- STM32F103单片机连接A7680C-4G模块和ESP8266 wifi模块将采集的温湿度WiFi+4G同时发送TCP服务器.zip
- 基于知识图谱的电影问答系统python源码(高分项目)
- STM32F103单片机连接A7680C-4G模块发送温度数据到云服务器上.zip
- STM32F103单片机连接A7680C-4G模块采集温湿度数据并通过WiFi+4G同时发送给UDP服务器.zip
- STM32F103单片机连接A7680C-4G模块采集温湿度数据并通过MQTT上传Onenet中移物联网平台.zip
- STM32F103单片机连接A7680C-4G模块并将采集的温湿度数据发送短信(英文短信).zip
- STM32F103单片机连接A7680C-4G模块并将采集的温湿度和ADC值发送中文短信.zip
- 基于知识图谱的电影问答系统(Python和Neo4j的毕业设计)源码+文档说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0