<center>
<img style="border-radius: 0.3125em;
box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);"
src="./data/.logo图片/.img.jpg"width="180">
<br>
<div style="color:orange; border-bottom: 1px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 2px;">NLP民工的乐园</div>
</center>
<br>
[![](https://img.shields.io/github/stars/fighting41love/funnlp?style=social)](https://github.com/fighting41love/funnlp)
[![](https://img.shields.io/badge/dynamic/json?color=blue&label=%E7%9F%A5%E4%B9%8E%E5%85%B3%E6%B3%A8&query=%24.data.totalSubs&url=https%3A%2F%2Fapi.spencerwoo.com%2Fsubstats%2F%3Fsource%3Dzhihu%26queryKey%3Dmountain-blue-64)](https://www.zhihu.com/people/mountain-blue-64)
[![](data/.logo图片/.捐赠图片/.Citations-487-red.svg)](https://scholar.google.com/citations?hl=en&user=aqZdfDUAAAAJ)
[![](data/.logo图片/.捐赠图片/.Home-%E4%BA%BA%E7%94%9F%E6%B5%AA%E8%B4%B9%E6%8C%87%E5%8D%97-brightgreen.svg)](http://fighting41love.github.io/archives/)
[![](data/.logo图片/.捐赠图片/.%E7%8C%8E%E9%80%81%E9%97%A8-CV-orange.svg)](http://fighting41love.github.io/)
<!-- [![](https://img.shields.io/badge/dynamic/json?color=blueviolet&label=github%20followers&query=%24.data.totalSubs&url=https%3A%2F%2Fapi.spencerwoo.com%2Fsubstats%2F%3Fsource%3Dgithub%26queryKey%3Dfighting41love)](https://github.com/fighting41love) -->
<!-- [![](https://img.shields.io/badge/Homepage-%E4%BA%BA%E7%94%9F%E6%B5%AA%E8%B4%B9%E6%8C%87%E5%8D%97-brightgreen)](http://fighting41love.github.io/archives/) -->
### The Most Powerful NLP-Weapon Arsenal
## NLP民工的乐园: 几乎最全的中文NLP资源库
在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。
很多包非常有趣,值得收藏,满足大家的收集癖!
如果觉得有用,请分享并star:star:,谢谢!
长期不定时更新,欢迎watch和fork!:heart::heart::heart:
| :eggplant: :cherries: :pear: :tangerine: | :sunflower: :strawberry: :melon: :tomato: :pineapple: |
| ---- | ---- |
| * [语料库](#语料库) <br> * [词库及词法工具](#词库及词法工具) <br> * [预训练语言模型](#预训练语言模型) <br> * [抽取](#抽取) <br> * [知识图谱](#知识图谱) <br> * [文本生成](#文本生成) <br> * [文本摘要](#文本摘要) <br> * [智能问答](#智能问答) <br> * [文本纠错](#文本纠错) | * [文档处理](#文档处理) <br> * [表格处理](#表格处理) <br> * [文本匹配](#文本匹配) <br> * [文本数据增强](#文本数据增强) <br> * [文本检索](#文本检索) <br> * [阅读理解](#阅读理解) <br> * [情感分析](#情感分析) <br> * [常用正则表达式](#常用正则表达式) <br> * [语音处理](#语音处理) |
| * [常用正则表达式](#常用正则表达式) <br> * [事件抽取](#事件抽取) <br> * [机器翻译](#机器翻译) <br> * [数字转换](#数字转换) <br> * [指代消解](#指代消解) <br> * [文本聚类](#文本聚类) <br> * [文本分类](#文本分类) <br> * [知识推理](#知识推理) <br> * [可解释NLP](#可解释自然语言处理) <br> * [文本对抗攻击](#文本对抗攻击) | * [文本可视化](#文本可视化) <br> * [文本标注工具](#文本标注工具) <br> * [综合工具](#综合工具) <br> * [有趣搞笑工具](#有趣搞笑工具) <br> * [课程报告面试等](#课程报告面试等) <br> * [比赛](#比赛) <br> * [金融NLP](#金融自然语言处理) <br> * [医疗NLP](#医疗自然语言处理) <br> * [法律NLP](#法律自然语言处理) <br> * [文本生成图像](#文本生成图像) <br> * [其他](#其他) |
<!--
目录(Table of contents)
=================
<table border="0">
<tr>
<td><b style="font-size:30px">:star:</b></td>
<td><b style="font-size:30px">:star::star:</b></td>
<td><b style="font-size:30px">:star::star::star:</b></td>
<td><b style="font-size:30px">:star::star::star::star:</b></td>
</tr>
<tr>
<td>
<!--ts-->
<!-- * [语料库](#语料库)
* [词库及词法工具](#词库及词法工具)
* [预训练语言模型](#预训练语言模型)
* [抽取](#抽取)
* [知识图谱](#知识图谱)
* [文本生成](#文本生成)
* [文本摘要](#文本摘要)
* [智能问答](#智能问答)
* [文本纠错](#文本纠错) -->
<!--te-->
</td>
<td>
<!--ts-->
<!-- * [文档处理](#文档处理)
* [表格处理](#表格处理)
* [文本匹配](#文本匹配)
* [文本数据增强](#文本数据增强)
* [文本检索](#文本检索)
* [阅读理解](#阅读理解)
* [情感分析](#情感分析)
* [常用正则表达式](#常用正则表达式)
* [语音处理](#语音处理) -->
<!--te-->
</td>
<td>
<!--ts-->
<!-- * [常用正则表达式](#常用正则表达式)
* [事件抽取](#事件抽取)
* [机器翻译](#机器翻译)
* [数字转换](#数字转换)
* [指代消解](#指代消解)
* [文本聚类](#文本聚类)
* [文本分类](#文本分类)
* [知识推理](#知识推理)
* [可解释NLP](#可解释自然语言处理)
* [文本对抗攻击](#文本对抗攻击) -->
<!--te-->
</td>
<td>
<!--ts-->
<!--
* [文本可视化](#文本可视化)
* [文本标注工具](#文本标注工具)
* [综合工具](#综合工具)
* [有趣搞笑工具](#有趣搞笑工具)
* [课程报告面试等](#课程报告面试等)
* [比赛](#比赛)
* [金融NLP](#金融自然语言处理)
* [医疗NLP](#医疗自然语言处理)
* [法律NLP](#法律自然语言处理)
* [其他](#其他) -->
<!--te-->
<!-- </td>
</tr>
</table> -->
----
# 语料库
| 资源名(Name) | 描述(Description) | 链接 |
| :--- | :---- | :--- |
| 人名语料库 | | [wainshine/Chinese-Names-Corpus](https://github.com/wainshine/Chinese-Names-Corpus) |
| Chinese-Word-Vectors | 各种中文词向量 | [github repo](https://github.com/Embedding/Chinese-Word-Vectors) |
| 中文聊天语料 | 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 | [link](https://github.com/codemayq/chaotbot_corpus_Chinese) |
| 中文谣言数据 | 该数据文件中,每一行为一条json格式的谣言数据 | [github](https://github.com/thunlp/Chinese_Rumor_Dataset) |
| 中文问答数据集 | | [链接](https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A) 提取码 2dva |
| 微信公众号语料 | 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 | [github](https://github.com/nonamestreet/weixin_public_corpus) |
| 中文自然语言处理 语料、数据集 | | [github](https://github.com/SophonPlus/ChineseNlpCorpus) |
| 任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 | [github](https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey) |
| 语音识别语料生成工具 | 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 | [github](https://github.com/yc9701/pansori) |
| LitBankNLP数据集 | 支持自然语言处理和计�
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
Python实现的自然语言处理系统 (108个子文件)
《中华人民共和国职业分类大典》.doc 1.24MB
.DS_Store 6KB
.DS_Store 6KB
.alipay.jpg 131KB
.wechat.jpg 101KB
.img.jpg 52KB
QQpinyin.jpg 7KB
rumors_v170613.json 32.57MB
README.md 92KB
README.md 1KB
donation.md 419B
eisenstein-nlp-notes.pdf 3.2MB
中文分词十年又回顾- 2007-2017 CWS-10Year-Review-2.pdf 1.42MB
thirtyw.py 365B
thirtyw.pyc 513B
Company-Names-Corpus(480W).rar 24.95MB
Organization-Names-Corpus(110W).rar 4.9MB
.Home-人生浪费指南-brightgreen.svg 1KB
.Citations-487-red.svg 1KB
.Citations-487-blueviolet.svg 1KB
.猎送门-CV-orange.svg 1KB
Chinese_Names_Corpus_Gender(120W).txt 16.38MB
Chinese_Names_Corpus(120W).txt 11.66MB
30wChinsesSeqDic.txt 7.18MB
English_Cn_Name_Corpus(48W).txt 5.93MB
30wChinsesSeqDic_clean.txt 3.8MB
30wdict_utf8.txt 3.04MB
30wdict.txt 3.04MB
Company-Shorter-Form(28W).txt 2.81MB
Ancient_Names_Corpus(25W).txt 2.51MB
Japanese_Names_Corpus(18W).txt 2.46MB
dict.txt 2.25MB
httpcws_dict.txt 2.22MB
四十万可用搜狗txt词库.txt 1.61MB
out.txt 1.58MB
四十万汉语大词库.txt 1.06MB
百度分词词库.txt 1006KB
同义词库.txt 872KB
42537条伪原创词库.txt 829KB
ChengYu_Corpus(5W).txt 709KB
THUOCL_diming.txt 626KB
fingerDic.txt 552KB
五笔词库.TXT 398KB
反义词库.txt 346KB
THUOCL_animal.txt 313KB
chaizi-ft.txt 313KB
chaizi-jt.txt 304KB
THUOCL_medical.txt 302KB
THUOCL_it.txt 301KB
THUOCL_poem.txt 288KB
THUOCL_law.txt 271KB
train_set.txt 255KB
English_Names_Corpus(2W).txt 230KB
professions.txt 186KB
THUOCL_chengyu.txt 163KB
THUOCL_lishimingren.txt 159KB
THUOCL_food.txt 141KB
fanjian_suoyin.txt 139KB
test_set.txt 74KB
THUOCL_caijing.txt 61KB
songci.txt 60KB
tangshi.txt 48KB
dev_set.txt 36KB
car_dict.txt 32KB
THUOCL_car.txt 32KB
否定词库.txt 26KB
haofang.txt 25KB
wanyue.txt 25KB
parting.txt 24KB
wind.txt 22KB
moon.txt 21KB
yongshihuaigu.txt 18KB
rain.txt 15KB
encouragement.txt 14KB
snow.txt 14KB
love.txt 14KB
flower.txt 12KB
patriotic.txt 12KB
miss.txt 11KB
expressemotion.txt 11KB
百度停用词表.txt 11KB
youguoyoumin.txt 10KB
friendship.txt 10KB
boudoirripinings.txt 9KB
landscape.txt 8KB
四川大学停用词表.txt 8KB
view.txt 8KB
willow.txt 8KB
countryside.txt 7KB
farewell.txt 7KB
frontier.txt 7KB
homesick.txt 6KB
哈工大停用词表.txt 6KB
bird.txt 6KB
中文停用词库.txt 5KB
war.txt 5KB
horse.txt 4KB
mourn.txt 4KB
read.txt 3KB
QQ拼音词库导出.txt 178B
共 108 条
- 1
- 2
资源评论
图灵软件技术
- 粉丝: 597
- 资源: 73
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功