没有合适的资源?快使用搜索试试~
我知道了~
文库首页
数据库
MySQL
百度百科百万级问答语料集
百度百科百万级问答语料集
共6个文件
json:5个
txt:1个
百度百科
结构化数据
5星
· 超过95%的资源
需积分: 44
340 下载量
106 浏览量
2018-07-23
20:32:22
上传
评论
15
收藏
49.58MB
7Z
举报
温馨提示
立即下载
从百度百科词条知识库中爬取下来的百万条百科知识,可用于自然语言处理、QA问答、知识图谱、实体识别、关系抽取等技术研究
资源推荐
资源详情
资源评论
百度百科语料库
浏览:102
语料库分为人物、景区、动物
可用于FAQ问答系统的语料集
浏览:35
5星 · 资源好评率100%
数据集包含了,问题和相应的答案,可用于组件FAQ语料库,语料的数量在几十万条,比较干净,没有进行分词。
问答系统训练语料
浏览:179
5星 · 资源好评率100%
保险领域的问答系统训练语料,可以用来训练chatbot,希望有帮助
最新最全nlp中文问答语料对
浏览:117
3星 · 编辑精心推荐
2018最新最全nlp中文问答语料对,包括常规问答,笑话等
包含背景知识和问答的问答系统训练语料
浏览:43
5星 · 资源好评率100%
包含背景知识和问答的问答系统训练的中文语料,数据规范,问答包含正确和错误标签。
百度问答数据集 超过百万
浏览:109
5星 · 资源好评率100%
自己整理了一些高质量百度问答数据集
百度百科词条
浏览:9
4星 · 用户满意度95%
百度百科约500万条词条,可用于语义关联或简单的知识网络建立,xml格式,解压后638M,请不要用记事本直接打开,我是用UE打开的,sublime好像会有乱码,文件内容示例如下: =1 <TITLE>=百度百科 =百度,百度百科,网络,百科全书,百科词典 =百度知道;贴吧;百度空间;百度地图;百度新闻搜索;百度图片;百度mp3;百度Hi;百度工具栏;百度影视;百度邮编搜索;百度黄页搜
中文维基百科语料库(截止2019年2月20日)
浏览:159
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
百度百科编号前2700000的词条名
浏览:37
3星 · 编辑精心推荐
本文件为实际抽取的百度百科编号前2700000的词条名。 由于百度百科会有审核不通过或删除的词条,因而不代表就总共有2700000个词条,详细请自行查阅百度百科的编号方式。 存储方式为文本文件,编号到词条名的映射,三元组格式存储,nt文件。 压缩包约15M,解压后约55M。
维基百科中文语料(已分词)
浏览:150
4星 · 用户满意度95%
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
百度百科及百度问答推广详情版.pdf
浏览:171
百度百科及百度问答推广详情版.pdf
NLP资源库.zip
浏览:138
3星 · 编辑精心推荐
知识图谱-语义理解-自然语言处理工具及数据、中文知识图谱:基于百度百科中文页面-抽取三元组信息-构建中文知识图谱、masr: 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份...
几乎最全的中文NLP资源库.zip
浏览:8
5星 · 资源好评率100%
知识图谱-语义理解-自然语言处理工具及数据、中文知识图谱:基于百度百科中文页面-抽取三元组信息-构建中文知识图谱、masr: 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份...
最全的中文NLP资源库
浏览:54
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
TextMatch:基于Pytorch的,中文语义相似度匹配模型(ABCNN,Albert,Bert,BIMPM,DecomposableAttention,DistilBert,ESIM,RE2,Roberta,SiaGRU,XlNet)
浏览:120
嵌入:本项目输入都统一采用分字策略,故通过维基百科中文语料,训练了字向量作为嵌入。训练语料,矢量模型以及词表,可通过百度网盘下载。链接: : 提取码:s830模型文件:本项目训练的模型文件(不一定最优,可...
中文维基百科语料库百度网盘网址.txt
浏览:185
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
百度百科资源
浏览:122
app项目资源,图片,开始过程要用的到一些那些资源
维基百科百科问答数据集
浏览:5
该文件包含了维基百科的百科问答中的数据,问题和对应的答案都有,保存为Json格式,适合用于机器学习算法的训练和测试等工作。
基于知识库的中文问答系统(biLSTM)
浏览:152
基于知识库的中文问答系统(biLSTM)
myQA:知识库问答系统
浏览:63
myQA 知识库问答系统 使用nlpcc中文知识库现在使用sqlite存储合并 涉及 实体查询 分词 词性标注 命名实体识别 初步答案生成 答案 问答样例如下 问题: 可口可乐公司的总部 ('可口可乐公司','总部所在地','美国佐治亚州亚特兰大',0.9228786528110504) ('可口可乐公司','总部地点','美国亚特兰大',0.9036357402801514) (“可口可乐公
百度地图开发java源码-fighting41love-funNLP:Fighting41love-funNLP
浏览:150
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
华勤java笔试题-MGC:MGC
浏览:172
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
java版飞机大战源码-NLP:NLP相关
浏览:168
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
java版飞机大战源码-fundan-nlp:发现-nlp
浏览:139
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
java版飞机大战源码-wordNet:词网
浏览:151
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
百度百科563万数据2019年新版
浏览:181
5星 · 资源好评率100%
百度百科563万数据2019年新版,一行一条,json格式
中文维基百科语料-可用于词向量训练
浏览:119
5星 · 资源好评率100%
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
维基百科英文条目数据库
浏览:46
sqlserver2016数据库,兼容级别2008,只有一个表pageen 4600多万条记录 sqlserver2016数据库,兼容级别2008,只有一个表pageen 4600多万条记录
java版飞机大战源码--aa:-aa
浏览:52
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、...语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码...
收起资源包目录
WebQA.v1.0.7z
(6个子文件)
WebQA.v1.0
me_validation.ir.json
32.19MB
me_train.json
289.65MB
me_test.ann.json
1.72MB
me_validation.ann.json
1.71MB
me_test.ir.json
32.03MB
readme.txt
155B
共 6 条
1
WebQA v1.0 科学空间清洗版 详细介绍请看:http://spaces.ac.cn/archives/4338/ 原始来源请看:http://idl.baidu.com/WebQA.html 2017.04.12
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
zhouenwww
2019-04-12
不会用啊啊
yerensenlin
2023-06-03
还不错,正好需要拿来做模型训练
xiedelong
2018-09-14
可以很有用
凭什么不能忍
2019-05-04
还可以行吧
梵蒂冈豆腐干
2020-07-31
这是苏神博客中的语料,你发布请注明好吗?分类还放在mysql中,我以为是新的语料,白白浪费我的积分。
1
2
3
前往
页
傲娇猪儿
粉丝: 144
资源:
25
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
百度Apollo学习:Canbus模块结构和源码.pdf
百度Apollo学习:Transform模块结构和源码.pdf
基于Java JSP人力资源管理系统源码.zip
Matlab实现的SLIC算法源码+数据.zip
安卓11.0以上版本支持 手指单个手指双手指操作
电子密码锁使用说明(1).doc
上位机开发罗克韦尔abcip通信协议详解
基于去中心化联邦学习的货运速度预测时空模型-A decentralized federated learning-based s
适合新手的 OpenAI Sora 详细使用教程
驱动总裁离线安装包01
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
前往页