没有合适的资源?快使用搜索试试~ 我知道了~
egret-wenda-corpus:机器学习的公共语料库
共11个文件
txt:4个
js:3个
json:1个
需积分: 13 0 下载量 182 浏览量
2021-05-08
23:15:22
上传
评论
收藏 624KB ZIP 举报
温馨提示
重要提示 训练机器学习模型,评测算法和交流,可以使用另外一个质量更好的语料库了 - Egret Wenda Corpus 中文问答语料 QA Corpus, based on . 在做机器学习的过程中,训练问答机器人的过程往往需要高质量的数据。针对英文,有很多庞大的预料库,针对中文,公开的资料很少。 在学习的过程中,我接触到了,这也启发在技术社区挖掘出一些数据,制作语料。 目前这版语料,是从白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。 使用爬虫将目标数据存储到数据库 从数据库生成raw data 人工review raw data,给每一个问题,一个可以接受的答案。 目前,语料库包含2907个问答,虽然问题库很小,但针对一个垂直领域而言,也许足够了。 DESCRIPTION In all files the field separator is
资源推荐
资源详情
资源评论
收起资源包目录
egret-wenda-corpus-master.zip (11个子文件)
egret-wenda-corpus-master
.gitignore 47B
egret_wenda_lines.txt 526KB
package.json 345B
raw
egret_wenda_conversations_raw.txt 385KB
egret_wenda_lines_raw.txt 699KB
LICENSE 11KB
processer.js 2KB
README.md 3KB
config
environment
index.js 964B
development.sample.js 238B
egret_wenda_conversations.txt 385KB
共 11 条
- 1
资源评论
高晖云
- 粉丝: 19
- 资源: 4622
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功