下载  >  人工智能  >  深度学习  > 新华社语料库含简体和繁体版语料

新华社语料库含简体和繁体版语料 评分:

这是icwb中文分割训练语料,包含测试集。具体的文件格式请阅读readMe

...展开详情
2018-10-16 上传 大小:50.2MB
举报 收藏
分享
语料库,自己整理的,有需要的吗

语料库,自己整理的,对txt文件进行去停用词、分词。(停用词是指对文本含义几乎没有影响的词,这些词存入到.txt,分词调用的结巴分词库)

立即下载
语料库.zip

语料库资源里有网上购酒评论,分为积极评论与消极评论; 资源里还包括中文停用词1800+

立即下载
COCA语料库

COCA 20000高频词汇。 COCA=Corpus of Contemporary American English (COCA) 这是英语国家使用频率最高的词汇集合。 从众多语料库(corpus)中提取。用大数据的方法从各种文体中自动生成一个词频表。这是当今最准确的词频表:美国当代语料库 coca 中的前20000个单词。 简单的说,coca就是把1990-2012年美国最有代表性的报纸,杂志,小说,学术,口语(口语可能是用的电视剧或者脱口秀之类的节目转录的)汇集起来,每部分各占1/5,生成4.5亿单词量语料库。

立即下载
新华社语料库含简体和繁体版语料

这是icwb中文分割训练语料,包含测试集。具体的文件格式请阅读readMe

立即下载
中文语料库中文语料库中文语料库

中文语料库中文语料库中文语料库中文语料库中文语料库中文语料库

立即下载
英语语料库LOB语料库

LOB语料库 创建时间: 1970年代初 创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学 规模层级: 100万词次 基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注正确率。 The Lancaster-Oslo Bergen Corpus (LOB) was compiled by researchers in Lancaster, Oslo and Bergen. It consists of one million words of British En glish texts from 1961. The

立即下载
兰卡斯特汉语语料库LCMC语料库

LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库

立即下载
香港城市大学语料库;微软亚洲研究院语料库;北京大学语料库;

香港城市大学语料库(1 772 202 字,训练集)、微软亚洲研究院语料库(1 089 050 字,训练集)、北京大学语料库(1 833 177 字,训练集)

立即下载
人民日报语料库(中文分词语料库)

人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料

立即下载
情感语料库

用于语音情绪识别的语料库资料,还是蛮好的。希望用于模式识别的同学们能够用得到。

立即下载
人民日报 语料库,中文语料199801_中文语料库

人民日报语料库,文本切词,词性备注,为什么要大于50个字节。。。

立即下载
语料库翻译学文库 语料库与Python应用.pdf

语料库翻译学文库 语料库与Python应用

立即下载
AIML语料库 Alice Bot语料库 (英文,最新版)

Alice问答系统的aiml格式对话语料,最新语料大小7.8MB(不同于之前的官方语料库仅有1~2MB),格式为aiml格式,直接可以供alice bot训练使用。

立即下载
图灵语料库

文档为图灵机器人语料库,里面有三千多条语料,对话生动有趣

立即下载
新闻语料库

包含2015年一整年的新闻,文件以txt形式存储,是从各大网站上爬取下来的。希望喜欢

立即下载
语料库标准

语料库标准 LCMC 研究规范的基本定义和语料库衍生过程

立即下载
AIML语料库 Alice Bot语料库 (中文+英文)

Alice问答系统的aiml格式对话语料,包含中文、英文两种语料,并且还有机器人的属性特征(xml格式,包含姓名性别身高爱好等),供大家训练自己的聊天机器人使用。alicebot的官网已经404了,所以希望这个语料库能帮到大家。

立即下载