img
NiuTrans中英平行语料库10万句

NiuTrans的开源中英平行语料库,可以用来训练机器翻译。

img
中英平行语料库

一万句对齐的中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料。

img
中英平行语料库(约10M)

网上搜集的一些中英平行语料库,包括两部电影(约300k),白皮书(约8M),政治新闻(约2M)。送给和我一样正需要语料库的你。(如果有需要,可以和我交流)

img
ED模型训练、测试(中英文平行语料库)实现将英文翻译为...

数据集—基于TF NMT利用带有Attention的 ED模型训练、测试(中英文平行语料库)实现将英文翻译为中文的LSTM翻译(中英文平行语料库)训练数据集—train

img
中英平行语料库.zip

中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料

img
一万句中英平行语料库,不用预处理

平行语料库,用于机器翻译等大数据处理,有需要的可以下来用,可以直接用,不用全角半角变换

img
基于网络的汉英平行语料库构建系统开发

人工智能,语料库构建,机器翻译,网络爬虫,机器学习

img
中英平行语料链接

UN parallel corpus. 15,886,041 lines casia2015: 1,050,000 lines casict2015: 2,036,833 lines datum201

img
数据集—基于TF NMT利用带有Attention的 ED模型训练、测试(中英文平行语料库)实现将英文翻译为中文的LSTM翻译(中英文平行语料库)训练数据集

数据集—基于TF NMT利用带有Attention的 ED模型训练、测试(中英文平行语料库)实现将英文翻译为中文的LSTM翻译(中英文平行语料库)训练数据集—train

img
爬虫工具,用于获取平行语料

通过爬得的网页来获取平行网页,java语言开发的,开源

img
中英平行语料库

一万句对齐的中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料。

img
NiuTrans中英平行语料库10万句

NiuTrans的开源中英平行语料库,可以用来训练机器翻译。

img
平行语料,用于机器翻译等的预处理语料

平行语料库,用于机器翻译等的预处理语料。 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用

img
维基百科中文语料(已分词)

自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载

img
中英平行语料库(约10M)

网上搜集的一些中英平行语料库,包括两部电影(约300k),白皮书(约8M),政治新闻(约2M)。送给和我一样正需要语料库的你。(如果有需要,可以和我交流)

img
一万句中英平行语料库,不用预处理

平行语料库,用于机器翻译等大数据处理,有需要的可以下来用,可以直接用,不用全角半角变换

img
平行语料库,用于机器翻译等的预处理语料。

汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用

img
中英平行语料库(八万对,句粒度)

共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。 句粒度,但有不少长句,裁剪后5w对也够用。 原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。 另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。 如果又可以改善的地方,欢迎留言

img
一个面向信息抽取的中英文平行语料库.pdf

一个面向信息抽取的中英文平行语料库,

img
基于网络的汉英平行语料库构建系统开发

人工智能,语料库构建,机器翻译,网络爬虫,机器学习