★ 作者【Soyoger】
★ CSDN博客专家【https://blog.csdn.net/qq_36330643】
★ 中文自然语言处理入门实战课程【http://gitbook.cn/gitchat/column/5b10b073aafe4e5a7516708b】
★ 自然语言NLP高级学习群:375130492
------------------------------------------------------------------------------
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。
整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型,格式如下:
------------------------------------------------------------------------------
从 党 的 十一届 三中全会 实现 伟大 历史 转折 到 现在 ,
我国 政治 安定团结 ,
经济 稳定 、 持续 、 协调 发展 已经 八 年 了 ,
这 是 建国 以来 稳步 发展 持续 时间 最 长 的 时期 。
在 十年动乱 之后 ,
取得 这样 一个 大好 局面 是 不 容易 的 。
这 是 因为 我们 党 在 新 时期 制定 的 一 系列 路线 、 方针 、 政策 正确 ,
改革 、 开放 符合 全国 人民 的 利益 和 愿望 ,
符合 社会主义 建设 客观 规律 的 要求 ,
其中 最 根本 的 一 条 是 ,
全党 和 全国 各族 人民 团结 一致 ,
------------------------------------------------------------------------------
评论7
最新资源