• 复旦大学中文文本分类数据集utf8格式

    本语料库由复旦大学李荣陆提供。 下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1m0stk-0AovdbMNT5-CMdSA 密码:2bvz 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。

    0
    501
    120.35MB
    2019-07-19
    48
  • 复旦大学中文文本分类数据集

    本语料库由复旦大学李荣陆提供。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ 密码:dq9m 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。

    0
    3218
    106.17MB
    2019-07-17
    29
关注 私信
上传资源赚积分or赚钱