下载 >  人工智能 >  深度学习 > ag_news文本分类数据集

ag_news文本分类数据集 评分:

AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang (xiang.zhang@nyu.edu) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n".
...展开详情收缩
2018-07-13 上传大小:11.25MB
立即下载 开通VIP
分享
收藏 举报
AG及新闻主题分类数据集
NLP必不可少的中文数据资源
机器学习之文本分类(附带训练集+数据集+所有代码)
NLP小白入门——超全中文文本分类系统(含训练及测试数据集

NLP小白入门——超全中文文本分类系统(train set & test set + stop word*4 + word2vec + TF-IDF + Naive Bayes)

立即下载
CNN-中文文本分类-开源项目-自定义数据集
新闻类中文文本分类数据集

资源为新闻类的中文文本分类数据集,能够满足机器学习,文字分析方面的需求

立即下载
中文文本分类语料-训练、测试全集-复旦下载
复旦大学中文文本分类数据集-训练+测试下载
CNN字符级中文文本分类-基于TensorFlow实现
朴素贝叶斯(NaiveBayes)针对小数据集中文文本分类预测
知乎文本分类竞赛 数据集1/2下载
中文文本分类语料(复旦)训练集

这个链接是训练集,测试集自己去搜有免费的,明明应该是免费的东西,有几个智障非要收钱,然后我才发现,现在csdn不能免费了?最低是2资源竟然? 分享一个免费的链接链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa 要是想打赏下载那个2c币的也行,谢谢老铁 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国

立即下载
自然语言处理 怎么获得数据集 中文语料集?
NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码)
中文文本分类语料(复旦)(完整版)

中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。

立即下载
中文文本分类语料(复旦)训练集+测试集(100M)完整版

中文文本分类语料(复旦)训练集+测试集(100M)完整版

立即下载
知乎文本分类竞赛 数据集1/2

https://biendata.com/competition/zhihu/ 参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。 标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」

立即下载
复旦大学中文文本分类数据集-训练+测试

由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。

立即下载
NLP 数据集整理(持续更新。。。)
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

ag_news文本分类数据集

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
1 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: