没有合适的资源?快使用搜索试试~
我知道了~
文库首页
人工智能
机器学习
新闻文本分类数据_已初步预处理
新闻文本分类数据_已初步预处理
聚类
文本数据
1星
需积分: 35
58 下载量
70 浏览量
2019-07-05
14:39:56
上传
评论
11
收藏
147.25MB
RAR
举报
温馨提示
立即下载
已分类好的新闻文本数据,内含十个类别,财经、股票、教育、科技、社会、游戏等等,共约10W篇文本,是一个非常好的数据集。
资源推荐
资源评论
新闻分类数据集sample(thu)
浏览:44
5星 · 资源好评率100%
新闻分类数据集.gz 新闻分类数据集sample(thu)
网易新闻数据,用于中文文本分类,已经打好标签且预处理好了
浏览:52
5星 · 资源好评率100%
有24000条新闻,共六个类别,直接用python3的pickle.load()该文件即可,是一个24000个元素的list,list的每个元素是一个tuple,tuple的第一个元素是与处理好的文本,第二个元素是对应的标签。
新闻文本分类-数据集
浏览:104
零基础入门NLP - 新闻文本分类 NLP_data_list_0715.csv
新闻文本分类数据-数据集
浏览:19
新闻文本分类比赛的训练数据和测试数据
新闻数据集(对应新闻文本分类案例)
浏览:104
该新闻数据集与 https://blog.csdn.net/weixin_47176703/article/details/124304692?spm=1001.2014.3001.5501此篇python项目-新闻文本分类详细对应,代码详尽,读者可自取实现。
20类新闻文本数据集(20w+数据数据非常齐全)
浏览:197
20w+新闻文本数据包含标题,正文,关键字,爬取链接,共20类,种类齐全。
python新闻数据集文本分类实战源代码.zip
浏览:124
5星 · 资源好评率100%
新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类,新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类,新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文
新闻数据集文本分类实战
浏览:36
新闻数据集文本分类实战
THUCNews新闻文本分类数据集
浏览:100
5星 · 资源好评率100%
包含体育、游戏等10个类别,共60000多条数据 格式:标签\t文本语料
文本分类文档预处理(英文)
浏览:193
4星 · 用户满意度95%
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。
信息检索 文本分类 文本预处理 分词
浏览:160
现代信息检索,文本分类的流程,重要概念。
文本情感分析—数据预处理
浏览:108
5星 · 资源好评率100%
数据预处理代码: 引自:文本情感分析 def load_data(filepath, input_shape=20): df = pd.read_csv(filepath) # 标签及词汇表 labels, vocabulary = list(df['label'].unique()), list(df['evaluation'].unique()) # 构造字符级
数据预处理——分类变量处理.rar
浏览:110
数学建模算法体系及备战资料,包含教程、代码、文档、原理图等
数据预处理,python读取excel数据,分类属性数值化
浏览:119
3星 · 编辑精心推荐
利用python进行数据预处理,主要应用于学术研究中少量数据的处理。包括读取excel中的数据,将字符型的分类属性用整数表示
新闻文本分类数据集-数据集
浏览:102
天池比赛 新闻文本分类数据集 test_a.csv train_set.csv
新闻类中文文本分类数据集
浏览:147
资源为新闻类的中文文本分类数据集,能够满足机器学习,文字分析方面的需求
新闻分类数据文件
浏览:3
用于机器学习分类算法的新闻分类数据,一共有10大类,统一整理到一个csv文件中。
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
浏览:125
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
【深度学习数据集】新闻文本分类数据集(50000条)
浏览:123
5星 · 资源好评率100%
50000条新闻文本数据集,文本有9类。可用于文本分类模型训练。
【数据分析】基于新闻文本数据分析
浏览:123
5星 · 资源好评率100%
由于词汇敏感之类的原因,每次发布都审核失败,于是转为图片上传了!相关代码在文末附录中。 数据来源:2020记忆:报道、非虚构与个人叙述(持续更新) 附录: t1.py: #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2020/2/12 13:02 # @Author : ystraw # @Site
中文文本分类数据集.zip
浏览:17
5星 · 资源好评率100%
新闻栏目中文文本分类,新闻栏目一共有: 体育 5000 时政 5000 房产 5000 家居 5000 财经 5000 时尚 5000 科技 5000 教育 5000 娱乐 5000 游戏 5000 每个新闻栏目拥有5000条新闻,通过对新闻内容作为样本训练模型,使得该模型能够预测出该条新闻所属的栏目。
新闻文本分类数据(9类,10w+)
浏览:16
新闻文本分类数据集,详情见https://editor.csdn.net/md/?articleId=121462685
文本的预处理程序,包括如何断句等(非常准确)
浏览:122
5星 · 资源好评率100%
1. 删除文件中的中文、西文空格 2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配 3. 对句子按长度从大到小分行排序。 4. 在每行句子前加上序号 5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果
中文文本预处理;k-means聚类
浏览:165
3星 · 编辑精心推荐
课程作业,是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等
vsm程序,用于文本预处理,分类使用
浏览:164
4星 · 用户满意度95%
文本预处理,先进行向量化,编程向量形式进行后期处理。本文是C++程序,实现文本向量化
bert情感分类中用tokenizer实现文本预处理
浏览:112
在pytoch中,实现利用预训练BertTokenizer对影评数据集IMDB进行预处理,得到Bert模型所需输入样本特征。利用torch.utils.data将预处理结果打包为数据集,并利用pickle将数据集序列化保存至本地文件中。
文本自动分类系统文本预处理方法的研究 (2005年)
浏览:67
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。
python.zip_fenci _python文本处理_数据预处理_文本python_文本预处理
浏览:62
5星 · 资源好评率100%
文本数据预处理,包括分词,去停词,读取文件等操作
Python-Keras文本深度学习数据预处理工具
浏览:24
用于使用Keras预处理深度学习文本的实用程序
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
青庭院
2021-05-28
就是THUCNews的数据集
terriblenet
粉丝: 0
资源:
7
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
H3C云迁移容灾异构平台迁移常见问题手册.pdf
深圳市json深圳市json
数据流图的定义及使用步骤,关键画法
基于php开发的传奇竞技游戏类网站
MCU各个脚位包装数量数据
基于区块链的车联网二手车交易系统的毕业设计+详细文档+全部资料(高分项目).zip
兼容web,android,ios的聊天室 一次开发多端使用
SD3312A 轻触开关4种模式设定可切换功能LED控制芯片IC
数据库设计中的ER图,实体关系图
human-pose-estimation-3d.pth
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功