没有合适的资源?快使用搜索试试~
我知道了~
文库首页
行业研究
数据集
搜狐新闻数据(SogouCS)版本:2012-数据集
搜狐新闻数据(SogouCS)版本:2012-数据集
共2个文件
zip:2个
数据集
1星
39 下载量
75 浏览量
2021-03-28
13:14:38
上传
评论
4
收藏
1.37GB
ZIP
举报
温馨提示
立即下载
来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。
资源推荐
资源详情
资源评论
搜狐新闻最新版本
浏览:86
最新版本的搜狐新闻客户端,内部人员专用版本。
爬取的搜狐新闻数据
浏览:137
4星 · 用户满意度95%
爬取的搜狐新闻数据,一共有12个类别,分好类了
搜狐2012新闻语料(已分类,utf8格式)
浏览:63
4星 · 用户满意度95%
对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
搜狗新闻文本分类数据集SougoCS
浏览:24
SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
搜狐新闻文本数据集.zip
浏览:150
训练集共有24000条样本,12个分类,每个分类2000条样本。 测试集共有12000条样本,12个分类,每个分类1000条样本。
搜狐新闻数据集.pkl.bz2
浏览:179
来自搜狐网的十类新闻数据,建议用pandas的read_pickle读入。有少量空行数据。使用方法见博客
机器学习中搜狗实验室发布的搜狗新闻数据集
浏览:29
机器学习中搜狗实验室发布的搜狗新闻数据集
搜狐新闻中文语料(已分类整理)
浏览:194
在搜狗实验室下载的搜狐新闻数据整理后的一部分中文分类语料~
搜狗新闻分类语料
浏览:12
整理自搜狗实验室中的新闻分类。含有金融、体育、军事等11个分类集。
搜狗分类语料库(精简版)2
浏览:89
5星 · 资源好评率100%
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
处理搜狐新闻数据文本分类
浏览:170
训练集共有24000条样本,12个分类,每个分类2000条样本。 测试集共有12000条样本,12个分类,每个分类1000条样本。 此文件为.py文件,不包含数据集文本,仅提供代码演示。 若需数据集可自行前往博主主页下载:sohu_test.txt sohhu_train.txt sohu_train_cut.txt stopwords.txt
基于 RNN 实现文本分类.zip
浏览:39
基于 RNN 实现文本分类任务,数据使用搜狐新闻数据。任务重点在于搭建并训练 RNN 网络来提取特征,最后通过一个全连接层实现分类目标。 数据集下载地址:SogouCS, 网址:http://www.sogou.com/labs/resource/cs.php...
基于 LSTM-Attention 的中文新闻文本分类
浏览:38
5星 · 资源好评率100%
本文的实验数据集来源于搜狗实验室中的搜狐新闻 数据,从中提取出用于训练中文词向量的中文语料, 大小约为 4GB 左右.然后选取了10 个类别的新闻数据,分别为体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏...
基于双向GRU和贝叶斯分类器的文本分类
浏览:97
基于BiGRU和贝叶斯分类器的文本分类,利用搜狐新闻数据集进行实现,对12个种类进行分类,里面设计BiGRUB提取文本特征,TF-IDF特征权重赋值,Bytes分类进行实现,学习深度学习和机器学习很好的借鉴。
2008.sohu.com.txt
浏览:149
本资源用于新闻文本分类的数据集,取自搜狐网站某一个月的所有新闻数据。
搜狗新闻语料库
浏览:162
4星 · 用户满意度95%
搜狗的新闻中文语料库,可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。
SogouC.rar
浏览:148
中文新闻分类数据集
【深度学习数据集】新闻文本分类数据集(50000条)
浏览:6
5星 · 资源好评率100%
50000条新闻文本数据集,文本有9类。可用于文本分类模型训练。
搜狗1.4G 新闻集
浏览:91
搜狗1.4G 新闻语料集
搜狐新闻分类语料库
浏览:106
5星 · 资源好评率100%
搜狐新闻分类语料库,主要包含 0 汽车 1 财经 2 IT 3 健康 4 体育 5 旅游 6 教育 7 招聘 8 文化 9 军事 十个分类,共50多万条记录
sohu_news.rar
浏览:97
搜狗实验室得到的搜狐新闻语料,自己简单的处理了一下,分为训练集和测试集,文件描述查看readme文件。
融合词语类别特征和语义的短文本分类方法
浏览:105
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和...采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的.
史上最好传智播客就业班.net培训教程60G 不下会后悔
浏览:136
4星 · 用户满意度95%
ADO.Net(行集、数据集、类型化数据集、SQLHelper、SQL注入漏洞防范、数据绑定)。 3、三层架构MIS项目(5天) 查看项目演示 功能点 本项目基于流行的三层架构(DAL+BLL+UI)。 主要功能点:高安全性的用户管理体系...
门户网站调研报告.doc
浏览:16
广义定义:这里是一个Web应用框架,它将各种应用系统、数据资源和互联网资源集 成到一个信息管理平台之上,并以统一的用户界面提供给用户,并建立企业对客户、企 业对内部员工和企业对企业的信息通道, 使企业能够...
Origin绘制相关性热图插件(Correlation Plot)
浏览:158
Origin绘制相关性热图插件(Correlation Plot),可以绘制相关性热图,不需要代码,格式为opx后缀格式,直接拖入软件就可以~
(免费)Chrome浏览器插件axure-chrome-extension
浏览:73
5星 · 资源好评率100%
安装方法详见: https://blog.csdn.net/han_qiqi/article/details/134435059?spm=1001.2014.3001.5501 Axure RP Extension for Chrome是原型设计工具Axure RP的Chrome浏览器插件。因为在线安装需要访问Google Chrome在线商店,访问不了。所以提供一个离线版本进行安装。
noc指导教师资格认证题库
浏览:143
都是自己在考试做题的时候记录下来的,答案也是自己查找核对过的 80道题左右,已转化为电子版 仅供各位老师们参考,码字不易,谢谢支持
vep视频快速加密提取器
浏览:126
vep视频快速加密提取器
收起资源包目录
94521.zip
(2个子文件)
sohu_data.zip
699.33MB
sohu_data (2).zip
699.33MB
共 2 条
1
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
虎鲸不是鱼
2022-04-01
压缩包损坏了,解压失败。而且相同体积的文件为什么放2个?
kk000122
2023-04-27
无用 文件损坏
weixin_38608025
粉丝: 6
资源:
938
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
unity10000个常用汉字
使用C#调用python操作
IMG20240425002617.jpg
IMG_2775.MOV.mov
00023(1).MTS
OSPF11111111
第三组 《打造家乡“金名片”》.pdf
Python实现kmp算法.zip
kmp算法测试.zip
kmp算法0.0.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功