NLPIR新闻语料库说明
1.解压缩后数据量为48MB,大约2400万字的新闻;
2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。
3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息);
4.新闻本身内容的版权属于原作者或者新闻机构;
5.整理后的语料库版权属于www.NLPIR.org;
6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景;
如需更大规模的语料库,可以联系NLPIR.org管理员。
北京理工大学网络搜索挖掘与安全实验室 (SMS@BIT)
地址:北京海淀区中关村南大街5号北京理工大学中心教学楼10层 邮编:100081
自然语言处理与信息检索共享平台
Email: kevinzhang (at) bit.edu.cn
MSN: pipy_zhang (at) msn.com;
网站: http://www.nlpir.org/
微博: http://t.sina.com.com/drkevinzhang/
Web Search,Mining and Security Lab.
Beijing Institute of Technology (SMS@BIT)
Add: Floor 10, Teaching Center Building, No.5, South St.,Zhongguancun,Haidian District,Beijing,P.R.C PC:100081
Email: kevinzhang (at) bit.edu.cn
MSN: pipy_zhang (at) msn.com;
Website: http://www.nlpir.org/
Twitter: http://t.sina.com.com/drkevinzhang/
NLPIR新闻语料库(2400万字)
需积分: 5 81 浏览量
2023-08-30
20:09:57
上传
评论
收藏 16.87MB RAR 举报
热爱Coding
- 粉丝: 1018
- 资源: 398
最新资源
- Docker容器配置进阶
- tensorflow-gpu-2.7.4-cp37-cp37m-manylinux2010-x86-64.whl
- 多段线、 圆、弧转多段线(仅我可见)
- tensorflow-2.7.2-cp38-cp38-manylinux2010-x86-64.whl
- yeyue-p8Yi4-ve4a83792.apk
- tensorflow-gpu-2.7.3-cp38-cp38-manylinux2010-x86-64.whl
- 五相感应电机矢量控制模型MATLAB
- RGLED (1) (1).circ
- IMG_20240427_215747.jpg
- python下前端WEB学习笔记
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈