没有合适的资源?快使用搜索试试~ 我知道了~
ilovescience:arxiv.org文章的文本挖掘
共26个文件
py:11个
gitignore:4个
json:4个
需积分: 5 0 下载量 60 浏览量
2021-05-10
16:05:03
上传
评论
收藏 233KB ZIP 举报
温馨提示
爱情科学 用于文章文本挖掘的脚本集 剧本 articles_crawl.py加载文章。 可能要花几个小时 annotations_crawl.py加载注解 lda.py通过提取主题 terms_cn.py计算文章库中的关键字 cites.py计算引用并显示引用最多的文章 word_vec.py建立模型 脚本存储在src路径中。 以.txt格式存储的文章,格式为arxiv/<section>/<year>/<month>/结果存储在stat路径中。 用法 discover.py <section>.<year>运行所有分析脚本 notes.py <section>.<year>使用计算出的统计信息生成并打开Jupyter笔记本
资源推荐
资源详情
资源评论
收起资源包目录
ilovescience-master.zip (26个子文件)
ilovescience-master
README.md 806B
notes.py 597B
arxiv
.gitignore 70B
topics
.gitignore 70B
stat
.gitignore 70B
src
lda.py 5KB
article_crawl.py 5KB
cache
.gitignore 70B
cites.py 6KB
annotation_crawl.py 2KB
word_vec.py 6KB
terms_cn.py 3KB
extra
shared.py 6KB
config.py 177B
stoplist.txt 637B
requirements.txt 162B
notebooks
visual.py 23KB
template.json 3KB
abbreviations
cond-mat.json 391B
astro-ph.json 295B
cs.json 1KB
demo
cond-mat.17.ipynb 640KB
astro-ph.17.ipynb 92KB
math.17.ipynb 119KB
cs.17.ipynb 116KB
discover.py 786B
共 26 条
- 1
资源评论
Craig林
- 粉丝: 35
- 资源: 4458
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 技术资料分享TJA1050很好的技术资料.zip
- 技术资料分享TF应用很好的技术资料.zip
- 技术资料分享TF卡资料很好的技术资料.zip
- 综合实验课程设计-基于WFP(Windows Filter Platform)的个人防火墙系统 +C++项目源码+文档说明
- deepinIDE支持在mips64el架构下UOS专业版1031及以上版本安装
- 免费通讯库 6.0.1.0版本
- 基于paddle的命名实体识别的代码,契合飞桨平台环境
- springboot农产品报价系统(附源码+数据库)37300
- 利用pyqt6开发的一款桌面程序app-美颜商店
- 北航操作系统实验课和理论课的平时作业 +项目源码+文档说明+实验指导书
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功