没有合适的资源?快使用搜索试试~ 我知道了~
ilovescience:arxiv.org文章的文本挖掘
共26个文件
py:11个
gitignore:4个
json:4个
需积分: 5 0 下载量 19 浏览量
2021-05-10
16:05:03
上传
评论
收藏 233KB ZIP 举报
温馨提示
爱情科学 用于文章文本挖掘的脚本集 剧本 articles_crawl.py加载文章。 可能要花几个小时 annotations_crawl.py加载注解 lda.py通过提取主题 terms_cn.py计算文章库中的关键字 cites.py计算引用并显示引用最多的文章 word_vec.py建立模型 脚本存储在src路径中。 以.txt格式存储的文章,格式为arxiv/<section>/<year>/<month>/结果存储在stat路径中。 用法 discover.py <section>.<year>运行所有分析脚本 notes.py <section>.<year>使用计算出的统计信息生成并打开Jupyter笔记本
资源推荐
资源详情
资源评论
收起资源包目录
ilovescience-master.zip (26个子文件)
ilovescience-master
README.md 806B
notes.py 597B
arxiv
.gitignore 70B
topics
.gitignore 70B
stat
.gitignore 70B
src
lda.py 5KB
article_crawl.py 5KB
cache
.gitignore 70B
cites.py 6KB
annotation_crawl.py 2KB
word_vec.py 6KB
terms_cn.py 3KB
extra
shared.py 6KB
config.py 177B
stoplist.txt 637B
requirements.txt 162B
notebooks
visual.py 23KB
template.json 3KB
abbreviations
cond-mat.json 391B
astro-ph.json 295B
cs.json 1KB
demo
cond-mat.17.ipynb 640KB
astro-ph.17.ipynb 92KB
math.17.ipynb 119KB
cs.17.ipynb 116KB
discover.py 786B
共 26 条
- 1
资源评论
Craig林
- 粉丝: 33
- 资源: 4459
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功