没有合适的资源?快使用搜索试试~ 我知道了~
PatentsTextAnalysis:灵活的可配置代码,可对Google Patents的专利进行网页抓取和文本挖掘
共23个文件
py:16个
svg:2个
ipynb:2个
需积分: 12 0 下载量 144 浏览量
2021-03-27
01:47:28
上传
评论 1
收藏 87KB ZIP 举报
温馨提示
专利文本分析 灵活,可配置的代码,可对Google Patents的专利进行网页抓取和文本挖掘。 安装 git clone https://github.com/Maranc98/patents-nlp.git cd ./patents-nlp pip install -r requirements.txt 使用进行网络抓取。 您需要在下载Chrome驱动程序。 最后,在配置路径。 建立资料集 在配置应用程序路径和抓取参数。 特别是,抓取参数为: 受让人的名字 年份范围 语言 每年要刮取的结果页数 然后运行build_dataset.py来构建数据集。 ~/patents-nlp$ python build_dataset.py usage: build_dataset.py [-h] [--delete] [--all] [--scrape] [--download] [--con
资源推荐
资源详情
资源评论
收起资源包目录
PatentsTextAnalysis-master.zip (23个子文件)
PatentsTextAnalysis-master
images
lsa_plot.svg 52KB
trends_plot.svg 48KB
conf.py 637B
LSA
lsa.py 3KB
lsa_display.py 2KB
__init__.py 0B
tfidf.py 3KB
data_pipeline
scraper.py 5KB
__init__.py 0B
pdf_download.py 2KB
pdf2txt.py 3KB
clean_txt.py 4KB
build_dataset.py 2KB
requirements.txt 247B
lsa_example.ipynb 80KB
.gitignore 42B
fasttext
fasttext_representation.py 3KB
fasttext_similarity.py 655B
README.md 3KB
utils
txts_loading.py 1KB
utils.py 4KB
__init__.py 80B
topics_trends.ipynb 73KB
共 23 条
- 1
资源评论
风花雪月不等人
- 粉丝: 26
- 资源: 4645
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功