没有合适的资源?快使用搜索试试~ 我知道了~
RISJbot:一个从新闻网站提取文章的文本和元数据的棘手项目
共99个文件
py:82个
tmpl:11个
example:2个
需积分: 10 0 下载量 44 浏览量
2021-05-26
17:03:43
上传
评论
收藏 109KB ZIP 举报
温馨提示
RISJbot 从新闻网站提取文章的文本和元数据的艰巨项目。 这应该提供从任意新闻网站获取所需的大部分结构和解析代码。 它可能在某些或多个已经编写了特定蜘蛛的网站上开箱即用(请参阅下文),但是请注意,网页抓取工具本质上有些脆弱:它们取决于每个网站的基本格式和结构页,当这些更改时,它们往往会断裂。 尽管RISJbot的后备抓取工具可以对任意新闻页面进行合理的处理,但它不能替代手工定制的蜘蛛。 拥有一定程度的Python经验将非常有帮助。 如果站点更新其模板,或者您要向集合中添加新站点,则需要进行一些编码。 我已尝试确保对现有代码进行正确注释。 如果您发现自己需要了解幕后发生的事情,那么Scrapy文档本身就是非常不错的。 您应该知道,这是为了支持作者对在线新闻的学术研究而编写的。 它仍为此目的而积极地开发(如果不是很慢的话),但是它不是生产级代码,并且与大多数免费软件相比,提供的保证
资源推荐
资源详情
资源评论
收起资源包目录
RISJbot-master.zip (99个子文件)
RISJbot-master
setup.py 251B
.gitignore 143B
requirements.txt 225B
README.md 10KB
scrapy.cfg 258B
RISJbot
aws_credentials.py.example 165B
templates
spiders
newssitemap.tmpl 2KB
businessinsider.tmpl 710B
huffpo.tmpl 657B
newsrss.tmpl 2KB
buzzfeed.tmpl 587B
newscsv.tmpl 2KB
newscrawl.tmpl 2KB
buzzfeednewscrawl.tmpl 691B
news.tmpl 3KB
vice.tmpl 1013B
newssplashcrawl.tmpl 2KB
dlmiddlewares
stripnull.py 2KB
__init__.py 0B
offsitedownloadershim.py 2KB
spiders
fr
vicefr.py 1018B
__init__.py 161B
businessinsiderfr.py 4KB
huffpofr.py 834B
uk
reuters.py 3KB
mirror.py 2KB
__init__.py 161B
sun.py 2KB
telegraph.py 2KB
buzzfeeduk.py 802B
buzzfeednewsuk.py 703B
prnewswireuk.py 2KB
independent.py 2KB
dailymail.py 3KB
metro.py 2KB
liverpoolecho.py 10KB
huffpouk.py 920B
viceuk.py 1KB
bbc.py 4KB
guardian.py 3KB
newsrssfeedspider.py 1KB
__init__.py 161B
newscsvfeedspider.py 960B
de
__init__.py 161B
businessinsiderde.py 860B
bild.py 5KB
vicede.py 1KB
us
cbs.py 2KB
nbc.py 2KB
washingtonpost.py 3KB
abc.py 2KB
yahoo.py 2KB
__init__.py 161B
foxnews.py 2KB
businessinsiderus.py 862B
huffpous.py 918B
buzzfeed.py 870B
prnewswire.py 2KB
ap.py 4KB
buzzfeednewsus.py 740B
nytimes.py 2KB
cnn.py 2KB
usatoday.py 3KB
viceus.py 1005B
newsatomfeedspider.py 743B
newsspecifiedspider.py 2KB
global
buzzfeedall.py 3KB
__init__.py 161B
base
buzzfeednewscrawlspider.py 2KB
__init__.py 161B
businessinsiderspider.py 3KB
huffpospider.py 1KB
vicespider.py 3KB
buzzfeedspider.py 2KB
newssplashcrawlspider.py 3KB
newssitemapspider.py 4KB
__init__.py 0B
extensions
__init__.py 0B
dotscrapy.py 2KB
spmiddlewares
equivalentdomains.py 2KB
refetchcontrol.py 14KB
__init__.py 0B
extractjsonld.py 2KB
unwantedcontent.py 3KB
fake404.py 2KB
contracts.py 605B
utils.py 6KB
splash_credentials.py.example 719B
loaders.py 18KB
metadata.py 3KB
pipelines
wordcount.py 494B
striprawpage.py 966B
__init__.py 0B
checkcontent.py 372B
readingage.py 5KB
namedpeople.py 3KB
sentiment.py 747B
settings.py 11KB
items.py 1KB
共 99 条
- 1
资源评论
HomeTalk
- 粉丝: 25
- 资源: 4588
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功