RISJbot:一个从新闻网站提取文章的文本和元数据的棘手项目资源-CSDN文库

共99个文件

py：82个

tmpl：11个

example：2个

需积分: 10 44 浏览量 2021-05-26 17:03:43 上传评论收藏 109KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

RISJbot-master.zip （99个子文件）

folder

RISJbot-master

setup.py 251B

.gitignore 143B

requirements.txt 225B

README.md 10KB

scrapy.cfg 258B

folder

RISJbot

aws_credentials.py.example 165B

folder

templates

folder

spiders

newssitemap.tmpl 2KB

businessinsider.tmpl 710B

huffpo.tmpl 657B

newsrss.tmpl 2KB

buzzfeed.tmpl 587B

newscsv.tmpl 2KB

newscrawl.tmpl 2KB

buzzfeednewscrawl.tmpl 691B

news.tmpl 3KB

vice.tmpl 1013B

newssplashcrawl.tmpl 2KB

folder

dlmiddlewares

stripnull.py 2KB

__init__.py 0B

offsitedownloadershim.py 2KB

folder

spiders

folder

fr

vicefr.py 1018B

__init__.py 161B

businessinsiderfr.py 4KB

huffpofr.py 834B

folder

uk

reuters.py 3KB

mirror.py 2KB

__init__.py 161B

sun.py 2KB

telegraph.py 2KB

buzzfeeduk.py 802B

buzzfeednewsuk.py 703B

prnewswireuk.py 2KB

independent.py 2KB

dailymail.py 3KB

metro.py 2KB

liverpoolecho.py 10KB

huffpouk.py 920B

viceuk.py 1KB

bbc.py 4KB

guardian.py 3KB

newsrssfeedspider.py 1KB

__init__.py 161B

newscsvfeedspider.py 960B

folder

de

__init__.py 161B

businessinsiderde.py 860B

bild.py 5KB

vicede.py 1KB

folder

us

cbs.py 2KB

nbc.py 2KB

washingtonpost.py 3KB

abc.py 2KB

yahoo.py 2KB

__init__.py 161B

foxnews.py 2KB

businessinsiderus.py 862B

huffpous.py 918B

buzzfeed.py 870B

prnewswire.py 2KB

ap.py 4KB

buzzfeednewsus.py 740B

nytimes.py 2KB

cnn.py 2KB

usatoday.py 3KB

viceus.py 1005B

newsatomfeedspider.py 743B

newsspecifiedspider.py 2KB

folder

global

buzzfeedall.py 3KB

__init__.py 161B

folder

base

buzzfeednewscrawlspider.py 2KB

__init__.py 161B

businessinsiderspider.py 3KB

huffpospider.py 1KB

vicespider.py 3KB

buzzfeedspider.py 2KB

newssplashcrawlspider.py 3KB

newssitemapspider.py 4KB

__init__.py 0B

folder

extensions

__init__.py 0B

dotscrapy.py 2KB

folder

spmiddlewares

equivalentdomains.py 2KB

refetchcontrol.py 14KB

__init__.py 0B

extractjsonld.py 2KB

unwantedcontent.py 3KB

fake404.py 2KB

contracts.py 605B

utils.py 6KB

splash_credentials.py.example 719B

loaders.py 18KB

metadata.py 3KB

folder

pipelines

wordcount.py 494B

striprawpage.py 966B

__init__.py 0B

checkcontent.py 372B

readingage.py 5KB

namedpeople.py 3KB

sentiment.py 747B

settings.py 11KB

items.py 1KB

内容反馈

HomeTalk

粉丝: 25
资源: 4588

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip