没有合适的资源?快使用搜索试试~ 我知道了~
distributed-spider:通用新闻类网站分布式爬虫
共68个文件
py:56个
txt:3个
md:2个
需积分: 10 1 下载量 3 浏览量
2021-04-30
22:53:54
上传
评论
收藏 209KB ZIP 举报
温馨提示
新闻结构化信息提取 功能:可提取新闻标题、时间、作者、正文等信息 1.标题提取 1.1 如果是特殊的网站,使用指定的正则提取 1.2 否则在网页源代码中的title标签中提取,并去掉_、-、|之后的内容。多为网站名,如: 谱写美丽中国的海南篇章--时政--人民网 1.3 如经过以上两步还没有匹配到标题,则在h1~h4标题标签中提取 2.时间提取 2.1 枚举时间正则 [ "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])", "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[2][0-3]:[0-5]?[0-9]:[0-5]?[0-9])", "(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-
资源推荐
资源详情
资源评论
收起资源包目录
distributed-spider-master.zip (68个子文件)
distributed-spider-master
优化.txt 114B
master
pid.py 1KB
service
task_service.py 3KB
init.py 394B
action
help.py 1KB
task_action.py 1KB
utils
log.py 5KB
ring_buff.py 3KB
kill_python_pro.py 52B
network.py 282B
tools.py 27KB
prpcrypt.py 2KB
ffmpeg_manager.py 905B
export_data.py 17KB
config.py 302B
db
mongodb.py 3KB
elastic_search.py 5KB
redisdb.py 9KB
mysqldb.py 3KB
oracledb.py 6KB
start_service.py 423B
config.conf 830B
README.md 1KB
sync_data
sync_article.py 2KB
templates
README.html 434B
manager
task_manager.py 7KB
statistic_article_count.py 3KB
static
css
markdown.css 6KB
README.md 14KB
worker.rar 109KB
.gitignore 85B
worker
mapping.py 2KB
pid.py 1KB
init.py 392B
utils
encrypt.py 2KB
log.py 5KB
kill_python_pro.py 52B
network.py 2KB
tools.py 28KB
bloomfilter.py 2KB
prpcrypt.py 2KB
ffmpeg_manager.py 905B
export_data.py 17KB
db
mongodb.py 4KB
elastic_search.py 4KB
redisdb.py 9KB
mysqldb.py 3KB
oracledb.py 5KB
extractor
config.py 2KB
article_extractor.py 12KB
config.conf 1KB
base
collector.py 5KB
parser_control.py 2KB
url_manager.py 4KB
article_manager.py 3KB
base_parser.py 5KB
spider.py 4KB
url_count.txt 0B
constance.py 9KB
news
main-bak.py 2KB
task_status.py 121B
main.py 1KB
parsers
news_parser.py 5KB
base_parser.py 1KB
__init__.py 35B
start.bat 44B
export_data.py 1KB
url_count.txt 0B
共 68 条
- 1
资源评论
凯然
- 粉丝: 19
- 资源: 4568
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功