# scrapy_helper
Dynamic configurable crawl (动态可配置化爬虫)
#### Install
* `git clone git@github.com:facert/scrapy_helper.git && cd scrapy_helper`
* `virtualenv .env`
* `source .env/bin/activate`
* `pip install -r requirements.txt`
* `python manage.py migrate`
#### Run
* `python manage.py runserver`
* open browser http://127.0.0.1:8000/
* use test account (username: demo/password: demo ) to login
#### Online site
http://www.anycrawl.info/
#### Screenshots
![](https://pic3.zhimg.com/v2-cca37ee0844cce1c4a72a4f55f2c54e7_b.jpg)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
动态可配置化爬虫.zip (131个子文件)
scrapy.cfg 267B
scrapy.cfg 261B
scrapy.cfg 255B
bootstrap.css 143KB
bootstrap.min.css 118KB
font-awesome.css 26KB
font-awesome.min.css 21KB
scrapy-helper.css 2KB
modern-business.css 2KB
multi-select.css 2KB
.DS_Store 6KB
.DS_Store 6KB
fontawesome-webfont.eot 55KB
glyphicons-halflings-regular.eot 20KB
.gitignore 1KB
project_detail.html 15KB
project_create.html 11KB
project_public.html 8KB
project_list.html 5KB
base.html 5KB
project_status.html 3KB
login.html 3KB
echarts.simple.min.js 240KB
jquery.js 94KB
bootstrap.js 68KB
multi-select.js 65KB
bootstrap.min.js 36KB
jqBootstrapValidation.js 35KB
icons.less 34KB
variables.less 15KB
mixins.less 892B
path.less 684B
rotated-flipped.less 622B
spinning.less 582B
stacked.less 476B
font-awesome.less 465B
core.less 418B
list.less 377B
larger.less 370B
bordered-pulled.less 330B
fixed-width.less 119B
LICENSE 1KB
README.md 552B
FontAwesome.otf 84KB
views.py 6KB
settings.py 4KB
settings.py 4KB
settings.py 4KB
pipelines.py 4KB
pipelines.py 4KB
pipelines.py 4KB
serializers.py 3KB
template_engine.py 3KB
settings.py 3KB
0001_initial.py 3KB
useragent_middleware.py 2KB
useragent_middleware.py 2KB
useragent_middleware.py 2KB
models.py 2KB
0002_auto_20170924_0500.py 2KB
douban_group.py 2KB
chuansong.py 1KB
ziroom.py 1KB
urls.py 1KB
0003_auto_20171119_0946.py 939B
urls.py 677B
utils.py 604B
0006_auto_20171202_1536.py 503B
0004_project_is_public.py 452B
0005_project_is_delete.py 451B
wsgi.py 403B
items.py 352B
items.py 326B
items.py 281B
scripts.py 274B
scripts.py 262B
manage.py 256B
scripts.py 250B
apps.py 146B
admin.py 128B
tests.py 125B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
_icons.scss 34KB
_variables.scss 15KB
_mixins.scss 906B
_path.scss 695B
_rotated-flipped.scss 672B
_spinning.scss 583B
_stacked.scss 482B
共 131 条
- 1
- 2
资源评论
JJJ69
- 粉丝: 6234
- 资源: 5778
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功