Day07回顾
1、response.xpath('xpath表达式')
xpath表达式没有text()则结果为选择器对象
xpath表达式加上text()则结果为选择器文本对象
extract()将列表中所有元素序列化为Unicode字符串
2、MongoDB持久化存储
1、settings.py设置相关变量
MONGODB_HOST = "localhost"
MONGODB_PORT = 27017
MONGODB_DBNAME = "daomudb"
MONGODB_DOCNAME = "daomubiji"
2、pipelines.py写程序
import pymongo
from Daomu import settings
class DaomuPipeline(object):
def __init__(self):
host = settings.MONGODB_HOST
port = settings.MONGODB_PORT
dbName = settings.MONGODB_DBNAME
docName = settings.MONGODB_DOCNAME
conn = pymongo.MongoClient(host=host,port=port)
exec("db=conn." + dbName)
exec("self.myset=db."+docName)
3、settings.py中添加项目管道
ITEM_PIPELINES = {"项目名.pipelines.类名":300}
4、MySQL
1、settings.py中设置相关变量
2、pipelines.py中定义相关类
3、settings.py中添加项目管道
5、Scrapy模块方法
yield scrapy.Request(url,callback=解析方法名)
********************************
Day08笔记
1、如何设置随机User-Agent
1、settings.py(少量User-Agent切换,不推荐)
1、定义USER_AGENT变量值
2、DEFAULT_REQUEST_HEADER={"User-Agent":"",}
2、设置中间件的方法来实现
1、项目目录中新建user_agents.py,放大量Agent
user_agents = ['','','','','']
2、middlewares.py写类:
from 项目名.user_agents import user_agents
import random
class RandomUserAgentMiddleware(object):
def process_request(self,request,spider):
request.headers["User-Agent"] = random.choice(user_agents)
3、设置settings.py
DOWNLOADER_MIDDLEWARES = {
"项目名.middlewares.RandomUserAgentMiddleware" : 1}
3、直接在middlewares.py中添加类
class RandomUserAgentMiddleware(object):
def __init__(self):
self.user_agents = ['','','','','','']
def process_request(self,request,spider):
request.header['User-Agent'] = random.choice(self.user_agents)
2、设置代理(DOWNLOADER MIDDLEWARES)
1、middlewares.py中添加代理中间件ProxyMiddleware
class ProxyMiddleware(object):
def process_request(self,request,spider):
request.meta['proxy'] = "http://180.167.162.166:8080"
2、settings.py中添加
DOWNLOADER_MIDDLEWARES = {
'Tengxun.middlewares.RandomUserAgentMiddleware': 543,
'Tengxun.middlewares.ProxyMiddleware' : 250,
}
4、图片管道 :ImagePipeline
1、使用流程(要操作的文件)
1、settings.py
设置图片要保存的路径的变量
IMAGES_STORE = "/home/tarena/aaa/aaa/images"
2、pipelines.py
1、导入scrapy定义好的图片管道类
from scrapy.pipelines.images import ImagesPipeline
2、定义自己的class,继承scrapy的图片管道类
class AAAImagePipeline(ImagesPipeline):
def get_media_requests(self,item,info):
... ...
2、案例 :斗鱼图片抓取案例(手机app)
1、菜单 --> 颜值
http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset=0
2、抓取目标
1、图片链接
2、主播名
3、城市
把所有图片保存在 IMAGES_STORE
3、步骤
1、前提 :手机和电脑一个局域网
2、Fiddler抓包工具
Connections : Allow remote computers to ..
HTTPS : ...from all processes
3、IP地址 :Win+r -> cmd -> ipconfig
4、配置手机
手机浏览器 :http://IP:8888
下载 FiddlerRoot certificate
5、安装
设置 -> 更多 -> ... -> 从存储设备安装
6、设置手机代理
长按 wifi,->代理
IP地址 :
端口号 :
4、项目实现
5、dont_filter参数
scrapy.Request(url,callback=...,dont_filter=False)
dont_filter参数 :False->自动对URL进行去重
True -> 不会对URL进行去重
6、Scrapy对接selenium+phantomjs
1、创建项目 :Jd
2、middlewares.py中添加selenium
1、导模块 :from selenium import webdriver
2、定义中间件
class seleniumMiddleware(object):
...
def process_request(self,request,info):
# 注意:参数为request的url
self.driver.get(request.url)
3、settings.py
DOWNLOADER_MIDDLEWARES={"Jd.middleware.seleniumMiddleware":20}
7、Scrapy模拟登陆
1、创建项目 :Renren
2、创建爬虫文件
8、机器视觉与tesseract
1、OCR(Optical Character Recognition)光学字符识别
扫描字符 :通过字符形状 --> 电子文本,OCR有很多的底层识别库
2、tesseract(谷歌维护的OCR识别开源库,不能import,工具)
1、安装
1、windows下载安装包
https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download
安装完成后添加到环境变量
2、Ubuntu : suo apt-get install tesseract-ocr
3、Mac : brew install tesseract
2、验证
终端 :tesseract test1.jpg text1.txt
3、安装pytesseract模块
python -m pip install pytesseract
# 方法很少,就用1个,图片转字符串:image_to_sting
4、Python图片的标准库
from PIL import Image
5、示例
1、验证码图片以wb方式写入到本地
2、image = Image.open("验证码.jpg")
3、s = pytesseract.image_to_string(image)
6、tesseract案例 :登录豆瓣网站
9、分布式介绍
1、条件
1、多台服务器(数据中心、云服务器)
2、网络带宽
2、分布式爬虫方式
1、主从分布式
2、对等分布式
3、scrapy-redis
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
爬虫+python+爬取豆瓣相关数据源码+demo (620个子文件)
scrapy.cfg 257B
scrapy.cfg 255B
scrapy.cfg 253B
scrapy.cfg 247B
zhaopin.csv 376KB
zhanshen.html 40KB
163e46ae2b94d7d6b7a0e3745fd415fdf11efa15.jpg 67KB
677adb8e8e7a9c084c47f3bcd7a37957451c456b.jpg 64KB
b07ad567307cde9af13e0fa43387ed3e7636ee0b.jpg 60KB
48b490d58bb7928a042f5f92ce26a0a6782da3c1.jpg 54KB
e0839451082932b3ca226eaa2aa43c3cf3716ca5.jpg 52KB
3bfdeabe8c48c98b0c43d9bf13f3c517ecbace56.jpg 48KB
49dd942444b0f0af3028bf3e80fedf073816a27f.jpg 48KB
8cfcdac6b2f82218c0fe2bb8d72a1a53a7dd2f81.jpg 48KB
b6c005e76ce7d3c8454e906e1062bdd14b361b0b.jpg 46KB
389b1901519c2867973b081a3634910141729eee.jpg 46KB
11a42a5a986903149b7e5f2815d8c99e75a48b72.jpg 46KB
e5d88b262548a9d89ccf7eb8f09a9651213f74be.jpg 45KB
984ffbb09975c53014741218ef7321428556d161.jpg 45KB
cdfb0ce47728ab1ef4613e126e9efe308ba2c305.jpg 45KB
6b791a3e2c7f7a2aa95a5bbffc270e03c2daac40.jpg 44KB
e7742d8db34d9599e99b9d3ce52744624c6d8b91.jpg 44KB
91b62aeab1871ebd77fa686931ce7a35e6409aa8.jpg 44KB
477911814015beaed691bdc4095751890f3f5f1f.jpg 43KB
ef8c4df5acea3d64d679d237563ff27ae8a68925.jpg 43KB
5a4b7abc5d1716e15b80dcf0f327e74fbde3d5a3.jpg 43KB
2aa0785958d5d8c62ee4daa629888c50ca5eb2e7.jpg 43KB
8723dc7389dd44901e7c00e40012f64c37d88f57.jpg 43KB
48ed432b6a606781e92e2c25c90fb238e7873af7.jpg 43KB
a60ab7235ce32a3f6d0f08d6592b1dbf8c5d759d.jpg 42KB
ecbc3c56a38e11f7a5e9f6b5b5ac3cf2969610b8.jpg 42KB
66466ec960515b520c9c8d70afea630487790086.jpg 42KB
16cf92d4b290c850aff85bf6256337ff1dbf1bff.jpg 42KB
c3c4e79fbca9126e634d997627f9e3487d2ff845.jpg 41KB
2fa444972bf9f76c3457989b05f23e2886db008f.jpg 40KB
fa92876eccd6fc9f16dca0c658995720e2f89b65.jpg 40KB
555e52df79d72d6f5e9f0699d0220bf9dbee9e39.jpg 39KB
c04aeb8a4dc2054faa83b4d5941f2fa77afa4579.jpg 39KB
bc26e7a4f5ac3065bdd9cdd92f97dffdfe568636.jpg 39KB
272d1c7925da631c2611780f65a68eedc2b64a33.jpg 39KB
a237eb7d9ee995f6a571f419660a227a8dbba586.jpg 39KB
fc57855eea6ade8cfeca22bda3e6528ec2d14223.jpg 39KB
6f3133a0327a40bbcbaabf4b73a45146f0bc4d9c.jpg 39KB
65be4fed39b44f1d2f530f73d0061677adcd198d.jpg 38KB
6a9abd089f999ef2047cff74b9d41325683f8c35.jpg 38KB
5d82ce814b30d6c43881f006570a507e311c4701.jpg 38KB
5147054bbe07581e474bd742b79301eff7ab15db.jpg 38KB
549fdbc8936d29ea5366f51cf164779556ee3ece.jpg 38KB
725610c5a053e9049b0bf2008f835c8051557b38.jpg 38KB
7caa541ecd2b3ac7de6f52b3dcf6a8ba1642439e.jpg 38KB
cbcccdd9043bcdc9c2f5fb62af1b22c8e99d29d8.jpg 37KB
5b92f987ce5867c8c74c72f012a59c2acf5e4bc3.jpg 37KB
9208fe8fc488cf72da0ff9e7e59613ad42736dd7.jpg 37KB
501cf6b39da0f63aba418f6d6d618170fdd5ccae.jpg 37KB
31c5f5439597d3d4e1f99b7feeb46f861e94fcf4.jpg 37KB
7dd607b69e215975adc716c040ce4604521bc18f.jpg 37KB
286896c5db6f8c7e671a875ef38407f3dedfa370.jpg 37KB
808d1b7a531f6c3c3b421fb3c0e1660d4d92beb6.jpg 37KB
4656d4a70887266609f52ef09d4a0f75af44aafe.jpg 37KB
ae98e0df76b9704d28a31db69e77f370dccb438f.jpg 37KB
c0102c9c5d3e187fd2c2e2e0c4360552a9108f3f.jpg 37KB
2811958a55bf19d9ed3108062526d81956ab796c.jpg 36KB
416608c8b9fbf8c855f4122d4be481bb3779b323.jpg 36KB
f6f32d3c4154aaa9bb2eb245b87aa8f6adddbf31.jpg 36KB
5018801cd7613347928916f9eb7ee48ec389999a.jpg 36KB
d1403e34f94a7c0638164f94b77efaab5c719aa9.jpg 36KB
c303f6c0c76eeaed4d31d782ab8f6701be9f0467.jpg 36KB
17be0005ad4b79218f86313568ec60ccf164a03e.jpg 36KB
548cd083e9049fdbe8103dc887480a661527fcf5.jpg 36KB
3607d5a4157bb0bb9f000e0d69dfa9fb10ab239a.jpg 36KB
909c0916aa4b13bca8a46f00ac5cd1072eefd849.jpg 35KB
0a4c4b1cdc7c866ac90910cb54f9a415d019291a.jpg 35KB
9d501e7db5202f487edb2e70fbbae8239f53d724.jpg 35KB
044fd5d42ce6868ad2d380353f70a695f1c814a3.jpg 35KB
e202f34cf8598b76f9a7a7bef37017e62a667518.jpg 35KB
ee24b7bd9e1cfe5b96057012f5096bc0a7d4c65d.jpg 35KB
e6defa1f714ed1fa7fa2b09118586030d6e392f0.jpg 35KB
93a246b9607dad6eb7d51626185b77537f11c103.jpg 35KB
7bd9d424f1f5ac74635a13b2e5ab4bded30ec8f0.jpg 35KB
bf45db7c838db27c86398149fe879e3a5791827e.jpg 35KB
c9cf7dd991022b96fb44dcbada40c6c2f358f48f.jpg 35KB
b5b8e88dd518dac2bf4f11d516b78a1c99beee9a.jpg 35KB
b89feda65abe95388319d1090ded95f23f13c2c7.jpg 35KB
1ed51fabfd54b812c6f471b4be58c81a55c316bb.jpg 35KB
a3bc5f5eb64e10bb9f90bc7d038519ee4113828a.jpg 34KB
c6b99b8daa1b4f628c637a4f418032ec432b0e04.jpg 34KB
ac80da8888e7a2da1e56aac6011e15acdcff4916.jpg 34KB
4dc2b4fd702d064609bba616192baef60bf65d69.jpg 34KB
73723ca34432ae50619ec04183620386c5ae20d5.jpg 34KB
66e14f31dd7e892ce32a5180d7d476734e152883.jpg 34KB
77d457ec6cde80d5c0222e1fddfde27dabad624e.jpg 34KB
dbd98fe0a6a341ff32c27b47c29402b039febec3.jpg 34KB
1a455a3f1b19a9fcccd17d0b1c8569adfdc0347d.jpg 34KB
a7dcb28086129c5898bd8f0b0efd6784efde00a8.jpg 34KB
a36c112fe707577b609c4eec54854cb0316f233c.jpg 34KB
97a6ea68e64f8abbf403c27a77f7afd45615ef97.jpg 34KB
cfcfad8fe20711975b53001a4dd818dcbd170bd3.jpg 34KB
18130fa44686b2659c54d3c276cc751e55d44711.jpg 34KB
b692915e90e9045c53304d542ad12011993453ae.jpg 34KB
6e675eddff563f603056d8f2be565bfa29e0faeb.jpg 34KB
共 620 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7
资源评论
AI小花猫
- 粉丝: 1w+
- 资源: 59
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功