爬虫初级者的一点心得:
爬取数据之前首先需要清楚需要什么数据、这些数据在哪些页面上、得到这些数据分几步走(得到所有数据需要跳转几个页面、跳转每个页面需要先得到什么信息、跳转的页面可以得到什么信息),然后需要分析每个页面url的规律以便之后重复使用。
(写代码的时候很忘我,一旦抽离出来瞬间疲惫。然而每次爬其他网站都是新的挑战,光爬虫感觉都有好多知识要学习,本来想试用推特api爬数据结果申请被拒绝了~)
##### 环境:Anaconda Notebook Python3.0
##### (需要先安装包的请先找相关教程安装,其中Selenium Webdriver要注意与Chrome浏览器的版本相适应)
##### Chromedriver下载:http://chromedriver.storage.googleapis.com/index.html
##### Booking主要爬取某一城市的酒店名称、酒店评分、评分等级、评论人数以及评论区的用户国籍;
##### tripadvisor爬取了某一城市的景点名称、景点类型、景点评分、评论人数以及评论区的语言类型;
##### tripadvisor还爬取了某一城市的餐厅名称、餐厅评分、评论人数以及评论区的语言类型。
所有代码均可以直接在Notebook中运行,数据均已excel表格形式存储,里面的数据类型仅是示例,只要是爬虫页面上的有的数据都可以定位爬取到。
这里主要以缤客、猫途鹰为例(Booking、TripAdvisor中文官网,因为发现外网和中文官网数据一致才决定使用中文官网,若需爬取其他外文网站首先需要清楚中文官网与外网上的数据的区别,是否符合要求的数据)
## Booking(缤客)
#### Booking爬取数据的挑战主要在于找到页面url的规律,精简页面的url;找到评论的url(评论单独作为一个文件在network的reviewlist里)
#### Booking前两个页面其实不需要headers,固定headers爬取数据可能会被发现,但reviewlist必须有headers!
主要分三步进行爬取。
第一步:爬取某一个城市酒店页面左侧住宿类型以及url,因为直接爬取全部酒店,booking隐藏了部分数据,爬不到完整的数据,所以按住宿类型爬取酒店名称和url内容能够爬取到全部的酒店信息,该代码写在‘1-城市(住宿类型、酒店名称、酒店link).ipynb’,一页25条数据;
第二步:找到酒店详情页面的规律,把第一步保存的link清洗掉其中无用的部分,进行拼接爬取酒店评分、评分等级和评论人数;
第三步:找到network中的reviewlist,一页10条评论,爬取评论页面数据
#### 只要是Booking中这三个页面的数据都能爬到,代码只展示了一小部分
## TripAdvisor(猫途鹰)
#### tripadvisor的挑战在于评论数据用了Ajax,url不变,在network里也找不到相应的文件包含可跳转的url,所以用了selenium webdriver模拟点击
同样三步走:
第一步:爬取全部的景点/餐厅数据
第二步:爬取景点/餐厅评分、评论人数
第三步:评论区的语言类型
#### 任意城市都可以用上面的代码进行,代码只示范对某一个城市数据爬取,相应页面所有数据都可以爬到!
#### 写到这我特别想吐槽tripadvisor的前端!
首先值得肯定的是这个网站反爬虫机制做的不错,用Ajax渲染前端,但是前端样式写的也太混乱了,解决了Ajax没想到栽倒在前端样式上,同一个城市的景点详情页面排版不一样、排版一样的页面某一部分用的css名称不一样(比如评论版块的语言类型那里),同一个样式光名称分了至少四组!明明都是同样的样式内容……还有class-name太冗长,就感觉不是很不规范……看了微博一些大网站,虽然对我来讲有爬取难度,但前段写的工工整整,简直赏心悦目。
没有合适的资源?快使用搜索试试~ 我知道了~
python 爬虫 Booking(缤客)、Tripadvisor(猫途鹰).zip
共10个文件
ipynb:9个
md:1个
需积分: 0 0 下载量 120 浏览量
2023-12-23
17:53:30
上传
评论
收藏 23KB ZIP 举报
温馨提示
Python爬虫源码大放送:抓取数据,轻松搞定! 想轻松抓取网站数据,却苦于技术门槛太高?别担心,这些源码将助你轻松搞定数据抓取,让你成为网络世界的“数据侠盗”。 它们还具有超强的实用价值。无论你是想要分析竞品数据、收集行业情报,还是想要偷窥某个女神的社交媒体动态,这些源码都能满足你的需求。 是时候打破技术壁垒,开启数据抓取的新篇章了
资源推荐
资源详情
资源评论
收起资源包目录
python 爬虫 Booking(缤客)、Tripadvisor(猫途鹰).zip (10个子文件)
ergsdfgsdgsdgsdfgdsfdfghfhfdgh42354353esdfsdfgsdfgdfg
TripAdvisor餐厅
1-城市-(餐厅类型及数量、餐厅名称与url,评分与评论人数).ipynb 7KB
2-城市-(景点评论).ipynb 5KB
Tripadvisor景点
4-城市(中文评论内容).ipynb 14KB
3-城市-(景点评论).ipynb 6KB
2-城市-(评分、评分人数).ipynb 4KB
1-城市-(景点类型及数量、景点名称与url).ipynb 10KB
Booking(缤客)
2-城市-酒店详情页面(评分、评分等级、评分人数).ipynb 8KB
1-城市(住宿类型-酒店名称-酒店link).ipynb 13KB
3-城市(评论用户的国籍).ipynb 6KB
README.md 4KB
共 10 条
- 1
资源评论
极致人生-010
- 粉丝: 3314
- 资源: 3077
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功