携程网动态网页python爬虫代码恩施大峡谷

共3个文件

docx：1个

csv：1个

py：1个

爬虫

python

开发语言

需积分: 5 10 下载量 55 浏览量 2022-02-20 13:57:12 上传评论 5 收藏 671KB RAR 举报

温馨提示

python爬虫代码附有下载、操作步骤

资源详情

资源评论

资源推荐

收起资源包目录

携程网python爬虫代码.rar （3个子文件）

3-100

操作步骤.docx 418KB

代码.py 1KB

恩施大峡谷.csv 841KB

共 3 条

import requests from selenium import webdriver import time import pandas as pd #利用谷歌内核chromedriver爬取数据，如果没有设置环境变量，需要手动添加chromedriver的路径。 driver = webdriver.Chrome(executable_path='E:\Program\Chrome\chromedriver.exe') #利用get方法请求访问网址。 driver.get('https://you.ctrip.com/sight/enshi487/51386.html#ctm_ref=www_hp_his_lst') comment_list = [] #定义一个空列表存放爬取的评论 for i in range(0,300):#爬取300页的评论。 driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")#下滑到页面底端 comments = driver.find_elements_by_css_selector('div.commentDetail')#定位到commentDetail节点，爬取当前页的全部评论。 for comment in comments: comment_list.append(comment.text) driver.execute_script("arguments[0].click();", driver.find_element_by_class_name('ant-pagination-next'))#实现翻页功能，定位到ant-pagination-next节点，单击实现翻页。 print('正在爬取',i,'页') time.sleep(2) #休眠2秒. comment_dataframe = pd.DataFrame(comment_list) #利用pandas将列表转换成dataframe类型 #保存爬取的评论为csv格式。路径根据自己的情况定。解码格式为：utf_8_sig，否则打开的csv是乱码。 comment_dataframe.to_csv(r'E:\Desktop\恩施大峡谷.csv',encoding = 'utf_8_sig')