import requests
from selenium import webdriver
import time
import pandas as pd
#利用谷歌内核chromedriver爬取数据,如果没有设置环境变量,需要手动添加chromedriver的路径。
driver = webdriver.Chrome(executable_path='E:\Program\Chrome\chromedriver.exe')
#利用get方法请求访问网址。
driver.get('https://you.ctrip.com/sight/enshi487/51386.html#ctm_ref=www_hp_his_lst')
comment_list = [] #定义一个空列表存放爬取的评论
for i in range(0,300):#爬取300页的评论。
driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")#下滑到页面底端
comments = driver.find_elements_by_css_selector('div.commentDetail')#定位到commentDetail节点,爬取当前页的全部评论。
for comment in comments:
comment_list.append(comment.text)
driver.execute_script("arguments[0].click();", driver.find_element_by_class_name('ant-pagination-next'))#实现翻页功能,定位到ant-pagination-next节点,单击实现翻页。
print('正在爬取',i,'页')
time.sleep(2) #休眠2秒.
comment_dataframe = pd.DataFrame(comment_list) #利用pandas将列表转换成dataframe类型
#保存爬取的评论为csv格式。路径根据自己的情况定。解码格式为:utf_8_sig,否则打开的csv是乱码。
comment_dataframe.to_csv(r'E:\Desktop\恩施大峡谷.csv',encoding = 'utf_8_sig')
携程网动态网页python爬虫代码恩施大峡谷
需积分: 5 55 浏览量
2022-02-20
13:57:12
上传
评论 5
收藏 671KB RAR 举报
Panpanpan!
- 粉丝: 84
- 资源: 10
评论0