没有合适的资源?快使用搜索试试~ 我知道了~
Python爬取豆瓣top250电影数据,并导入MySQL,写入excel
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉

温馨提示
Python爬取豆瓣top250电影数据,并导入MySQL,写入excel 具体数据:电影链接、电影名称、电影评分、评分人数、电影概括 import pymysql import xlwt from bs4 import BeautifulSoup from urllib import request import re baseurl = 'https://movie.douban.com/top250?start='\nheaders = {\n 'User-Agent': 'XXXXX', 'Referer': 'https://movie.douban.com/top250?
资源详情
资源评论
资源推荐

Python爬取豆瓣爬取豆瓣top250电影数据,并导入电影数据,并导入MySQL,写入,写入
excel
Python爬取豆瓣爬取豆瓣top250电影数据,并导入电影数据,并导入MySQL,写入,写入excel
具体数据:电影链接、电影名称、电影评分、评分人数、电影概括具体数据:电影链接、电影名称、电影评分、评分人数、电影概括
import pymysql
import xlwt
from bs4 import BeautifulSoup
from urllib import request
import re
baseurl = 'https://movie.douban.com/top250?start='
headers = {
'User-Agent': 'XXXXX',
'Referer': 'https://movie.douban.com/top250?start=25&filter='
}
data_list = [] #储存总数据的列表
book = xlwt.Workbook(encoding='utf-8',style_compression=0) #创建excel
sheet = book.add_sheet('豆瓣Top') #创建sheet
col = ("电影链接","电影名称","评分","人数","概括") #列属性
for i in range(0,len(col)): #将列属性写入excel
sheet.write(0,i,col[i])
for k in range(0,10): #爬取
url = baseurl+f'{k*25}'
req = request.Request(url,headers=headers) #上传请求头信息
response = request.urlopen(req)
html = response.read().decode('utf-8') #返回网页源码
soup = BeautifulSoup(html,'html.parser') #将源码转变为soup类型
#电影链接
findLink = re.compile(r'')
#电影名称
findName = re.compile(r'(.*?)',re.S) #两个匹配
#评分
findGoal = re.compile(r'(.*)')
#评价人数
findNum = re.compile(r'(.*)人评价')
#电影信息
findInq = re.compile(r'(.*?)')
for item in soup.find_all('div',class_="info"): #筛选源码范围
data = [] item = str(item)
link = re.findall(findLink,item)
name = re.findall(findName,item)[0] goal = re.findall(findGoal,item)
num = re.findall(findNum,item)
inq = re.findall(findInq,item)
data.append(link)
data.append(name.strip()) #除去空格
data.append(goal)
data.append(num)
data.append(inq)
data_list.append(data)
print(f'第{len(data_list)}条')
for i in range(0, len(data_list)): #写入excel中
for j in range(0, len(col)):
sheet.write(i + 1, j, data_list[i][j])
book.save('douban_top.xls') #保存文件
conn=pymysql.connect(host='localhost',user='root',password='XXXX',






















weixin_38725450
- 粉丝: 2
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- llcom-硬件开发资源
- 2023年全国自考管理系统中计算机应用真题及答案.doc
- 2018年全国广播电视网络法纪知识竞赛100分.pdf
- TD-LTE网络KPI常见问题和优化精要-葵花宝典.pptx
- 【财务会计论文】信息化条件下的会计基础(共2356字).doc
- 县商务局2021年工作总结和2022年农村电子商务发展工作计划(1).docx
- vben-app-移动应用开发资源
- Android装机助手APP的开发与功能实现毕业设计(1).pdf
- (完整word版)软件工程文档模板(完整规范版).doc
- XX家具公司网络营销方案.doc
- VSX-1.虚拟化安全.ppt
- 企业现代计算机信息化管理中网络技术的应用探究(1).docx
- IPMP认证案例研讨项目报告模板.ppt
- 算法经典案例C语言(1).docx
- 2022教师信息化培训学习总结-学习总结.docx
- DB22_T_395_2004_保健用品理化检测方法.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论11