#-*- codeing = utf-8 -*-
#@Time : 2020/3/3 17:51
#@Author : 李巍
#@File : spider.py
#@Software: PyCharm
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
def main():
baseurl = "https://movie.douban.com/top250?start="
#1.爬取网页
datalist = getData(baseurl)
savepath = "豆瓣电影Top250.xls"
# dbpath = "movie.db"
#3.保存数据
saveData(datalist,savepath)
# saveData2DB(datalist,dbpath)
#askURL("https://movie.douban.com/top250?start=")
#影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) #re.S 让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)
#爬取网页
def getData(baseurl):
datalist = []
for i in range(0,10): #调用获取页面信息的函数,10次
url = baseurl + str(i*25)
html = askURL(url) #保存获取到的网页源码
# 2.逐一解析数据
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"): #查找符合要求的字符串,形成列表
#print(item) #测试:查看电影item全部信息
data = [] #保存一部电影的所有信息
item = str(item)
#影片详情的链接
link = re.findall(findLink,item)[0] #re库用来通过正则表达式查找指定的字符串
data.append(link) #添加链接
imgSrc = re.findall(findImgSrc,item)[0]
data.append(imgSrc) #添加图片
titles = re.findall(findTitle,item) #片名可能只有一个中文名,没有外国名
if(len(titles) == 2):
ctitle = titles[0] #添加中文名
data.append(ctitle)
otitle = titles[1].replace("/","") #去掉无关的符号
data.append(otitle) #添加外国名
else:
data.append(titles[0])
data.append(' ') #外国名字留空
rating = re.findall(findRating,item)[0]
data.append(rating) #添加评分
judgeNum = re.findall(findJudge,item)[0]
data.append(judgeNum) #提加评价人数
inq = re.findall(findInq,item)
if len(inq) != 0:
inq = inq[0].replace("。","") #去掉句号
data.append(inq) # 添加概述
else:
data.append(" ") #留空
bd = re.findall(findBd,item)[0]
bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
bd = re.sub('/'," ",bd) #替换/
data.append(bd.strip()) #去掉前后的空格
datalist.append(data) #把处理好的一部电影信息放入datalist
return datalist
#得到指定一个URL的网页内容
def askURL(url):
head = { #模拟浏览器头部信息,向豆瓣服务器发送消息
"User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122 Safari / 537.36"
}
#用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)
request = urllib.request.Request(url,headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
#print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
#保存数据
def saveData(datalist,savepath):
print("save....")
book = xlwt.Workbook(encoding="utf-8",style_compression=0) #创建workbook对象
sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True) #创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range(0,8):
sheet.write(0,i,col[i]) #列名
for i in range(0,250):
print("第%d条" %(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j]) #数据
book.save(savepath) #保存
def saveData2DB(datalist,dbpath):
init_db(dbpath)
conn = sqlite3.connect(dbpath)
cur = conn.cursor()
for data in datalist:
for index in range(len(data)):
if index == 4 or index == 5:
continue
data[index] = '"'+data[index]+'"'
sql = '''
insert into movie250 (
info_link,pic_link,cname,ename,score,rated,instroduction,info)
values(%s)'''%",".join(data)
print(sql)
cur.execute(sql)
conn.commit()
cur.close()
conn.close()
def init_db(dbpath):
sql = '''
create table movie250
(
id integer primary key autoincrement,
info_link text,
pic_link text,
cname varchar,
ename varchar,
score numeric ,
rated numeric ,
instroduction text,
info text
)
''' #创建数据表
# conn = sqlite3.connect(dbpath)
# cursor = conn.cursor()
# cursor.execute(sql)
# conn.commit()
# conn.close()
if __name__ == "__main__": #当程序执行时
#调用函数
main()
#init_db("movietest.db")
print("爬取完毕!")
没有合适的资源?快使用搜索试试~ 我知道了~
基于Python的电影数据可视化分析系统源码(95分以上期末大作业).zip
共101个文件
jpg:19个
css:16个
js:16个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 2 下载量 12 浏览量
2023-08-30
20:55:21
上传
评论
收藏 4.59MB ZIP 举报
温馨提示
基于Python的电影数据可视化分析系统源码(95分以上期末大作业).zip 该项目是个人大作业项目源码,评审分达到95分以上,都经过严格调试,确保可以运行!放心下载使用。 该项目资源主要针对计算机相关专业的学生或从业者下载使用,也可作为期末课程设计、期末课程大作业等,具有较高的学习价值。 基于Python的电影数据可视化分析系统源码(95分以上期末大作业).zip 该项目是个人大作业项目源码,评审分达到95分以上,都经过严格调试,确保可以运行!放心下载使用。 该项目资源主要针对计算机相关专业的学生或从业者下载使用,也可作为期末课程设计、期末课程大作业等,具有较高的学习价值。 基于Python的电影数据可视化分析系统源码(95分以上期末大作业).zip 该项目是个人大作业项目源码,评审分达到95分以上,都经过严格调试,确保可以运行!放心下载使用。 该项目资源主要针对计算机相关专业的学生或从业者下载使用,也可作为期末课程设计、期末课程大作业等,具有较高的学习价值。 基于Python的电影数据可视化分析系统源码(95分以上期末大作业).zip 该项目是个人大作业项目源码
资源推荐
资源详情
资源评论
收起资源包目录
基于Python的电影数据可视化分析系统源码(95分以上期末大作业).zip (101个子文件)
bootstrap.css 193KB
bootstrap.min.css 156KB
icofont.min.css 90KB
animate.css 76KB
bootstrap-grid.css 66KB
boxicons.css 65KB
animate.min.css 57KB
boxicons.min.css 52KB
bootstrap-grid.min.css 50KB
aos.css 25KB
style.css 23KB
venobox.css 19KB
animations.css 7KB
bootstrap-reboot.css 5KB
bootstrap-reboot.min.css 4KB
transformations.css 653B
movie.db 104KB
movie.db 0B
boxicons.eot 224KB
.gitignore 1KB
.gitignore 176B
.gitignore 176B
temp.html 34KB
team.html 8KB
movie.html 7KB
index.html 5KB
word.html 5KB
score.html 5KB
echarts.html 1KB
duanban.iml 621B
t2.iml 284B
slide-1.jpg 218KB
slide-3.jpg 185KB
about.jpg 156KB
slide-2.jpg 144KB
portfolio-7.jpg 119KB
word.jpg 118KB
team-2.jpg 89KB
team-1.jpg 83KB
portfolio-5.jpg 79KB
portfolio-1.jpg 74KB
portfolio-9.jpg 57KB
team-3.jpg 55KB
portfolio-3.jpg 55KB
team-4.jpg 48KB
portfolio-2.jpg 45KB
tree.jpg 42KB
portfolio-4.jpg 27KB
portfolio-6.jpg 25KB
portfolio-8.jpg 16KB
echarts.min.js 753KB
bootstrap.bundle.js 223KB
bootstrap.js 132KB
isotope.pkgd.js 89KB
jquery.min.js 86KB
bootstrap.bundle.min.js 79KB
bootstrap.min.js 59KB
isotope.pkgd.min.js 35KB
venobox.js 32KB
aos.js 14KB
venobox.min.js 11KB
jquery.sticky.js 9KB
jquery.waypoints.min.js 9KB
main.js 5KB
jquery.easing.min.js 2KB
counterup.min.js 2KB
bootstrap.min.css.map 627KB
bootstrap.css.map 493KB
bootstrap.bundle.js.map 400KB
bootstrap.bundle.min.js.map 311KB
bootstrap.js.map 250KB
bootstrap.min.js.map 190KB
bootstrap-grid.css.map 154KB
jquery.min.map 133KB
bootstrap-grid.min.css.map 112KB
bootstrap-reboot.css.map 76KB
bootstrap-reboot.min.css.map 32KB
word2.png 97KB
apple-touch-icon.png 2KB
favicon.png 491B
test.py 6KB
myspider.py 4KB
testCloud.py 1KB
app.py 1KB
xlstest.py 265B
retest.py 150B
boxicons.svg 797KB
boxicons.ttf 224KB
icofont.woff 630KB
boxicons.woff 224KB
icofont.woff2 525KB
boxicons.woff2 79KB
豆瓣电影Top250.xls 122KB
9x9乘法表.xls 6KB
dataSources.xml 781B
misc.xml 288B
misc.xml 288B
modules.xml 266B
modules.xml 256B
profiles_settings.xml 174B
共 101 条
- 1
- 2
资源评论
- 人们叫我聪明王2023-12-30资源不错,对我启发很大,获得了新的灵感,受益匪浅。
- 2301_768893672024-05-02资源内容详尽,对我有使用价值,谢谢资源主的分享。
盈梓的博客
- 粉丝: 8901
- 资源: 2116
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 这个东西类似于Google的GRPC,但是应用场景是单片机
- labview yolov5实例分割onnxruntime推理,封装dll, labview调用dll,支持同时加载多个模型并
- git-笔记啊啊啊啊啊啊啊啊啊
- 基于SpringBoot+Vue前后端分离的校园二手交易平台源码+数据库-java毕业设计
- Screenshot_2024-10-10-16-59-35-716_com.tencent.mm.jpg
- git李立超啊啊啊啊啊啊
- PAS 7060-2021电动汽车电池的安全环保设计和使用(英).pdf
- MATLAB环境下双树复小波基础及在轴承故障诊断中的应用 程序运行环境为MATLAB R2021B,主要演示双树复小波基础及在轴
- 制动能量回收Simulink模型 四驱制动能量回收simulink模型 四驱电动汽车simulink再生制动模型 MATLAB再
- 基于SpringBoot+Vue校园二手交易平台源码+数据库(毕业设计).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功