# Python爬虫脚本简单练习:微信公众号音频批量采集,自动创建目录保存
# 作者:QQ33732186(承接Python数据采集脚本定制)
import os
import time
import requests
from bs4 import BeautifulSoup
########参数定义
# MP3内容页地址
subpage ='https://mp.weixin.qq.com/s/c_cwAc32MM7etO7VfcxauQ'
# 保存目录,末尾带 / 斜杠
basedir ='c:/temp/'
################
########### 采集函数定义
def getaudio(res, nub=0):
global basedir
# 开始向内容页地址发送请求
response=requests.get(res)
# 获取地址源码
html=response.text
soup=BeautifulSoup(html, 'lxml')
pagesubject = soup.find('h1',attrs={u"class":u"rich_media_title"}).string.strip()
pagesubject = pagesubject.replace("|","_")
savedir = basedir + pagesubject.strip()
# 获取所有声音标签
mpvoices = soup.find_all('mpvoice')
# 遍历提取的声音标签
for n,mid in enumerate(mpvoices):
# 防止名称中有.mp3
mp3name = 'save_%s'%(n+1) if len(mid['name'])==0 else mid['name'].replace(".mp3","")
filesavepath = savedir+'/'+mp3name+'.mp3'
# 判断并自动创建目录
direxists = os.path.exists(savedir)
if not direxists:
print('创建目录:%s' % savedir)
os.makedirs(savedir)
fileexists = os.path.exists(filesavepath)
if not fileexists:
print('正在下载:%s.mp3' % mp3name)
req = requests.get('https://res.wx.qq.com/voice/getvoice?mediaid=' + mid['voice_encode_fileid'])
with open(filesavepath,'wb')as f:
f.write(req.content)
time.sleep(1)
else:
print('---跳过文件:%s.mp3' % mp3name)
print("第%d个主题【%s】完成" % (nub, pagesubject))
##############函数定义结束
getaudio(subpage,1)
print('\n下载任务完成-------------')
quit()

锐昆
- 粉丝: 10
最新资源
- vb-字符串处理函数大全(最新整理).pdf
- VB查找并替换WORD文档中的字符串.doc
- flashmx制作教程.ppt
- 第1章--建设工程管理与信息化PPT课件.ppt
- 别墅智能家居设计报告样本.doc
- 城市轨道交通通信系统都市学院.pptx
- PLC控制步进电机.doc
- excel图表培训教案ppt课件.ppt
- C8051F单片机的小型涡喷发动机控制系统方案.doc
- DB21_T_3394_2021_草原牧鸡冶蝗技术规程.pdf
- 2023年计算机等级考试三级类笔试试题年.doc
- Q DNSP 0001 S-2020 刺梨膏(果冻).pdf
- 第五章安全项目管理.ppt
- 2022网络安全技术解读PPT.pptx
- 2023年克鲁斯卡尔算法实验报告.doc
- 2023年电子商务师考试试题.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



评论0