爬取B站小视频之获取要下载视频的大小.rar资源-CSDN文库

共1个文件

py：1个

版权申诉

34 浏览量 2023-10-30 18:43:20 上传评论收藏 2KB RAR 举报

在Python编程领域，爬虫是一项常见的技能，尤其在获取网络数据时显得尤为重要。在这个主题中，我们关注的是如何从哔哩哔哩（B站）这个知名的弹幕视频分享网站上爬取小视频，并且获取到要下载的视频文件的大小。B站作为一个海量内容的平台，提供了丰富的二次元文化、知识分享、娱乐视频等资源，因此，了解如何有效地从B站爬取数据具有很高的实用价值。我们需要理解B站视频的URL结构。B站小视频的URL通常以`https://www.bilibili.com/video/av`或`https://www.bilibili.com/v/`开头，后面跟着视频的唯一标识符。这个标识符是由一系列数字组成，例如`AV12345678`或`BV1xyyzzwv12`。在爬取过程中，你需要解析这些URL来获取视频ID。接着，我们将使用Python的requests库来发送HTTP请求获取网页内容。在B站的视频页面，视频的大小信息通常隐藏在HTML源代码中的JavaScript变量或者API请求中。因此，我们需要使用BeautifulSoup库来解析HTML，或者使用如re（正则表达式）或json库来处理可能包含视频大小信息的JavaScript内容。一旦我们提取出视频ID，下一步是找到获取视频实际大小的API。B站的视频信息通常可以通过其开放的API或者通过分析浏览器网络请求来获取。例如，可以尝试访问`https://api.bilibili.com/x/web-interface/view?aid=VIDEO_ID`，其中`VIDEO_ID`替换为实际的视频ID，来获取视频的基本信息。在这个API返回的数据中，可能会包含视频分P（part）的信息，每个分P可能对应一个单独的视频文件。然而，视频的大小通常不会直接在API响应中给出，而是需要进一步的请求。通常，视频的真实URL隐藏在动态加载的JS脚本中，或者是通过HLS（HTTP Live Streaming）或者DASH（Dynamic Adaptive Streaming over HTTP）等流媒体协议提供。对于这种情况，我们需要分析这些流媒体链接，它们可能在HTML源码中的`<source>`标签内，或者是通过AJAX请求获取。在找到视频的实际下载URL后，我们可以通过HTTP头部信息中的`Content-Length`字段获取文件大小，或者通过下载一小部分文件并检查其大小来估算。如果使用的是HLS或DASH，通常会有一个m3u8播放列表文件，其中包含了不同质量的视频片段，需要解析这个文件来计算总大小。此外，需要注意的是，爬虫活动必须遵守B站的robots.txt文件和相关法律法规，尊重网站的版权和用户隐私。在进行任何爬虫项目之前，确保你已经理解了这些规则，并且你的行为是合法且道德的。总结一下，爬取B站小视频并获取视频大小的过程涉及以下几个关键步骤： 1. 解析B站视频URL，获取视频ID。 2. 使用requests和BeautifulSoup等工具获取和解析网页内容。 3. 分析网页源码或API请求，找到视频相关信息。 4. 获取视频的真实下载URL，可能需要处理动态加载和流媒体协议。 5. 通过HTTP头部信息或下载测试来确定视频大小。以上就是关于“爬取B站小视频之获取要下载视频的大小”的详细知识点，希望对你理解和实践相关技术有所帮助。在实际操作中，你可能需要根据B站的更新和反爬策略进行相应的调整。

资源推荐

资源详情

资源评论

收起资源包目录

爬取B站小视频之获取要下载视频的大小.rar （1个子文件）

爬取B站小视频之获取要下载视频的大小

task_3.py 3KB

import requests # 网络请求模块 import time # 时间模块 import random # 随机模块 import os # 操作系统模块 import re # 正则表达式 from fake_useragent import UserAgent # 导入伪造头部信息的模块 ''' 下载批量下载视频打印需要下载视频的大小 ''' # 哔哩哔哩小视频json地址 json_url = 'http://api.vc.bilibili.com/board/v1/ranking/top?page_size=10&next_offset={page}1&tag=%E4%BB%8A%E6%97%A5%E7%83%AD%E9%97%A8&platform=pc' class Crawl(): def get_json(self,json_url): headers = {'User-Agent': UserAgent().random} # 创建随机生成的头部信息 response = requests.get(json_url, headers=headers) # 设置随机生成的头部信息 # 判断请求是否成功 if response.status_code == 200: return response.json() # 返回json信息 else: print('获取json信息的请求没有成功！') #下载视频 def download_video(self,video_url,titlename): headers = {'User-Agent':UserAgent().random} #创建随机生成的头部信息 # 下载视频的网络请求 response = requests.get(video_url, headers=headers, stream=True) chunk_size = 1024 # 单次请求最大值 content_size = int(response.headers['content-length']) # 视频内容的总大小 if not os.path.exists('video'): # 如果video目录不存在时 os.mkdir('video') # 创建该目录 if response.status_code == 200: # 判断请求是否成功 if os.path.exists('video'): print('视频文件大小：%0.2fMB' % (content_size / chunk_size / 1024)) # 换算单位，并打印文件大小 with open('video/'+titlename+'.mp4', 'wb')as f: # 将视频写入指定位置 for data in response.iter_content(chunk_size=chunk_size): # 循环写入，实现一段一段的写 f.write(data) # 写入视频文件 f.flush() # 刷新缓存 print('下载完成！') else: print('视频下载失败！') if __name__ == '__main__': ranking = 0 # 排名变量 c = Crawl() for page in range(0,10): json = c.get_json(json_url.format(page=page)) # 获取返回的json数据 infos = json['data']['items'] # 信息集 for info in infos: # 遍历信息 ranking += 1 # 叠加排名 print('\n正在下载排名第', ranking, '的视频') title = info['item']['description'] # 视频标题 # 只保留标题中英文、数字与汉字，其它符号会影响写入文件 comp = re.compile('[^A-Z^a-z^0-9^\u4e00-\u9fa5]') title = comp.sub('', title) # 将不符合条件的符号替换为空 video_url = info['item']['video_playurl'] # 视频地址 print(title,video_url) c.download_video(video_url, title) # 下载视频,视频标题作为视频的名字 time.sleep(random.randint(3, 6)) # 随机产生获取json请求的间隔时间

评论收藏

内容反馈

版权申诉