spider_ximalaya.rar_xm-sign资源-CSDN文库

共2个文件

py：1个

js：1个

python

js解密

爬虫

5星 · 超过95%的资源需积分: 21 132 浏览量 2019-05-18 11:20:24 上传评论收藏 6KB RAR 举报

在IT行业中，网络爬虫是一种常见的数据获取工具，用于自动化地从互联网上抓取大量信息。然而，许多网站为了防止恶意爬取和保护自身数据，会设置反爬虫机制。本压缩包“spider_ximalaya.rar”提供了一个针对喜马拉雅音频平台的反反爬解决方案，特别关注的是如何生成“xm-sign”的JavaScript脚本，并将其转化为Python可执行的代码。喜马拉雅是中国知名的音频分享平台，拥有丰富的有声读物、音乐、电台等内容。为了防止非法爬虫对其内容的滥用，它采用了特定的签名机制——“xm-sign”，这是一项用于验证请求合法性的技术。这个签名通常由客户端与服务器交互时生成，包含对请求参数的加密和哈希处理。在这个压缩包中，"spider_ximalaya"文件很可能是包含了解析和生成“xm-sign”所需的关键逻辑的JavaScript源码。要将这个脚本转换为Python版本，我们需要理解JavaScript代码的工作原理，然后用Python语言重构这些功能。这涉及到对JavaScript语法的理解，以及对加密算法如MD5或SHA系列的熟悉，因为这些通常用于生成哈希签名。我们需要分析JavaScript代码中的关键函数，找出计算签名的步骤。这可能包括URL编码、参数排序、字符串拼接和哈希计算等。例如，可能会有一个函数负责将URL查询参数转换为有序键值对，另一个函数则负责进行哈希运算。接下来，我们将这些功能逐个转换为Python代码。Python中可以使用内置的`urllib.parse`模块来处理URL编码和解析，使用`hashlib`库来进行哈希计算。在转化过程中，需要确保Python代码能够重现JavaScript代码中的所有逻辑细节，包括任何特定的字符编码或处理规则。此外，还需要注意JavaScript的异步特性。如果原始脚本包含了异步操作，比如使用了Promise或回调函数，那么在Python中，我们可能需要使用异步库如`asyncio`来实现相同的功能。在实际应用中，我们还需要考虑如何将这个签名生成器集成到爬虫项目中。可能需要编写一个Python类，该类接收必要的输入参数（如API接口、请求参数、秘钥等），并生成正确的“xm-sign”。同时，还要考虑到错误处理和异常情况，以确保爬虫在遇到签名生成失败或其他问题时能正确地恢复或报告。总结来说，"spider_ximalaya.rar"提供的资源可以帮助我们理解并克服喜马拉雅平台的反爬虫策略。通过解析和转换JavaScript脚本，我们可以用Python实现一个签名生成器，从而能够合法地与喜马拉雅的API进行交互。这个过程涉及到对JavaScript和Python语言的理解，以及对加密和哈希算法的运用，对于提升爬虫开发技能和应对复杂网络环境具有很高的价值。

资源推荐

资源详情

资源评论

收起资源包目录

spider_ximalaya.rar （2个子文件）

spider_ximalaya

spider_ximalaya.py 3KB

xmSign.js 23KB

from lxml import etree import requests import os from urllib import request,parse import json import execjs def spider_songs(list): '''保存音频（字典）''' for i in list: dir = "ximalaya/{}/".format(i['bookName']) if not os.path.exists(dir): print("创建目录:.%s" % dir) os.makedirs(dir) i['name'] = i['name'].replace("?", "").replace('"', "") # 在目录下创建一个喜马拉雅的文件夹 with open(r'{}/{}.m4a'.format(dir, i['name']), 'ab')as f: r = requests.get(i['src']) print("正在下载:{}...".format(i['name']), end="") f.write(r.content) print("\t下载完成！") # def spider_song(m4a_url,m4a_name): # # 创建down文件夹 # if not os.path.exists('Down'): # os.mkdir('Down') # filename = 'Down/' + m4a_name + '.m4a' # # print(filename) # # 下载 # request.urlretrieve(m4a_url, filename) # print(m4a_url + m4a_name + 'downloading...') # print('---' * 50) def spider_list(albumId): all_list = [] headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36', 'Accept':'text/html,application/xhtml+ xml,application/xml;q = 0.9,image/webp,image/apng,*/*;q=0.8, application/signe-exchange;v = b3', 'Host': 'www.ximalaya.com' } sign = exec_js() #加入xm-sign到header中 headers['xm-sign'] = sign # 音频地址 data_url = 'https://www.ximalaya.com/revision/play/album?albumId={}&pageNum=1&sort=-1&pageSize=30'.format(albumId) # print(data_url) response = requests.get(data_url, headers=headers) py_dict = json.loads(response.content.decode()) # print(py_dict) book_list = py_dict['data']['tracksAudioPlay'] for book in book_list: # 获取每段音频的名称和地址 list = {} list['name'] = book['trackName'] list['bookName'] = book['albumName'] list['src'] = book['src'] # 打印list # print(list) all_list.append(list) # 返回字典 return all_list '''生成xm-sign''' def exec_js(): #获取喜马拉雅系统时间戳 time = getxmtime() #读取同一路径下的js文件 with open('xmSign.js', encoding='utf-8') as f: js = f.read() # 通过compile命令转成一个js对象 docjs = execjs.compile(js) # 调用js的function res = docjs.call('python',time) #res = docjs.call('getnow') return res '''爬取喜马拉雅服务器系统时间戳，用于生成xm-sign''' def getxmtime(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36', 'Accept': 'text/html,application/xhtml+ xml,application/xml;q = 0.9,image/webp,image/apng,*/*;q=0.8, application/signe-exchange;v = b3', 'Host': 'www.ximalaya.com' } url="https://www.ximalaya.com/revision/time" response = requests.get(url, headers=headers) # print(response) html = response.text return html def spider_ximalaya(albumId): all_list = spider_list(albumId) spider_songs(all_list) if __name__ =='__main__': spider_ximalaya(12642314)

评论收藏

内容反馈