【原创力文档下载工具】利用python下载原创力文档.zip

共1个文件

txt：1个

需积分: 5 40 浏览量 2023-11-01 00:06:31 上传评论收藏 2KB ZIP 举报

【原创力文档下载工具】利用Python下载原创力文档是一个典型的Web爬虫应用场景，它涉及到Python编程语言、网络请求、文件处理以及可能的HTML解析技术。在这个项目中，开发者使用Python来自动化获取并下载原创力平台上的文档内容。下面将详细阐述相关知识点。 1. Python编程基础：Python是一种高级编程语言，以其简洁的语法和丰富的库资源著称。在这个项目中，开发者可能会使用到的基础知识包括变量、数据类型、控制流（如for循环和if语句）、函数定义等。 2. 请求库：为了从网页上获取数据，Python通常会使用requests库来发送HTTP请求。requests库能够方便地发送GET和POST请求，获取服务器响应，并能处理cookies和session，便于实现登录和保持会话状态。 3. HTML解析：原始的网页内容是HTML格式，为了提取所需的数据，需要解析HTML。BeautifulSoup库是Python中常用的HTML解析库，它可以解析HTML和XML文档，通过CSS选择器或DOM树结构来查找和提取数据。 4. 正则表达式：在某些情况下，为了精确匹配和提取特定格式的数据，开发者可能会用到Python的re模块，它是Python的正则表达式库。 5. 文件操作：下载的文档需要保存到本地，这就涉及到了Python的文件操作。open()函数用于打开文件，write()和read()函数用于写入和读取文件，而os和shutil模块则提供了更高级的文件和目录操作功能，如创建目录、移动文件等。 6. 异常处理：在进行网络请求和文件操作时，可能会遇到网络错误、文件不存在等问题，因此需要使用try-except语句进行异常处理，确保程序的健壮性。 7. 多线程或异步IO：如果需要下载大量文档，可以考虑使用多线程或多进程（如threading或multiprocessing模块）来提升下载速度。或者，使用asyncio库进行异步编程，实现高效的并发处理。 8. 爬虫框架：对于更复杂的爬虫项目，开发者可能会选择使用Scrapy这样的爬虫框架，它提供了完整的爬取、解析、存储等功能，以及中间件和管道机制，便于处理更复杂的需求。 9. 数据存储：下载的文档内容可能需要进一步处理或分析，此时，Python的pandas库可以用来组织数据，甚至可以连接数据库如MySQL、SQLite等进行持久化存储。 10. 遵守网络道德：在实际操作中，必须遵守网站的robots.txt文件规定，尊重网站的版权，避免对服务器造成过大压力，必要时可以设置延时下载或限制下载速度。通过以上步骤，我们可以构建一个基本的Python爬虫工具，实现对原创力文档的有效下载。这个过程中，开发者不仅需要掌握Python的基本语法，还需要理解网络请求的工作原理，熟悉HTML解析和文件操作，同时具备一定的问题解决和调试能力。

资源推荐

资源详情

资源评论

收起资源包目录

【原创力文档下载工具】利用python下载原创力文档 .zip （1个子文件）

【原创力文档下载工具】利用python下载原创力文档 .txt 3KB

""" -*- coding: utf-8 -*- 文件名:原创力文档下载.py 作者：zhaozhao 环境: PyCharm 功能：原创力文档下载(仅支持可免费预览的部分) """ import os import re import requests import time from PIL import Image from tqdm import tqdm def get_html(url): html = requests.get(url) html.encoding = 'utf-8' return html.text def get_params(url): html = get_html(url) aid = re.findall(pattern='aid: (.*?),', string=html, flags=re.S)[1] pages = re.findall(pattern='preview_page: (.*?),', string=html, flags=re.S)[0] view_token = re.findall(pattern="view_token: '(.*?)' //预览的token", string=html, flags=re.S)[0] params = [] for page in range(1, int(pages) + 1, 6): param = { 'project_id': '1', 'aid': aid, 'view_token': view_token, 'page': page} params.append(param) return params def img_to_pdf(folder_path, pdf_file_path): files = os.listdir(folder_path) png_files = [] sources = [] for file in files: if "png" in file or "jpg" in file: png_files.append(folder_path + file) try: png_files.sort(key=lambda x: int(str(re.findall("\d+", x)[0]))) except IndexError: files.sort() output = Image.open(png_files[0]) png_files.pop(0) for file in png_files: png_file = Image.open(file) sources.append(png_file) output.save(pdf_file_path, "pdf", save_all=True, append_images=sources) def main(): url = input("请输入文档链接：") path = input("请输入保存路径：") title = re.findall(pattern="title: '(.*?)', //文档标题", string=get_html(url), flags=re.S)[0] img_path = path +'\\'+ title.split('.')[0] for param in tqdm(get_params(url), desc="下载进度", unit="epoch", colour='green', ncols=100): headers = {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7', 'Connection': 'keep-alive', 'DNT': '1', 'Host': 'openapi.book118.com', 'Referer': 'https://max.book118.com/', 'sec-ch-ua': '"Chromium";v="104", " Not A;Brand";v="99", "Microsoft Edge";v="104"', 'sec-ch-ua-platform': '"Windows"', 'Sec-Fetch-Dest': 'script', 'Sec-Fetch-Mode': 'no-cors', 'Sec-Fetch-Site': 'same-site', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.81 Safari/537.36 Edg/104.0.1293.54'} html = requests.get(url='https://openapi.book118.com/getPreview.html', headers=headers, params=param) html.encoding = 'utf-8' res = re.findall(pattern=r'"data":(.*?),"pages"', string=html.text, flags=re.S)[0] res = eval(res.replace('\\', '')) # 将字符串转换为字典 for k, v in res.items(): img = requests.get('https:' + v).content if not os.path.exists(img_path): os.mkdir(img_path) with open(img_path+'\\'+k +'.png', 'wb') as f: f.write(img) # print("第 {} 页下载成功".format(k)) time.sleep(3) img_to_pdf(img_path+'\\', img_path+'\\'+title.split('.')[0]+'.pdf') print("文档下载成功！") if __name__ == '__main__': main()

评论收藏

内容反馈