【免费】基于python的1024爬虫，可爬下1024的文章和图片放到当前目录上。.zip资源-CSDN文库

共1个文件

py：1个

需积分: 0 185 浏览量 2023-12-30 13:29:22 上传评论收藏 2KB ZIP 举报

标题中的“基于python的1024爬虫”指的是使用Python编程语言开发的一款网络爬虫程序，该程序设计用于抓取特定网站（可能是1024.com或与1024相关的论坛或社区）上的文章内容和图片，并将这些数据保存到运行爬虫的本地目录。这种爬虫可能涉及到了网页解析、网络请求、文件存储等多个技术环节。 Python作为一款流行的编程语言，具有丰富的库支持，特别适合进行网络爬虫的开发。其中，最常使用的库包括： 1. **Requests**：这是一个用于发送HTTP请求的库，可以用来获取网页内容。通过设置不同的参数，如URL、请求方法（GET或POST）、头部信息等，我们可以从目标网站获取HTML、JSON或其他格式的数据。 2. **BeautifulSoup**：这是一款强大的HTML和XML解析库，用于提取和操作网页结构。它可以解析请求返回的HTML文档，通过标签、类名、属性等定位我们需要的数据。 3. **lxml**：另一个高效的HTML和XML解析库，相比BeautifulSoup，lxml在性能上更优，同时提供了XPath和CSS选择器两种方式来查找和操作元素。 4. **Selenium**：如果目标网站有动态加载的内容或者需要用户交互才能显示，Selenium可以模拟浏览器行为，加载JavaScript渲染后的页面，甚至可以自动填写表单、点击按钮等。 5. **Pandas**：对于爬取的数据，Pandas提供了一种方便的数据结构DataFrame，可以用于数据清洗、转换和分析。 6. **Image**或**Pillow**：用于处理和保存爬取的图片，确保它们能正确地被下载并保存到本地文件系统。 7. **Pathlib**或**os**：这两者都可用于处理文件路径，创建、删除和移动文件，确保爬取的数据被妥善存档。 8. **Asyncio**：如果需要并发处理多个请求，Python的异步I/O库asyncio可以帮助提高爬虫的效率，减少等待时间。在实现这个爬虫的过程中，开发者可能需要考虑以下几点： - **反爬策略**：很多网站都有反爬机制，如验证码、IP限制、User-Agent检查等，因此需要编写代码来应对这些问题，如更换User-Agent、设置请求间隔、使用代理IP等。 - **数据保存**：文章内容通常以文本形式保存，而图片则需要下载并保存为本地文件。根据描述，此爬虫会将内容和图片保存到当前目录，可能需要编写逻辑来区分不同类型的数据并按需组织文件结构。 - **异常处理**：爬虫过程中可能会遇到各种错误，如网络问题、解析错误等，良好的异常处理机制可以保证程序的健壮性。 - **代码优化**：为了提高爬虫的效率和避免对目标网站造成过大压力，可以考虑使用多线程或多进程，或者利用异步IO进行优化。 - **合规性**：在进行网络爬虫时，必须遵守相关法律法规，尊重网站的robots.txt文件，不抓取禁止抓取的页面，避免侵犯他人版权。这个基于Python的1024爬虫项目涵盖了网络请求、HTML解析、文件操作等多个核心技能点，是学习和实践Web爬虫技术的一个良好案例。不过，具体实现细节和功能可能需要查看压缩包内的源代码才能了解清楚。

资源推荐

资源详情

资源评论

收起资源包目录

基于python的1024爬虫，可爬下1024的文章和图片放到当前目录上。.zip （1个子文件）

9843

1024crawler.py 6KB

import urllib.request import os import re import time import socket from bs4 import BeautifulSoup def crawerEach(url,urldir): resp=urllib.request.urlopen(url) html=resp.read().decode('gbk') soup = BeautifulSoup(html) items=soup.find('body').find('div',id='main').find(name='div',attrs={"class":"t","style":"margin:3px auto"} ).find('table',id='ajaxtable' ).find("tbody").findAll(name="tr",attrs={"class":"tr3 t_one"}) for item in items: target=item.find(name='td',attrs={"style":"text-align:left;padding-left:8px"}).find('h3').find('a') if target.u == None and target.b == None and target.font == None: urldir[target.text] = "http://wo.yao.cl/"+target.get('href') return urldir #爬下所有文章的标题的URL地址 def crawer(): urldir={} for i in range(39): url="http://wo.yao.cl/thread0806.php?fid=20&page="+str(i+1) print("=====================正在爬取第"+str(i+1)+"页=========") urldir=crawerEach(url,urldir) f=open("all.xml",'w',encoding="utf-8") for key,url in urldir.items() : firstColumn="<article title="+"\""+key+"\">" secondColumn=" "+"<url>"+url+"</url>" thirdColumn="</article>" f.write(firstColumn+'\n'+secondColumn+'\n'+thirdColumn+'\n') f.close() #以文章的标题模糊搜索 def search(): keyword = input("请输入关键字：") file=open("all.xml",'r',encoding='utf-8') content=file.read() soup=BeautifulSoup(content) items=soup.findAll(name="article",attrs={"title":re.compile(keyword)}) for item in items: print(item.get('title') + item.text) #获得文章内容 def getContent(soup , author ,url, pageAccount): contents = soup.body.find(name='div',attrs={'id':'main'}).findAll(name='div',attrs={'class':'t t2'}) tid = url[-12:] print (tid) #获得首页的文章内容 for item in contents: if(item.find('table').find(name='tr',attrs={'class':'tr3 tr1'}).find('font').b.text == author): content = item.table.find(name='tr',attrs={'class':'tr3 tr1'}).find(name='th',attrs={'class':'r_one'} ).table.tr.td.find(name='div',attrs={'class':'tpc_content'}).text writeContent(content) print(content) print("") pageInt = int(pageAccount) i = 2 while i<=pageInt: pageUrl = "http://wo.yao.cl/read.php?tid=" + tid + "&page=" + str(i) print(pageUrl) getAuthorFloorContent(pageUrl,author) i=i+1 print(pageUrl) #把内容写入文件 def writeContent(content): f=open('content1.txt','a',encoding='utf-8') f.write(content) f.write('\n') f.write('\n') f.write('\n') f.write('\n') f.close() '''以下为获得内容所做的准备''' #获得第2页以后的页面的作者的楼层中的内容 def getAuthorFloorContent(pageUrl,author): resp=urllib.request.urlopen(pageUrl) html=resp.read().decode('gbk') soup = BeautifulSoup(html) #获得所有楼层 contents = soup.body.find(name='div',attrs={'id':'main'}).findAll(name='div',attrs={'class':'t t2'}) for item in contents: #在所有楼层中选出作者的楼层 if(item.find('table').find(name='tr',attrs={'class':'tr1'}).find(name='th',attrs={'class':'r_two'}).b.text == author): content = item.table.find(name='tr',attrs={'class':'tr1'}).find(name='th',attrs={'class':'r_one'} ).find(name='div',attrs={'class':'tpc_content'}).text writeContent(content) print(content) print("") #获得帖子中共有多少页 def getContentPage(soup): divItems = soup.body.find('div',id='main').findAll(name='div',attrs={'class':'t3'}) #获得页数的节点 pageAccounts = divItems[2].table.tr.td.find(name='div',attrs={'class':'pages'}).findAll(name='a',attrs={'style':None}) pageAccount = pageAccounts[len(pageAccounts)-1].text print("页数为：" + pageAccount) return pageAccount #获得作者名字 def getAuthor(soup): author = soup.body.find('div',id='main').find(name='div',attrs={'class':'t t2'} ).find('table').find(name='tr',attrs={'class':'tr3 tr1'}).find('font').b.text print("作者为：" + author) return author #获得文章 def getArtilcle(url): resp=urllib.request.urlopen(url) html=resp.read().decode('gbk') soup = BeautifulSoup(html) #取得帖子的页数 account = getContentPage(soup) #取得文章的作者 author = getAuthor(soup) #取得内容，并将内容存入txt content = getContent(soup , author ,url ,account) #获得图片 def getPicture(url): #url="http://wo.yao.cl/htm_data/8/1412/1313643.html" resp=urllib.request.urlopen(url) soup = BeautifulSoup(resp) contents = soup.body.find(name='div',attrs={'id':'main'}).findAll(name='div',attrs={'class':'t t2'}) #获得网页内容 for item in contents: pictures = item.table.find(name='tr',attrs={'class':'tr3 tr1'}).find(name='th',attrs={'class':'r_one'} ).table.tr.td.find(name='div',attrs={'class':'tpc_content'}).findAll(name='input') i = 0 for tag in pictures: print(tag['src']) conn = urllib.request.urlopen(tag['src']) f=open(str(i)+".jpg",'wb') i=i+1 f.write(conn.read()) f.close() resp.close(); if __name__ == "__main__": print("1--更新") print("2--查询") print("3--取得文章") print("4--取得图片") choose=input("请输入结果：") if choose=="1": crawer() else : if choose=="3": url = input("请输入文章的网址:") getArtilcle(url) else: if choose=="4": url = input("请出入图片的网址:") getPicture(url) else: search() print("The End")

评论收藏

内容反馈