import urllib.request
import random
url = ['http://www.baidu.com',"https://www.360.com/","https://www.163.com/","https://www.bilibili.com/","http://www.materializecss.cn/","https://www.mdui.org/","https://www.csdn.net/","https://www.cnblogs.com/","https://www.huya.com/","https://wwww.nuxt.com/"]
# 浏览器头部0
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
}
def File(data,link):
fileData = open(link.split('.')[1]+'.html','w',encoding='utf-8')
fileData.write(data)
fileData.close()
def Crawling(link):
print(link)
req = urllib.request.Request(url=link,headers=headers)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
File(html,link)
def main():
randomList = []
while len(randomList) <3:
randomTemp = random.randint(0,len(url)-1)#随机抓取一个网站
if randomTemp in randomList:
print("该随机数重复")
else:
randomList.append(randomTemp)
Crawling(url[randomTemp])
if __name__ == '__main__':
main()
没有合适的资源?快使用搜索试试~ 我知道了~
这是一个简单的爬虫模板,你可以根据具体的需求进行修改和扩展。其中,fetch_page 函数用于发送 HTTP 请求并获取页面内容,parse_page 函数用于解析页面内容并提取所需的数据。main 函数是爬虫的主要逻辑,通过调用其他函数来控制整个爬虫的流程。你需要将 url 变量替换为你要爬取的网页的 URL。最后,使用 if __name__ == '__main__': 来判断该文件是否作为独立脚本运行,以启动爬虫。 请注意,爬取网页数据时需要遵守网站的相关规定和法律法规,尊重网站的爬取政策,并确保你的爬虫行为合法、合规、可持续和友好。
资源推荐
资源详情
资源评论
收起资源包目录
爬虫示例.zip (1个子文件)
爬虫
Get.py 1KB
共 1 条
- 1
资源评论
RootNode
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功