没有合适的资源?快使用搜索试试~ 我知道了~
小试牛刀,剪短的代码爬取李白200首诗歌,并整齐的保存到txt文档中,代码如下: import requests from lxml import etree n = 0 for i in range(10): if i==0: url="http://www.shicimingju.com/chaxun/zuozhe/1.html" else: url=="http://www.shicimingju.com/chaxun/zuozhe/"+"1_"+str(i+1)+".html" html=requests.get(url)
资源推荐
资源详情
资源评论
用用lxml和和xpath爬取李白诗词爬取李白诗词
小试牛刀,剪短的代码爬取李白200首诗歌,并整齐的保存到txt文档中,代码如下:
import requests
from lxml import etree
n = 0
for i in range(10):
if i==0:
url="http://www.shicimingju.com/chaxun/zuozhe/1.html"
else:
url=="http://www.shicimingju.com/chaxun/zuozhe/"+"1_"+str(i+1)+".html"
html=requests.get(url)
r=etree.HTML(html.text)
for row in r.xpath("//div[@class='shici_list_main']"):
n+=1
title=row.xpath("h3/a/text()")[0] if row.xpath("div/div/text()"):
content="".join(row.xpath("div/text()")).replace(' ', '').rstrip()+"".join(row.xpath("div/div/text()")).replace(' ', '')
else:
content = "".join(row.xpath("div/text()")).replace(' ', '')
with open("李白的诗.txt","a") as f:
f.write("【{}】{}{}".format(n,title,content))
print("当前进度: {:.2f}%".format(n * 10 / len( r.xpath("//div[@class='shici_list_main']"))), end="")
取结果部分截图如下:
资源评论
weixin_38705699
- 粉丝: 3
- 资源: 962
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- pta题库答案c语言之排序4统计工龄.zip
- pta题库答案c语言之树结构7堆中的路径.zip
- pta题库答案c语言之树结构3TreeTraversalsAgain.zip
- pta题库答案c语言之树结构2ListLeaves.zip
- pta题库答案c语言之树结构1树的同构.zip
- 基于C++实现民航飞行与地图简易管理系统可执行程序+说明+详细注释.zip
- pta题库答案c语言之复杂度1最大子列和问题.zip
- 三维装箱问题(Three-Dimensional Bin Packing Problem,3D-BPP)是一个经典的组合优化问题
- 以下是一些关于Linux线程同步的基本概念和方法.txt
- 以下是一个简化的示例,它使用pygame库来模拟烟花动画的框架.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功