没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
64页
Python是十分强大又易学上手的脚本语言,基于Python的网络应用可谓层出不穷越来越多 本文档包括在网上搜集的众多基于Python的网页抓取实例,包括代码及说明,不是原创,只是收集了一下 里面有些例子确实很不错,看了几个例子我尝试编写了个QQ空间日志备份程序,效果还不错 (详见资源: http://download.csdn.net/source/2867988) 本文档既然是大杂烩,难免良莠不齐,读者自行辨别使用
资源详情
资源评论
资源推荐
中如何提取网页正文啊谢谢
提取网页中的文本
1. import os,sys,datetime
2. import httplib,urllib, re
3. from sgmllib import SGMLParser
4.
5. import types
6.
7. class Html2txt(SGMLParser):
8. def reset(self):
9. self.text = ''
10. self.inbody = True
11. SGMLParser.reset(self)
12. def handle_data(self,text):
13. if self.inbody:
14. self.text += text
15.
16. def start_head(self,text):
17. self.inbody = False
18. def end_head(self):
19. self.inbody = True
20.
21.
22. if __name__ == "__main__":
23. parser = Html2txt()
24.
parser.feed(urllib.urlopen("http://icode.csdn.net").read())
25. parser.close()
26. print parser.text.strip()
python 下载网页
import httplib
conn=httplib.HTTPConnection("www.baidu.com")
conn.request("GET","/index.html")
r1=conn.getresponse()
print r1.status,r1.reason
data=r1.read()
print data
conn.close
用 下载网页,超级简单!
深入 里面有
python下载网页内容,用 python 的 pycurl 模块实现
用 下载网页内容还是很不错的,之前是使用
模块实验的,但听说有 这个模块,而且比 好,
所以尝试下,废话不说,以下是代码
!"#
$ !%&%'%(%&%
) *+,
-
(
. '/0'120
'2013/3
'/'
'
4
*+,*+,
5
3///3
$ 6781
)
- !写的回调
( 97+:;<6=5:+,=1/
.
4 <,88,98,5>:+,=1
!最大重定向次数1可以预防重定向陷阱
?>@7;A+7*1$
$ !连接超时设置
) 5,==;5::+?;,6:1)4
- :+?;,6:144
(
. !模拟浏览器
4 6*;7>B;=:1?C 4
D?*+;)4D9/=:$D
*ED=;:587
!访问1阻塞到访问结束
$ '
)
- !打印出 44F::G 状态码,可以不需要
( 'F::GH5,A;
.
4 !输出网页的内容
#
!保存成 /2 文件
/0#1/2
的 模块的安装可以到 '
/这里去找
不同系统使用不同版本,自己看看
总结下,下载网页的几种方法
这是最简洁的一种,当然也是 的方法
通过 的方法
!"#
#
!"$$
%&%'
%(
#
)*
#
!"+
"'
%
!"!""$",-.$
!"!!"
!"
/"'"(#
'0'0
-
通过 的方法
!"#
!"
#
/1'
"1 2"3/"
"""
"%'((4
"2567()
"2"3("'
"'
剩余63页未读,继续阅读
whowhenwhere
- 粉丝: 3
- 资源: 19
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论15