
用 Python 写一个小小的爬虫程序
浏览次数:1356 次 2007 年 11 月 11 日 互联网 字号: 大 中 小
分享到:QQ 空间新浪微博腾讯微博人人网豆瓣网开心网更多
1
Python 有一个 urllib 的库,可以很方便的从给定的 url 抓取网页,以下这段程序实现了抓取一个
url 并存到指定文件的功能:
爬虫工作的基本原理就是,给定一个初始的 url,下载这个 url 的网页,然后找出网页上所有满足
下载要求的链接,然后把这些链接对应的 url 下载下来,然后再找下载下来的这些网页的 url,我
们可以用广度优先搜索实现这个算法,不过,首先得有一个函数找出网页上所有的满足要求的
url,下面这个例子用正则表达式找出 url.