爬虫代码里面有详尽的注释

Python

爬虫

需积分: 50 16 下载量 24 浏览量 2014-09-26 13:56:07 上传评论 3 收藏 4KB TXT 举报

温馨提示

试读

5页

这是一个完整的爬虫代码，希望能给新学的有些帮助

资源推荐

资源详情

资源评论

# -*- coding: utf-8 -*-
#---------------------------------------
# 程序：糗百爬虫
# 版本：0.2
# 作者：why
# 日期：2013-05-15
# 语言：Python 2.7
# 操作：输入quit退出阅读糗事百科
# 功能：按下回车依次浏览今日的糗百热点
# 更新：解决了命令提示行下乱码的问题
#---------------------------------------

import urllib2
import urllib
import re
import thread
import time

#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
# 用非贪婪模式匹配 \t 或者 \n 或者空格或者超链接或者图片
BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")

# 用非贪婪模式匹配任意<>标签
EndCharToNoneRex = re.compile("<.*?>")

# 用非贪婪模式匹配任意<p>标签
BgnPartRex = re.compile("<p.*?>")
CharToNewLineRex = re.compile("(
|</p>|<tr>|<div>|</div>)")
CharToNextTabRex = re.compile("<td>")

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

资源评论