没有合适的资源?快使用搜索试试~ 我知道了~
web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的。本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :slightly_smiling_face: 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp对象和正则表达式对象。xmlhttp对象是时下风头正劲的Ajax的主角;而学好了正则表达式,你再也不用为处理复杂的字符串犯愁。 在编写和调试正则表达式时,RegEx 这个小工具非常有用。 目录 抓取一个远程网页并保存到本地 改进:处理乱码 同时下载远程网页的图片(和其它文件) 改进:探测真实URL 改进:避免重复下载 实战举例
资源推荐
资源详情
资源评论
用用asp+xmlhttp编写编写web采集程序采集程序
web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的。本文不讨论这种使用这种程序引起的版权
或道德问题,只谈这种程序在ASP+VBScript环境下的实现
预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp对象和正则表达式对象。xmlhttp对象是时下风头正劲的
Ajax的主角;而学好了正则表达式,你再也不用为处理复杂的字符串犯愁。
在编写和调试正则表达式时,RegEx 这个小工具非常有用。
目录
抓取一个远程网页并保存到本地
改进:处理乱码
同时下载远程网页的图片(和其它文件)
改进:探测真实URL
改进:避免重复下载
实战举例(以****为例)
分析列表页
内容页的技巧
分析内容页中的上一页,下一页
高级主题:UTF-8和GB2312的转换
更多高级主题:登陆后抓取,客户端伪造
己有的采集程序
原文链接:http://gwx.showus.net/blog/article.asp?id=229
1.抓取一个远程网页并保存到本地
‘用于调试的过程,后面会多次调用检查中间结果
Dim inDebug:inDebug=True
Sub D(Str)
If inDebug = False Then Exit Sub
Response.Write(“<div style=’color:#003399; border: solid 1px #003399; background: #EEF7FF; margin: 1px; font-
size: 12px; padding: 4px;’>”)
Response.Write(Str &”</div>”)
Response.Flush()
End Sub
‘过程: Save2File
‘功能: 把文本或字节流保存为文件
‘参数: sContent 要保存的内容
‘ sFile 保存到文件,形如”files/abc.htm”
‘ bText 是否是文本
‘ bOverWrite 是否覆盖己存在文件
Sub Save2File(sContent,sFile,bText,bOverWrite)
Call D(“Save2File:”+sFile+” *是否文本:”&bText)
Dim SaveOption,TypeOption
If (bOverWrite = True) Then SaveOption=2 Else SaveOption=1
If (bText = True) Then TypeOption=2 Else TypeOption=1
Set Ads = Server.CreateObject(“Adodb.Stream”)
With Ads
.Type = TypeOption
.Open
If (bText = True) Then .WriteText sContent Else .Write sContent
.SaveToFile Server.MapPath(sFile),SaveOption
.Cancel()
.Close()
End With
Set Ads=nothing
End Sub
关键的函数
‘函数: myHttpGet
‘功能: 抓取一个远程文件(网页或图片等)并保存到本地
‘参数: sUrl 远程文件的URL
‘ bText 是否是文本(网页),下载远程图片是bText=False
‘返回: 抓取的内容
Function myHttpGet(sUrl,bText)
Call D(“<font color=red>myHttpGet:</font>”+sUrl+” *是否文本:”&bText)
‘Set oXml = Server.CreateObject(“Microsoft.XMLHTTP”)
Set oXml = Server.CreateObject(“MSXML2.ServerXMLHTTP”) ‘服务器版本的XMLHTTP组件
‘理解下面的内容,你可以参考一下MSDN中的MSXML2.ServerXMLHTTP
With oXml
.Open “GET”,sUrl,False
.Send
While .readyState <> 4 ‘等待下载完毕
.waitForResponse 1000
Wend
If bText = True Then
myHttpGet = bytes2BSTR(.responseBody)
Else
myHttpGet = .responseBody
End If
End With
Set oXml = Nothing
End Function
改进:处理乱码
直接读取服务器返回的中文内容会出现乱码,myHttpGet函数中引用的bytes2BSTR的作用是正确读取服务器返回的文件中的
双字节文本(比如说中文)
‘myHttpGet helper 处理双字节文本
Function bytes2BSTR(vIn)
strReturn = “”
For i = 1 To LenB(vIn)
ThisCharCode = AscB(MidB(vIn,i,1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(vIn,i+1,1))
strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
i = i + 1
End If
Next
bytes2BSTR = strReturn
End Function
bytes2BSTR函数的功能也可以利用Adodb.Stream组件通过下面的函数实现,虽然下面的函数可以指定字符集Charset,但它并
不能转换编码,即传递”UTF-8″给参数sCset,来读取一张GB2312编码的网页将显示为乱码。
‘CharsetHelper可以正确的读取以sCset(如”GB2312″,”UTF-8″等)编码的文件
Function CharsetHelper(arrBytes,sCset)
Call D(“CharsetHelper: “+sCset)
Dim oAdos
Set oAdos = CreateObject(“Adodb.Stream”)
With oAdos
.Type = 1
.Mode =3 ‘adModeReadWrite
.Open
.Write arrBytes
.Position = 0
.Type = 2
.Charset = sCset
CharsetHelper = .ReadText
.Close
End With
Set oAdos = Nothing
End Function
2.同时下载远程网页的图片(和其它文件)
‘函数: ProcessRemoteUrl
‘功能: 替换字符串中的远程文件为本地文件并保存远程文件
‘参数: strContent 要替换的字符串,即远程网页文件的内容
‘ sSavePath 不以/结尾的相对路径,指示远程文件的本地保存路径
‘ sPreceding 更改后的URL前缀,如http://somehost/upload/
‘返回: 替换远程路径为本地路径之后的新的网页文本内容
Function ProcessRemoteUrl(sContent,sSavePath,sPreceding)
Call D(“ProcessRemoteUrl”)
Set re=new RegExp
re.IgnoreCase =true
re.Global=True
‘下面的正则中.SubMatches(4)=文件名全名.SubMatches(5)文件扩展名
re.Pattern = “((http):(?://){1}(?:(?:w)+[.])+(net|com|cn|org|cc|tv|[0-9]{1,4})(S*/)((?:S)+[.]{1}(gif|jpg|jpeg|png|bmp)))”
Set RemoteFile = re.Execute(sContent)
Dim SaveFileName
‘RemoteFile 正则表达式Match对象的集合
‘RemoteFileUrl 正则表达式Match对象
剩余8页未读,继续阅读
资源评论
weixin_38500944
- 粉丝: 7
- 资源: 943
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 番茄助手:vs2013-2022
- JSP在服装零售中的应用:销售管理系统设计与实现
- 手机和刀具检测16-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- 网上花店:电子商务平台的设计与实现
- 自动控制原理-控制系统的数学模型实验
- 轨迹跟踪,考虑侧倾和曲率变化,同时修正侧偏刚度 simulink carsim联合仿真
- 高校勤工助学管理:系统设计与用户体验优化
- 手检测15-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- DEV-CPP-RED-PANDA
- 高通410随身WiFi ufi003 Debian固件
- abaqus齿轮动态分析,能够计算出mise应力等力学内容
- “互联网+”创新创业大赛创新奶茶店策划书.docx
- 《模拟电子技术》期末试卷.doc
- 电气控制及PLC试题库和答案复习提纲.doc
- 华南师范大学计算机网络试卷.doc
- 模拟电子技术基础期末试题.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功