E:\编程练习\MyWebPage\MyWebPage\bin\Debug\MyWebPage.exe.config
E:\编程练习\MyWebPage\MyWebPage\bin\Debug\MyWebPage.exe
E:\编程练习\MyWebPage\MyWebPage\bin\Debug\MyWebPage.pdb
E:\编程练习\MyWebPage\MyWebPage\obj\Debug\MyWebPage.csprojResolveAssemblyReference.cache
E:\编程练习\MyWebPage\MyWebPage\obj\Debug\MyWebPage.exe
E:\编程练习\MyWebPage\MyWebPage\obj\Debug\MyWebPage.pdb
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
描述:由C#编写的多线程异步抓取网页的网络爬虫控制台程序 功能:目前只能提取网络链接,所用的两个记录文件并不需要很大。网页文本、图片、视频和html代码暂时不能抓取,请见谅。 但需要注意,网页的数目是非常庞大的,如下代码理论上大概可以把整个互联网网页链接都抓下来。 但事实上,由于处理器功能和网络条件(主要是网速)限制,一般的家用电脑最多能胜任12个线程左右的抓取任务,抓取速度有限。可以抓取,但需要时间和耐心。 当然,这个程序把所有链接抓下来是可能的,因为链接占系统空间并不多,而且有记录文件的帮助,已抓取网页的数量可以堆积下去, 甚至可以把所有的互联网网络链接都存取下来,当然,最好是分批次。建议设置maxNum为500-1000左右,慢慢累积下去。 另外因为是控制台程序,有时候显示字符过多会系统会暂停显示,这时候只要点击控制台按下回车键就可以了。程序假死的时候,可以按回车键(Enter)试试。 /// 使用本程序,请确保已创建相应的记录文件,出于简化代码的考虑,本程序做的并不健壮,请见谅。 /// 默认的文件创建在E盘根目录“已抓取网址.txt”和“待抓取网址.txt”这两个文本文件中,使用者需要自行创建这两个文件,注意后缀名不要搞错。 这两个文件里面的链接基本都是有效链接,可以单独处理使用。 本爬虫程序的速度如下: 10线程最快大概500个链接每分钟 6-8线程最快大概400-500个链接每分钟 2-4线程最快大概200-400个链接每分钟 单线程最快大概70-100个链接每分钟 之所以用多线程异步抓取完全是出于效率考虑,本程序多线程同步并不能带来速度的提升,只要抓取的网页不要太多重复和冗余就可以,异步并不意味着错误。
资源推荐
资源详情
资源评论
收起资源包目录
MyWebPage ver1.0 20160206.zip (20个子文件)
MyWebPage
.vs
MyWebPage
v14
.suo 45KB
MyWebPage
bin
Debug
MyWebPage.vshost.exe 22KB
MyWebPage.vshost.exe.manifest 490B
MyWebPage.vshost.exe.config 189B
MyWebPage.exe.config 189B
MyWebPage.exe 15KB
MyWebPage.pdb 28KB
Program.cs 26KB
obj
Debug
MyWebPage.csprojResolveAssemblyReference.cache 2KB
TemporaryGeneratedFile_036C0B5B-1481-4323-8D20-8F5ADCB23D92.cs 0B
DesignTimeResolveAssemblyReferencesInput.cache 7KB
TemporaryGeneratedFile_5937a670-0e60-4077-877b-f7221da3dda1.cs 0B
MyWebPage.csproj.FileListAbsolute.txt 406B
TempPE
MyWebPage.exe 15KB
TemporaryGeneratedFile_E7A71F73-0F8D-4B9B-B56E-8E70B10BC5D3.cs 0B
MyWebPage.pdb 28KB
MyWebPage.csproj 3KB
App.config 189B
Properties
AssemblyInfo.cs 1KB
MyWebPage.sln 994B
共 20 条
- 1
进击的狐狸
- 粉丝: 11
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页