没有合适的资源?快使用搜索试试~ 我知道了~
C#网络爬虫源码
共120个文件
html; charset=gb2312:23个
cs:19个
html; charset=utf-8:14个
需积分: 50 72 下载量 173 浏览量
2017-09-26
12:04:44
上传
评论 8
收藏 779KB RAR 举报
温馨提示
网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特性 介绍 爬取文件用Berkeley DB存储 提高性能: 常用操作系统不善于处理大量小文件 基于URL Ranking的优先级队列 主题爬虫: 机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取 爬虫礼仪 遵循爬虫禁止协议、以及避免对服务器资源的过度使用等 性能优化 用UDP取代封装好的HttpWebRequest/Response DNS缓存 异步的DNS地址解析 硬盘缓存或内存数据库以避免频繁的磁盘寻道 分布式爬虫以扩展单机能力(CPU、内存和硬盘访问)
资源推荐
资源详情
资源评论
收起资源包目录
C#网络爬虫源码 (120个子文件)
DesignTimeResolveAssemblyReferencesInput.cache 6KB
DesignTimeResolveAssemblyReferencesInput.cache 6KB
ResolveAssemblyReference.cache 4KB
NWebCrawler.csproj.GenerateResource.Cache 915B
SettingsForm.Designer.cs 58KB
MainForm.Designer.cs 24KB
CrawlerThread.cs 11KB
MainForm.cs 7KB
Downloader.cs 5KB
PriorityQueue.cs 5KB
Settings.cs 4KB
Utility.cs 4KB
UrlFrontierQueueManager.cs 3KB
Resources.Designer.cs 3KB
SettingsForm.cs 3KB
Logger.cs 3KB
Parser.cs 2KB
AssemblyInfo.cs 1KB
AssemblyInfo.cs 1KB
Program.cs 1KB
Settings.Designer.cs 1KB
Program.cs 506B
CrawleHistroyEntry.cs 323B
NWebCrawler.csproj 6KB
NWebCrawlerLib.csproj 5KB
Properties.Resources.Designer.cs.dll 5KB
NWebCrawler.exe 62KB
NWebCrawler.exe 62KB
NWebCrawlerLib.exe 22KB
NWebCrawlerLib.exe 22KB
NWebCrawler.vshost.exe 11KB
0003be8238c8302e17c799d9f5d65876.gif 36KB
7eedab1d5fa988b034a32f14e08a97c0.gif 3KB
753a67d9417f20f83e1dce17d6146f85.gif 2KB
dfcb93920e639c9f7963e66ad84c9a46.gif 1KB
94f1e7adbd48cf364b19771319db6b3f.gif 807B
3ff2932f670fc24203b1290df195dabf.gif 322B
132949602460dfebc35da092329cba0c.gif 317B
89253cefeda362f9b403341ccec22420.gif 314B
cb8c4ddd3d55475825bf08ed71e11da7.gif 310B
5ae7c8b442091b3c740b5f89f2202977.gif 305B
349427e49e96cbca35651e55ef94353d.gif 287B
e49f46d2d3f40d8f28669220f8f1588f.gif 114B
84675a6817fc8715e33bc1c631154b5d.html 417KB
3891570720e771c847e5ac23e28aa6cc.html 106KB
c6b7e4c627243167faa5495e3aa583ec.html 5KB
da78a112d1275115651d236d9c42ee97.html 302B
f82b75ac411ea1f58e2ed8f6fc0b82c3.html 247B
e0b5fdbe393b18e9d9f30feb89c3e695.html 10B
417d9e708c95da24b75705338598087f.html 10B
fd5056ed555d77b134e33c2ca7e50c0e.html; charset=gb2312 395KB
b49950b51a7090372fa275d86a0bbae6.html; charset=gb2312 240KB
dce581b36d215edeae8f9fdc9c07529e.html; charset=gb2312 117KB
7780c2d0134fad8b7a05a95d0f7b3378.html; charset=gb2312 101KB
a6275663cfbb6142241df064c6f249f9.html; charset=gb2312 74KB
e9919aa1644ed6c90b06e6cf15e9ce8e.html; charset=gb2312 73KB
6ba086f85f3602a364dae60f740138c5.html; charset=gb2312 73KB
a776c9fb2eafab1f75def2a07a40c6ff.html; charset=gb2312 63KB
24eebf7019dc355f064372d6a889c60a.html; charset=gb2312 62KB
e2ab7c468bc700b7b381b1311e84dbf7.html; charset=gb2312 60KB
d646baff77dd8a709ef5b83ab084dfa1.html; charset=gb2312 59KB
857c3c382495ba1593a316498236e4f8.html; charset=gb2312 58KB
956119ce46fe84d5c1e240ef7d417bdb.html; charset=gb2312 55KB
27439efce81b9ca84182d54aa411418e.html; charset=gb2312 53KB
baaba63486a5eaa09b34f56b5ffbfe99.html; charset=gb2312 47KB
a490c2a29b5986e5cd4e114a0b50d394.html; charset=gb2312 47KB
bbcff706ddc752ee730069aa036a390b.html; charset=gb2312 46KB
44b19dec343bee7540d2e563399518f6.html; charset=gb2312 46KB
e030fe253f6880680bdd7dec04fbf67d.html; charset=gb2312 46KB
a2418875c3955a694b18cf795764164a.html; charset=gb2312 46KB
5f194c03340af2c82af0806b4cd95f44.html; charset=gb2312 46KB
e9f8ab2ef6b78283a0331b975474b969.html; charset=gb2312 46KB
203557adfb69f0b4da4e237df2c0899a.html; charset=gb2312 164B
73e9259e079ac68519bd2cf67af06c13.html; charset=utf-8 92KB
0718ad68487fa12de0cc75b20f7be03c.html; charset=utf-8 72KB
e1b0f26b9a2eb96cbcfbe8c6d88d0344.html; charset=utf-8 64KB
082e9d970f371da4f6e74dbe2c97f6e2.html; charset=utf-8 48KB
54cd270476c08dc49137cc587d5420e7.html; charset=utf-8 47KB
8d52d7ccdc272a6bcaf36ae22d856dfc.html; charset=utf-8 47KB
9d71e4ab781e1b9bf3eccf2a47568d6e.html; charset=utf-8 46KB
ed87a5aafc2dfef72e87fcd107f89757.html; charset=utf-8 45KB
2a2f02ca86459cde185fc8e8e9045bed.html; charset=utf-8 36KB
46e1c646c9965ce2581be0e2baa182cf.html; charset=utf-8 22KB
d37c07e10a22a9698fe474154fecaef1.html; charset=utf-8 20KB
1df7133090a0d07c5cec8fccbf6fd8dd.html; charset=utf-8 15KB
23e5f50b0b42662c6694e574e74835cd.html; charset=utf-8 14KB
7a6721fd05029de13a9df0e2a0948f25.html; charset=UTF-8 205B
config.ini 162B
config.ini 109B
6a78a05748d064e4491b674a391174c7.javascript 39KB
9339d79eed585c1e0b126588c50477a8.javascript 32KB
4cef95f512517e118d0427cdf40d8d91.javascript 11KB
48bfe5c4818bc6d7d0a86b7c5d5a963a.javascript 5KB
1695505243ceaa9c68e5a00061d1763f.javascript 4KB
NWebCrawlerLib_1_5_2010.log 660B
NWebCrawlerLib.pdb 60KB
NWebCrawlerLib.pdb 60KB
NWebCrawler.pdb 50KB
NWebCrawler.pdb 50KB
NWebCrawler.MainForm.resources 23KB
共 120 条
- 1
- 2
资源评论
zhangcanliangv
- 粉丝: 0
- 资源: 12
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功