# Crawler
各类爬虫代码
###### 欢迎关注公众号,开启和我的交流
![weix](https://www.cnblogs.com/images/cnblogs_com/LexMoon/1391533/o_qrcode_for_gh_f3457f4f73a1_258.jpg)
## [模拟登录类](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95)
## [数据爬取类](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90)
#### 关于爬虫代码讲解可以参考[我的博客](http://www.cnblogs.com/LexMoon/),代码编写时间均在2017年下半年,爬虫相应网站可能会有所更新,所以爬虫会出现些问题,如果发现了问题可以联系我,我会抽空重新写一下,当然也欢迎有人帮我改改代码Bug。
## 模拟登陆
### [henu青苹果教务系统模拟登录](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95/%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95)
### [人人网模拟登录](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95/%E4%BA%BA%E4%BA%BA%E7%BD%91%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95)
### [知乎模拟登录](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95/%E7%9F%A5%E4%B9%8E%E6%A8%A1%E6%8B%9F%E7%99%BB%E5%BD%95)
## 数据爬取
### [BiliBili弹幕爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/BiliBili%E5%BC%B9%E5%B9%95%E7%88%AC%E5%8F%96)
### [计算机书籍控资源书籍爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/Book)
### [HttpClient使用](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/HttpClient)
### [HttpURLConnect](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/HttpURLConnect)
### [唯品会商品爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/vip)
### [豆瓣图书爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E8%B1%86%E7%93%A3%E5%9B%BE%E4%B9%A6%E6%B7%B1%E5%BA%A6%E7%88%AC%E5%8F%96)
### [多玩图库爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E5%A4%9A%E7%8E%A9%E5%9B%BE%E5%BA%93%E7%88%AC%E5%8F%96)
### [宽度网络爬虫模板](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E5%AE%BD%E5%BA%A6%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB)
### [天涯论坛文章爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E7%88%AC%E5%8F%96%E8%AE%BA%E5%9D%9B%E6%96%87%E7%AB%A0)
### [网易云热评爬取](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E7%BD%91%E6%98%93%E4%BA%91%E7%83%AD%E8%AF%84%E7%88%AC%E5%8F%96)
### [有道翻译](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E6%9C%89%E9%81%93)
### [知乎问题爬虫](https://github.com/CasterWx/java-Crawler/tree/master/src/%E7%88%AC%E8%99%AB/%E6%95%B0%E6%8D%AE%E8%A7%A3%E6%9E%90/%E7%9F%A5%E4%B9%8E%E9%97%AE%E9%A2%98%E7%88%AC%E5%8F%96)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
Java 各类爬虫代码.zip (106个子文件)
java-Crawler.iml 336B
jna-platform-4.1.0.jar 1.4MB
QRCode.jar 1.05MB
spring-context-4.1.2.RELEASE.jar 1003KB
spring-core-4.1.2.RELEASE.jar 982KB
jna-4.1.0.jar 893KB
spring-webmvc-4.1.2.RELEASE.jar 762KB
httpclient-4.5.2.jar 719KB
spring-web-4.1.2.RELEASE.jar 695KB
spring-beans-4.1.2.RELEASE.jar 690KB
assertj-core-1.5.0.jar 563KB
commons-collections-3.2.1.jar 562KB
jedis-2.9.0.jar 541KB
spring-test-4.1.2.RELEASE.jar 491KB
log4j-1.2.17.jar 478KB
spring-jdbc-4.1.2.RELEASE.jar 417KB
fastjson-1.2.21.jar 406KB
spring-test-4.1.2.RELEASE-sources.jar 384KB
spring-websocket-4.1.2.RELEASE.jar 378KB
spring-orm-4.1.2.RELEASE.jar 367KB
spring-aop-4.1.2.RELEASE.jar 351KB
httpcore-4.4.4.jar 319KB
commons-lang3-3.1.jar 308KB
jsoup-1.8.3.jar 308KB
spring-messaging-4.1.2.RELEASE.jar 281KB
commons-lang-2.6.jar 278KB
spring-jms-4.1.2.RELEASE.jar 263KB
commons-codec-1.9.jar 258KB
spring-expression-4.1.2.RELEASE.jar 253KB
commons-lang-2.3.jar 240KB
junit-4.11.jar 239KB
gson-2.7.jar 227KB
commons-beanutils-1.7.0.jar 184KB
spring-context-support-4.1.2.RELEASE.jar 174KB
spring-webmvc-portlet-4.1.2.RELEASE.jar 173KB
json-lib-2.2.3-jdk15.jar 145KB
javax.persistence.jar 127KB
commons-pool2-2.4.2.jar 109KB
webmagic-extension-0.6.1-SNAPSHOT.jar 97KB
webmagic-core-0.6.1-SNAPSHOT.jar 94KB
commons-io-1.3.2.jar 86KB
spring-oxm-4.1.2.RELEASE.jar 80KB
javax.servlet.jsp.jar 77KB
ezmorph-1.0.3.jar 76KB
javax.servlet.jar 68KB
json-path-0.8.1.jar 65KB
commons-logging-1.2.jar 60KB
commons-logging-1.1.1.jar 59KB
spring-aspects-4.1.2.RELEASE.jar 55KB
xsoup-0.3.1.jar 55KB
json-smart-1.1.1.jar 50KB
javax.ejb.jar 46KB
hamcrest-core-1.3.jar 44KB
javax.resource.jar 43KB
httpmime-4.5.jar 40KB
fluent-hc-4.5.jar 31KB
slf4j-api-1.7.6.jar 28KB
javax.servlet.jsp.jstl.jar 27KB
httpmime-4.2.5.jar 26KB
javax.jms.jar 25KB
spring-instrument-tomcat-4.1.2.RELEASE.jar 10KB
javax.transaction.jar 9KB
slf4j-log4j12-1.7.6.jar 9KB
javax.annotation.jar 8KB
spring-instrument-4.1.2.RELEASE.jar 7KB
Henu.java 8KB
Demo.java 5KB
HtmlUrlParserTool.java 5KB
Demo.java 4KB
MyClawer.java 4KB
GetBook.java 4KB
Demo.java 4KB
Renren.java 3KB
You.java 3KB
Demo.java 3KB
getBiliBiliBofqi.java 3KB
HtmlURLParserTool.java 3KB
IO_StreamDemo.java 3KB
HtmlUrlParserTool.java 3KB
MyClawer.java 3KB
MyClawler.java 2KB
LinkQueue.java 1KB
GetProblem.java 1KB
LinkQueue.java 1KB
LinkQueue.java 1KB
GetUrl.java 1KB
DownLoadFile.java 1KB
LinkQueue.java 1KB
DownLoadFile.java 1KB
MyClawler.java 1KB
MD5.java 983B
GetUrl.java 854B
IPQueue.java 845B
My.java 822B
Queue.java 634B
Queue.java 628B
Queue.java 570B
Queue.java 555B
getDome.java 500B
SiteConfig.java 465B
共 106 条
- 1
- 2
资源评论
JJJ69
- 粉丝: 6132
- 资源: 5674
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功