网络爬虫
该项目的编码是在JAVA中完成的。 该项目从头开始实现 HTTP 协议构建的 HTTP 请求和响应消息,并模拟获取页面所需的浏览器请求。 解析 HTTP 请求,处理 cookie 接收响应消息。 使用 HTTP Post 方法处理身份验证使用 Jsoup 库解析 HTML 页面。
程序摘要方法:
Web Crawler 实现了在 fakebook 的网页上爬行并返回秘密标志 所有五个秘密标志,一旦获得这些标志,爬行就结束。 我使用了链接列表队列,它类似于边界和哈希集,可确保不访问重复的 url。
面临的挑战:
- 模仿来自客户端的HTTP POST请求消息,成功解析到服务器的登录凭据。 - 处理 Cookies:从接收到的响应头中提取 csrf 令牌和 sessionid 值,并在向服务器的新请求消息上解析它们。
-程序的运行时间,最初我的运行时间约为 25 分钟。 我
评论0
最新资源