下载 >  开发技术 >  Java > 网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版
4

网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版

网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版
2017-11-03 上传大小:48B
分享
收藏 (1) 举报

评论 共2条

zhangxings 还行吧,再看看其他的
2018-03-01
回复
sddlyy1 还可以哦~~
2017-11-23
回复
网络爬虫解析 技术原理实践.pdf 高清 完整 带书签 Java 002

因为附件大小限制,将PDF用7z压缩成两个文件,一个200M,一个180多,解压后440M。这是第二个,第一个资源名就是后面002变为001 第1章 技术基础 1 1.1 第一个程序 1 1.2 准备开发环境 2 1.2.1 JDK 2 1.2.2 Eclipse 3 1.3 类和对象 4 1.4 常量 5 1.5 命名规范 6 1.6 基本语法 6 1.7 条件判断 7 1.8 循环 8 1.9 数组 9 1.10 位运算 11 1.11 枚举类型 13 1.12 比较器 14 1.13 方法 14 1.14 集合类 15 1.14.1 动态数组 15 1.14.2 散列表 15 1.15 文件 19 1.15.1 文本文件 19 1.15.2 二进制文件 23 1.16 多线程 27 1.16.1 基本的多线程 28 1.16.2 线程池 30 1.17 折半查找 31 1.18 处理图片 34 1.19 本章小结 35 第2章 网络爬虫入门 36 2.1 获取信息 36 2.1.1 提取链接 37 2.1.2 采集新闻 37 2.2 各种网络爬虫 38 2.2.1 信息采集器 40 2.2.2 广度优先遍历 41 2.2.3 分布式爬虫 42 2.3 爬虫相关协议 43 2.3.1 网站地图 44 2.3.2 Robots协议 45 2.4 爬虫架构 48 2.4.1 基本架构 48 2.4.2 分布式爬虫架构 51 2.4.3 垂直爬虫架构 54 2.5 自己写网络爬虫 55 2.6 URL地址查新 57 2.6.1 嵌入式数据库 58 2.6.2 布隆过滤器 60 2.6.3 实现布隆过滤器 61 2.7 部署爬虫 63 2.7.1 部署到Windows 64 2.7.2 部署到Linux 64 2.8 本章小结 65 第3章 定向采集 69 3.1 下载网页的基本方法 69 3.1.1 网卡 70 3.1.2 下载网页 70 3.2 HTTP基础 75 3.2.1 协议 75 3.2.2 URI 77 3.2.3 DNS 84 3.3 使用HttpClient下载网页 84 3.3.1 HttpCore 94 3.3.2 状态码 98 3.3.3 创建 99 3.3.4 模拟浏览器 99 3.3.5 重试 100 3.3.6 抓取压缩的网页 102 3.3.7 HttpContext 104 3.3.8 下载中文网站 105 3.3.9 抓取需要登录的网页 106 3.3.10 代理 111 3.3.11 DNS缓存 112 3.3.12 并行下载 113 3.4 下载网络资源 115 3.4.1 重定向 115 3.4.2 解决套接字连接限制 118 3.4.3 下载图片 119 3.4.4 抓取视频 122 3.4.5 抓取FTP 122 3.4.6 网页更新 122 3.4.7 抓取限制应对方法 126 3.4.8 URL地址提取 131 3.4.9 解析URL地址 134 3.4.10 归一化 135 3.4.11 增量采集 135 3.4.12 iframe 136 3.4.13 抓取JavaScript动态页面 137 3.4.14 抓取即时信息 141 3.4.15 抓取暗网 141 3.5 PhantomJS 144 3.6 Selenium 145 3.7 信息过滤 146 3.7.1 匹配算法 147 3.7.2 分布式过滤 153 3.8 采集新闻 153 3.8.1 网页过滤器 154 3.8.2 列表页 159 3.8.3 用机器学习的方法抓取新闻 160 3.8.4 自动查找目录页 161 3.8.5 详细页 162 3.8.6 增量采集 164 3.8.7 处理图片 164 3.9 遍历信息 164 3.10 并行抓取 165 3.10.1 多线程爬虫 165 3.10.2 垂直搜索的多线程爬虫 168 3.10.3 异步IO 172 3.11 分布式爬虫 176 3.11.1 JGroups 176 3.11.2 监控 179 3.12 增量抓取 180 3.13 管理界面 180 3.14 本章小结 181 第4章 数据存储 182 4.1 存储提取内容 182 4.1.1 SQLite 183 4.1.2 Access数据库 185 4.1.3 MySQL 186 4.1.4 写入维基 187 4.2 HBase 187 4.3 Web图 189 4.4 本章小结 193 第5章 信息提取 194 5.1 从文本提取信息 194 5.2 从HTML文件中提取文本 195 5.2.1 字符集编码 195 5.2.2 识别网页的编码 198 5.2.3 网页编码转换为字符串编码 201 5.2.4 使用正则表达式提取数据 202 5.2.5 结构化信息提取 206 5.2.6 表格 209 5.2.7 网页的DOM结构 210 5.2.8 使用Jsoup提取信息 211 5.2.9 使用XPath提取信息 217 5.2.10 HTMLUnit提取数据 219 5.2.11 网页结构相似度计算 220 5.2.12 提取标题 222 5.2.13 提取日期 224 5.2.14 提取模板 225 5.2.15 提取RDF信息 227 5.2.16 网页解析器原理 227 5.3 RSS 229 5.3.1 Jsoup解析RSS 230 5.3.2 ROME 231 5.3.3 抓取流程 231 5.4 网页去噪 233 5.4.1 NekoHTML 234 5.4.2 Jsoup 238 5.4.3 提取正文 240 5.5 从非HTML文件中提取文本 241 5.5.1 PDF文件 242 5.5.2 Word文件 245 5.5.3 Rtf文件 247 5.5.4 Excel文件 253 5.5.5 PowerPoint文件 254 5.6 提取标题 254 5.6.1 提取标题的一般方法 255 5.6.2 从PDF文件中提取标题 259 5.6.3 从Word文件中提取标题 261 5.6.4 从Rtf文件中提取标题 261 5.6.5 从Excel文件中提取标题 267 5.6.6 从PowerPoint文件中提取标题 270 5.7 图像的OCR识别 270 5.7.1 读入图像 271 5.7.2 准备训练集 272 5.7.3 图像二值化 274 5.7.4 切分图像 279 5.7.5 SVM分类 283 5.7.6 识别汉字 287 5.7.7 训练OCR 289 5.7.8 检测行 290 5.7.9 识别验证码 291 5.7.10 JavaOCR 292 5.8 提取地域信息 292 5.8.1 IP地址 293 5.8.2 手机 315 5.9 提取新闻 316 5.10 流媒体内容提取 317 5.10.1 音频流内容提取 317 5.10.2 视频流内容提取 321 5.11 内容纠错 322 5.11.1 模糊匹配问题 325 5.11.2 英文拼写检查 331 5.11.3 中文拼写检查 333 5.12 术语 336 5.13 本章小结 336 第6章 Crawler4j 338 6.1 使用Crawler4j 338 6.1.1 大众点评 339 6.1.2 日志 342 6.2 crawler4j原理 342 6.2.1 代码分析 343 6.2.2 使用Berkeley DB 344 6.2.3 缩短URL地址 347 6.2.4 网页编码 349 6.2.5 并发 349 6.3 本章小结 352 第7章 网页排重 353 7.1 语义指纹 354 7.2 SimHash 357 7.3 分布式文档排重 367 7.4 本章小结 369 第8章 网页分类 370 8.1 关键词加权法 371 8.2 机器学习的分类方法 378 8.2.1 特征提取 380 8.2.2 朴素贝叶斯 384 8.2.3 支持向量机 393 8.2.4 多级分类 401 8.2.5 网页分类 403 8.3 本章小结 403 第9章 案例分析 404 9.1 金融爬虫 404 9.1.1 中国能源政策数据 404 9.1.2 世界原油现货交易和期货交易数据 405 9.1.3 股票数据 405 9.1.4 从PDF文件中提取表格 408 9.2 商品搜索 408 9.2.1 遍历商品 410 9.2.2 使用HttpClient 415 9.2.3 提取价格 416 9.2.4 水印 419 9.2.5 数据导入ECShop 420 9.2.6 采集淘宝 423 9.3 自动化行业采集 424 9.4 社会化信息采集 424 9.5 微博爬虫 424 9.6 微信爬虫 426 9.7 海关数据 426 9.8 医药数据 427 9.9 本章小结 429 后记 430

立即下载
网络爬虫解析 技术原理实践.pdf

网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web 网络爬虫 技术 原理 实践 web

立即下载
网络爬虫解析

《网络爬虫全解析——技术、原理与实践》介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,《网络爬虫全解析——技术、原理与实践》介绍了实现分布式网络爬虫的关键技术。, 另外,《网络爬虫全解析——技术、原理与实践》介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。, 《网络爬虫全解析——技术、原理与实践》适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。

立即下载
网络爬虫解析 技术原理实践 高清完整版

网络爬虫全解析 技术、原理与实践 高清完整版,新书!

立即下载
网络爬虫解析 技术原理实践.pdf 高清 完整 带书签 Java 001

因为附件大小限制,将PDF用7z压缩成两个文件,一个200M,一个180多,解压后440M。这是第一个,第二个资源名就是后面001变为002 第1章 技术基础 1 1.1 第一个程序 1 1.2 准备开发环境 2 1.2.1 JDK 2 1.2.2 Eclipse 3 1.3 类和对象 4 1.4 常量 5 1.5 命名规范 6 1.6 基本语法 6 1.7 条件判断 7 1.8 循环 8 1.9 数组 9 1.10 位运算 11 1.11 枚举类型 13 1.12 比较器 14 1.13 方法 14 1.14 集合类 15 1.14.1 动态数组 15 1.14.2 散列表 15 1.15 文件 19 1.15.1 文本文件 19 1.15.2 二进制文件 23 1.16 多线程 27 1.16.1 基本的多线程 28 1.16.2 线程池 30 1.17 折半查找 31 1.18 处理图片 34 1.19 本章小结 35 第2章 网络爬虫入门 36 2.1 获取信息 36 2.1.1 提取链接 37 2.1.2 采集新闻 37 2.2 各种网络爬虫 38 2.2.1 信息采集器 40 2.2.2 广度优先遍历 41 2.2.3 分布式爬虫 42 2.3 爬虫相关协议 43 2.3.1 网站地图 44 2.3.2 Robots协议 45 2.4 爬虫架构 48 2.4.1 基本架构 48 2.4.2 分布式爬虫架构 51 2.4.3 垂直爬虫架构 54 2.5 自己写网络爬虫 55 2.6 URL地址查新 57 2.6.1 嵌入式数据库 58 2.6.2 布隆过滤器 60 2.6.3 实现布隆过滤器 61 2.7 部署爬虫 63 2.7.1 部署到Windows 64 2.7.2 部署到Linux 64 2.8 本章小结 65 第3章 定向采集 69 3.1 下载网页的基本方法 69 3.1.1 网卡 70 3.1.2 下载网页 70 3.2 HTTP基础 75 3.2.1 协议 75 3.2.2 URI 77 3.2.3 DNS 84 3.3 使用HttpClient下载网页 84 3.3.1 HttpCore 94 3.3.2 状态码 98 3.3.3 创建 99 3.3.4 模拟浏览器 99 3.3.5 重试 100 3.3.6 抓取压缩的网页 102 3.3.7 HttpContext 104 3.3.8 下载中文网站 105 3.3.9 抓取需要登录的网页 106 3.3.10 代理 111 3.3.11 DNS缓存 112 3.3.12 并行下载 113 3.4 下载网络资源 115 3.4.1 重定向 115 3.4.2 解决套接字连接限制 118 3.4.3 下载图片 119 3.4.4 抓取视频 122 3.4.5 抓取FTP 122 3.4.6 网页更新 122 3.4.7 抓取限制应对方法 126 3.4.8 URL地址提取 131 3.4.9 解析URL地址 134 3.4.10 归一化 135 3.4.11 增量采集 135 3.4.12 iframe 136 3.4.13 抓取JavaScript动态页面 137 3.4.14 抓取即时信息 141 3.4.15 抓取暗网 141 3.5 PhantomJS 144 3.6 Selenium 145 3.7 信息过滤 146 3.7.1 匹配算法 147 3.7.2 分布式过滤 153 3.8 采集新闻 153 3.8.1 网页过滤器 154 3.8.2 列表页 159 3.8.3 用机器学习的方法抓取新闻 160 3.8.4 自动查找目录页 161 3.8.5 详细页 162 3.8.6 增量采集 164 3.8.7 处理图片 164 3.9 遍历信息 164 3.10 并行抓取 165 3.10.1 多线程爬虫 165 3.10.2 垂直搜索的多线程爬虫 168 3.10.3 异步IO 172 3.11 分布式爬虫 176 3.11.1 JGroups 176 3.11.2 监控 179 3.12 增量抓取 180 3.13 管理界面 180 3.14 本章小结 181 第4章 数据存储 182 4.1 存储提取内容 182 4.1.1 SQLite 183 4.1.2 Access数据库 185 4.1.3 MySQL 186 4.1.4 写入维基 187 4.2 HBase 187 4.3 Web图 189 4.4 本章小结 193 第5章 信息提取 194 5.1 从文本提取信息 194 5.2 从HTML文件中提取文本 195 5.2.1 字符集编码 195 5.2.2 识别网页的编码 198 5.2.3 网页编码转换为字符串编码 201 5.2.4 使用正则表达式提取数据 202 5.2.5 结构化信息提取 206 5.2.6 表格 209 5.2.7 网页的DOM结构 210 5.2.8 使用Jsoup提取信息 211 5.2.9 使用XPath提取信息 217 5.2.10 HTMLUnit提取数据 219 5.2.11 网页结构相似度计算 220 5.2.12 提取标题 222 5.2.13 提取日期 224 5.2.14 提取模板 225 5.2.15 提取RDF信息 227 5.2.16 网页解析器原理 227 5.3 RSS 229 5.3.1 Jsoup解析RSS 230 5.3.2 ROME 231 5.3.3 抓取流程 231 5.4 网页去噪 233 5.4.1 NekoHTML 234 5.4.2 Jsoup 238 5.4.3 提取正文 240 5.5 从非HTML文件中提取文本 241 5.5.1 PDF文件 242 5.5.2 Word文件 245 5.5.3 Rtf文件 247 5.5.4 Excel文件 253 5.5.5 PowerPoint文件 254 5.6 提取标题 254 5.6.1 提取标题的一般方法 255 5.6.2 从PDF文件中提取标题 259 5.6.3 从Word文件中提取标题 261 5.6.4 从Rtf文件中提取标题 261 5.6.5 从Excel文件中提取标题 267 5.6.6 从PowerPoint文件中提取标题 270 5.7 图像的OCR识别 270 5.7.1 读入图像 271 5.7.2 准备训练集 272 5.7.3 图像二值化 274 5.7.4 切分图像 279 5.7.5 SVM分类 283 5.7.6 识别汉字 287 5.7.7 训练OCR 289 5.7.8 检测行 290 5.7.9 识别验证码 291 5.7.10 JavaOCR 292 5.8 提取地域信息 292 5.8.1 IP地址 293 5.8.2 手机 315 5.9 提取新闻 316 5.10 流媒体内容提取 317 5.10.1 音频流内容提取 317 5.10.2 视频流内容提取 321 5.11 内容纠错 322 5.11.1 模糊匹配问题 325 5.11.2 英文拼写检查 331 5.11.3 中文拼写检查 333 5.12 术语 336 5.13 本章小结 336 第6章 Crawler4j 338 6.1 使用Crawler4j 338 6.1.1 大众点评 339 6.1.2 日志 342 6.2 crawler4j原理 342 6.2.1 代码分析 343 6.2.2 使用Berkeley DB 344 6.2.3 缩短URL地址 347 6.2.4 网页编码 349 6.2.5 并发 349 6.3 本章小结 352 第7章 网页排重 353 7.1 语义指纹 354 7.2 SimHash 357 7.3 分布式文档排重 367 7.4 本章小结 369 第8章 网页分类 370 8.1 关键词加权法 371 8.2 机器学习的分类方法 378 8.2.1 特征提取 380 8.2.2 朴素贝叶斯 384 8.2.3 支持向量机 393 8.2.4 多级分类 401 8.2.5 网页分类 403 8.3 本章小结 403 第9章 案例分析 404 9.1 金融爬虫 404 9.1.1 中国能源政策数据 404 9.1.2 世界原油现货交易和期货交易数据 405 9.1.3 股票数据 405 9.1.4 从PDF文件中提取表格 408 9.2 商品搜索 408 9.2.1 遍历商品 410 9.2.2 使用HttpClient 415 9.2.3 提取价格 416 9.2.4 水印 419 9.2.5 数据导入ECShop 420 9.2.6 采集淘宝 423 9.3 自动化行业采集 424 9.4 社会化信息采集 424 9.5 微博爬虫 424 9.6 微信爬虫 426 9.7 海关数据 426 9.8 医药数据 427 9.9 本章小结 429 后记 430

立即下载
网络爬虫解析技术原理实践.201703

网络爬虫全解析:技术、原理与实践.201703,2017年新书,值得推荐!

立即下载
网络爬虫解析 技术 原理实践-高清版-2017年3月

网络爬虫全解析 技术 原理与实践-高清版-2017年3月,分享给所有需要的人

立即下载
网络爬虫解析——技术原理实践》(罗刚 著)

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。

立即下载
网络分析技术揭秘:原理实践与WinPcap深入解析 高清版

网络分析技术揭秘:原理、实践与WinPcap深入解析 基本信息 作者: 吕雪峰 彭文波 宋泽宇 出版社:机械工业出版社 ISBN:9787111380382 上架时间:2012-7-2 出版日期:2012 年7月 开本:16开 页码:447 版次:1-1 编辑推荐   以WinPcap的源码分析为依托,深刻阐释网络分析技术的方法、原理和最佳实践 通过大量实例演示数据包的捕获、过滤、发送、接收与流量统计,对WinPcap进行深入解析 内容简介 书籍 计算机书籍 《网络分析技术揭秘原理、实践与WinPcap深入解析》结合著名的开源软件库WinPcap来说明网络分析技术的实现原理及使用方法。其中包括网络分析工具的内核驱动,编译与使用WinPcap,数据包的捕获、发送、内核过滤、接收,以及网络流量的统计与网络状态的分析等重要内容,而且作者还通过修改内核级的源代码解决了开源代码本身尚未完成的一个重要功能——数据包的内核转储。经过作者系统深入地分析,读者既能对WinPcap的架构、使用与实现机制有深入的理解,还能快速熟悉操作系统内核与用户层交互的实现机制,全面了解网络分析专业各方面的技术,并且能将相关知识运用到实际项目中。 如果你的工作与网络软件相关,无论是开发人员还是测试人员,我们都强烈建议你阅读本书。 在网络环境日趋复杂的今天,网络分析技术越发显得重要,本书通过对WinPcap源码的分析来帮助大家理解网络分析技术。书中涵盖了网络协议、Windows内核驱动与网络协议驱动、网络分析、用户应用软件等诸多知识。为了降低理解的难度,文中还设计了众多实例,每讲到一个知识要点,基本都是从实例开始讲解的,只在必要的时候才插入必需的理论说明,以帮助读者理解。如果你想要了解网络分析技术,如果你的工作与网络软件相关,那么本书将会是你必选的参考书。 WinPcap是一款优秀的网络分析工具库。可用来统计网络流量,并对数据包进行捕获、过滤、发送、接收等操作。本书基于WinPcap源码来进行分析,相信既可以帮助你掌握网络分析技术,又可以使你掌握它的使用技巧。 作译者 吕雪峰,华中科技大学控制工程与控制理论专业硕士,资深软件工程师,国船电气(武汉)有限公司软件技术总监。是目前国内对WinPcap进行彻底分析研究的先驱,活跃于51CTO、ChinaUnix、CSDN等社区。对WinPcap与网络分析具有深入的理解,在《计算机应用》等学术期刊上发表核心论文多篇。尤精于嵌入式Linux。 彭文波,从事互联网产品工作,曾在省级电子商务认证中心从事安全开发工作,曾就职于多家专业网管软件公司,先后参与了电子商务认证系统、移动网络管理系统等产品的开发。 宋泽宇,七二二研究所数字通信专业硕士,高级工程师,国船电气(武汉)有限公司副总经理,曾参与多个大型项目的研制工作。

立即下载
2017年老男孩最新全栈python第2期 2017最新Python3.6网络爬虫实战案例(基础+实战+框架+分布式)

2017年老男孩最新全栈python第2期视频教程 全套完整版(92天) 2017最新Python3.6网络爬虫实战案例(基础+实战+框架+分布式)全套视频教程 附源码

立即下载
自己动手写网络爬虫.罗刚_王振东.扫描版

自己动手写网络爬虫.罗刚_王振东.扫描版

立即下载
网络爬虫解析技术原理实践.罗刚(带详细书签).pdf 138 MB 高质量压缩版

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。 第1章 技术基础 1 1.1 第一个程序 1 1.2 准备开发环境 2 1.2.1 JDK 2 1.2.2 Eclipse 3 1.3 类和对象 4 1.4 常量 5 1.5 命名规范 6 1.6 基本语法 6 1.7 条件判断 7 1.8 循环 8 1.9 数组 9 1.10 位运算 11 1.11 枚举类型 13 1.12 比较器 14 1.13 方法 14 1.14 集合类 15 1.14.1 动态数组 15 1.14.2 散列表 15 1.15 文件 19 1.15.1 文本文件 19 1.15.2 二进制文件 23 1.16 多线程 27 1.16.1 基本的多线程 28 1.16.2 线程池 30 1.17 折半查找 31 1.18 处理图片 34 1.19 本章小结 35 第2章 网络爬虫入门 36 2.1 获取信息 36 2.1.1 提取链接 37 2.1.2 采集新闻 37 2.2 各种网络爬虫 38 2.2.1 信息采集器 40 2.2.2 广度优先遍历 41 2.2.3 分布式爬虫 42 2.3 爬虫相关协议 43 2.3.1 网站地图 44 2.3.2 Robots协议 45 2.4 爬虫架构 48 2.4.1 基本架构 48 2.4.2 分布式爬虫架构 51 2.4.3 垂直爬虫架构 54 2.5 自己写网络爬虫 55 2.6 URL地址查新 57 2.6.1 嵌入式数据库 58 2.6.2 布隆过滤器 60 2.6.3 实现布隆过滤器 61 2.7 部署爬虫 63 2.7.1 部署到Windows 64 2.7.2 部署到Linux 64 2.8 本章小结 65 第3章 定向采集 69 3.1 下载网页的基本方法 69 3.1.1 网卡 70 3.1.2 下载网页 70 3.2 HTTP基础 75 3.2.1 协议 75 3.2.2 URI 77 3.2.3 DNS 84 3.3 使用HttpClient下载网页 84 3.3.1 HttpCore 94 3.3.2 状态码 98 3.3.3 创建 99 3.3.4 模拟浏览器 99 3.3.5 重试 100 3.3.6 抓取压缩的网页 102 3.3.7 HttpContext 104 3.3.8 下载中文网站 105 3.3.9 抓取需要登录的网页 106 3.3.10 代理 111 3.3.11 DNS缓存 112 3.3.12 并行下载 113 3.4 下载网络资源 115 3.4.1 重定向 115 3.4.2 解决套接字连接限制 118 3.4.3 下载图片 119 3.4.4 抓取视频 122 3.4.5 抓取FTP 122 3.4.6 网页更新 122 3.4.7 抓取限制应对方法 126 3.4.8 URL地址提取 131 3.4.9 解析URL地址 134 3.4.10 归一化 135 3.4.11 增量采集 135 3.4.12 iframe 136 3.4.13 抓取JavaScript动态页面 137 3.4.14 抓取即时信息 141 3.4.15 抓取暗网 141 3.5 PhantomJS 144 3.6 Selenium 145 3.7 信息过滤 146 3.7.1 匹配算法 147 3.7.2 分布式过滤 153 3.8 采集新闻 153 3.8.1 网页过滤器 154 3.8.2 列表页 159 3.8.3 用机器学习的方法抓取新闻 160 3.8.4 自动查找目录页 161 3.8.5 详细页 162 3.8.6 增量采集 164 3.8.7 处理图片 164 3.9 遍历信息 164 3.10 并行抓取 165 3.10.1 多线程爬虫 165 3.10.2 垂直搜索的多线程爬虫 168 3.10.3 异步IO 172 3.11 分布式爬虫 176 3.11.1 JGroups 176 3.11.2 监控 179 3.12 增量抓取 180 3.13 管理界面 180 3.14 本章小结 181 第4章 数据存储 182 4.1 存储提取内容 182 4.1.1 SQLite 183 4.1.2 Access数据库 185 4.1.3 MySQL 186 4.1.4 写入维基 187 4.2 HBase 187 4.3 Web图 189 4.4 本章小结 193 第5章 信息提取 194 5.1 从文本提取信息 194 5.2 从HTML文件中提取文本 195 5.2.1 字符集编码 195 5.2.2 识别网页的编码 198 5.2.3 网页编码转换为字符串编码 201 5.2.4 使用正则表达式提取数据 202 5.2.5 结构化信息提取 206 5.2.6 表格 209 5.2.7 网页的DOM结构 210 5.2.8 使用Jsoup提取信息 211 5.2.9 使用XPath提取信息 217 5.2.10 HTMLUnit提取数据 219 5.2.11 网页结构相似度计算 220 5.2.12 提取标题 222 5.2.13 提取日期 224 5.2.14 提取模板 225 5.2.15 提取RDF信息 227 5.2.16 网页解析器原理 227 5.3 RSS 229 5.3.1 Jsoup解析RSS 230 5.3.2 ROME 231 5.3.3 抓取流程 231 5.4 网页去噪 233 5.4.1 NekoHTML 234 5.4.2 Jsoup 238 5.4.3 提取正文 240 5.5 从非HTML文件中提取文本 241 5.5.1 PDF文件 242 5.5.2 Word文件 245 5.5.3 Rtf文件 247 5.5.4 Excel文件 253 5.5.5 PowerPoint文件 254 5.6 提取标题 254 5.6.1 提取标题的一般方法 255 5.6.2 从PDF文件中提取标题 259 5.6.3 从Word文件中提取标题 261 5.6.4 从Rtf文件中提取标题 261 5.6.5 从Excel文件中提取标题 267 5.6.6 从PowerPoint文件中提取标题 270 5.7 图像的OCR识别 270 5.7.1 读入图像 271 5.7.2 准备训练集 272 5.7.3 图像二值化 274 5.7.4 切分图像 279 5.7.5 SVM分类 283 5.7.6 识别汉字 287 5.7.7 训练OCR 289 5.7.8 检测行 290 5.7.9 识别验证码 291 5.7.10 JavaOCR 292 5.8 提取地域信息 292 5.8.1 IP地址 293 5.8.2 手机 315 5.9 提取新闻 316 5.10 流媒体内容提取 317 5.10.1 音频流内容提取 317 5.10.2 视频流内容提取 321 5.11 内容纠错 322 5.11.1 模糊匹配问题 325 5.11.2 英文拼写检查 331 5.11.3 中文拼写检查 333 5.12 术语 336 5.13 本章小结 336 第6章 Crawler4j 338 6.1 使用Crawler4j 338 6.1.1 大众点评 339 6.1.2 日志 342 6.2 crawler4j原理 342 6.2.1 代码分析 343 6.2.2 使用BerkeleyDB 344 6.2.3 缩短URL地址 347 6.2.4 网页编码 349 6.2.5 并发 349 6.3 本章小结 352 第7章 网页排重 353 7.1 语义指纹 354 7.2 SimHash 357 7.3 分布式文档排重 367 7.4 本章小结 369 第8章 网页分类 370 8.1 关键词加权法 371 8.2 机器学习的分类方法 378 8.2.1 特征提取 380 8.2.2 朴素贝叶斯 384 8.2.3 支持向量机 393 8.2.4 多级分类 401 8.2.5 网页分类 403 8.3 本章小结 403 第9章 案例分析 404 9.1 金融爬虫 404 9.1.1 中国能源政策数据 404 9.1.2 世界原油现货交易和期货交易数据 405 9.1.3 股票数据 405 9.1.4 从PDF文件中提取表格 408 9.2 商品搜索 408 9.2.1 遍历商品 410 9.2.2 使用HttpClient 415 9.2.3 提取价格 416 9.2.4 水印 419 9.2.5 数据导入ECShop 420 9.2.6 采集淘宝 423 9.3 自动化行业采集 424 9.4 社会化信息采集 424 9.5 微博爬虫 424 9.6 微信爬虫 426 9.7 海关数据 426 9.8 医药数据 427 9.9 本章小结 429 后记 430

立即下载
大数据 技术与应用实践指南 完整版 pdf

【更多关于《数据结构》资料,加qq群:931257845领取!】 作者:赵刚 著 出版时间:2013年 出版社: 电子工业出版社 页 数 292页 大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。 本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。

立即下载
网络分析技术揭秘 原理实践与WinPcap深入解析

pdf版网络分析技术揭秘 原理、实践与WinPcap深入解析

立即下载
信息安全原理实践-第二版PPT

主要内容 通过聚焦于现实世界中的生动实例,并采用一种面向实践的信息安全讲述方法,这本书围绕如下4个重要主题进行组织并展开: 密码学技术:包括经典密码系统、对称密钥加密技术、公开密钥加密技术、哈希函数、随机数技术、信息隐藏技术以及密码分析技术等。 访问控制:包括身份认证和授权、基于口令的安全、访问控制列表和访问能力列表、多级安全性和分隔项技术、隐藏通道和接口控制、诸如BLP和Biba之类的安全模型、防火墙以及入侵检测系统等。 协议:包括简单身份认证协议、会话密钥、完全正向保密、时间戳技术、SSH协议、SSL协议、IPSec协议、Kerberos协议、WEP协议以及GSM协议等。 软件安全:包括软件缺陷和恶意软件、缓冲区溢出、病毒和蠕虫、恶意软件检测、软件逆向工程、数字版权管理、安全软件开发以及操作系统安全等。

立即下载
《自己动手写网络爬虫》PDF书及源码

《自己动手写网络爬虫》PDF书及源码,罗刚著作,很有实践价值。

立即下载
信息安全原理技术》完整版习题答案.pdf

信息安全原理与技术》完整版习题答案.pdf

立即下载
网络分析技术揭秘原理实践与WinPcap深入解析

网络分析技术揭秘原理、实践与WinPcap深入解析 网络分析技术揭秘原理、实践与WinPcap深入解析

立即下载
深度解析SDN:利益、战略、技术实践 PDF电子书

深度解析SDN:利益、战略、技术、实践 PDF电子书。本书是SDN非常好的一本入门书籍

立即下载
用Python写网络爬虫高清完整PDF版

采集开发

立即下载
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

网络爬虫全解析技术.原理与实践 罗刚 9787121310713 2017版

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: