下载 >  开发技术 >  Web开发 > Web-Harvest学习笔记.doc

Web-Harvest学习笔记.doc

Web-Harvest是Web数据挖掘工具。提供一种方法收集目标网页和挖掘有用的数据。为此,使用XSLT,XQUERY,Regular Exp等技术。 其网址在http://web-harvest.sourceforge.net/。 挖掘数据也称为WebScraping或WebDataMining。每个挖掘过程是用户自定义的,通过执行基于xml的配置文件。 例如: <xpath expression="//a[@shape='rect']/@href"> <html-to-xml> <http url="http://www.somesite.com/"/> </html-to-xml> </xpath> WebHarverst提供一组数据处理和控制流。Processor组合成管道,构成执行链。也提供了variable context。
2009-06-11 上传大小:99KB
分享
收藏 举报
Web-Harvest学习笔记

Web-Harvest学习笔记,主要是异常类的使用,标签的使用,scraper的源码等操作

立即下载
Web-Harvest手册

Web-Harvest手册

立即下载
j2se学习笔记.doc

j2se学习笔记.doc j2se学习笔记.doc j2se学习笔记.doc j2se学习笔记.doc

立即下载
MTK学习笔记.doc

MTK学习笔记.doc MTK学习笔记.doc MTK学习笔记.doc

立即下载
Java学习笔记.doc

Java学习笔记.doc Java学习笔记.doc Java学习笔记.doc

立即下载
SSH学习笔记.doc

SSH学习笔记.doc SSH学习笔记.doc SSH学习笔记.doc

立即下载
JQUERY学习笔记.doc

JQUERY学习笔记.doc JQUERY学习笔记.doc JQUERY学习笔记.doc

立即下载
网络工程师学习笔记.doc网络工程师学习笔记.doc

网络工程师学习笔记.doc网络工程师学习笔记.doc网络工程师学习笔记.doc

立即下载
[Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

[Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

立即下载
Java学习笔记(必看经典)

Java学习笔记(必看经典).doc Java学习笔记(必看经典).doc Java学习笔记(必看经典).doc Java学习笔记(必看经典).doc

立即下载
web-harvest

web harvest的jar包 提供一个xml编辑环境

立即下载
Struts标签学习笔记.doc

Struts标签学习笔记.docStruts标签学习笔记.doc

立即下载
vs2005学习笔记.doc

vs2005学习笔记.doc,vs2005学习笔记.doc

立即下载
Struts2 学习笔记.doc

Struts2 学习笔记.doc,Struts2 学习笔记.doc

立即下载
Oracle学习笔记.doc

Oracle学习笔记.doc Oracle学习笔记.doc

立即下载
R语言学习笔记.doc(全面学习R语言后归纳整理,可提供命令和方法速查)

自己学习R语言编程后归纳整理的笔记,从R的下载、安装、设置、帮助系统的使用到R的数据结构、编程结构、面向对象编程、绘图、文件读写、数学运算等都有涵盖,所有命令都在R-3.2.0下亲测过,针对每个数据结构包括了所有的创建方法和操作方式。该笔记特别适合初步学习了R后记不住命令或者不知道使用什么命令实现自己操作意图的读者,如果您从未学习过R,可能这个笔记不是特别适合您入门,毕竟很多名词未作解释,建议您阅读入门书籍。既然是笔记嘛,你懂的,是用来复习、总结和速查的。

立即下载
QT学习笔记_经验篇.doc

QT学习笔记_经验篇.doc QT学习笔记_经验篇.doc QT学习笔记_经验篇.doc

立即下载
读机器学习(周志华)笔记第一章

此资源为个人读书笔记,把周志华的《机器学习》认真研读,做出重点感想,以供大家参考学习

立即下载
夏玉保整理Ajax学习笔记.doc

夏玉保整理Ajax学习笔记.doc 夏玉保整理Ajax学习笔记.doc夏玉保整理Ajax学习笔记.doc 夏玉保整理Ajax学习笔记.doc

立即下载
大数据学习笔记

第一部分 Spark学习 6 第1章 Spark介绍 7 1.1 Spark简介与发展 7 1.2 Spark特点 7 1.3 Spark与Hadoop集成 7 1.4 Spark组件 8 第2章 Spark弹性分布数据集 9 2.1 弹性分布式数据集 9 2.2 MapReduce数据分享效率低 9 2.3 MapReduce进行迭代操作 9 2.4 MapReduce进行交互操作 10 2.5 Spark RDD数据分享 10 2.6 Spark RDD 迭代操作 10 2.7 Spark RDD交互操作 10 第3章 Spark安装 11 第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2 Spark-submit语法 22 5.3 Spark变量 23 5.4 数字类型 RDD操作 23 第二部分 ZOOKEEPER学习 24 第6章 zookeeper介绍 25 6.1 zookeeper简介 25 6.2 分布式应用程序 25 6.3 Apache Zookeeper意味着什么? 26 第7章 zookeeper基本组成与工作流程 27 第8章 zookeeper的leader节点选择 31 第9章 zookeeper安装 33 第10章 zookeeper 命令行接口 35 第11章 zookeeper应用程序接口 39 第12章 zookeeper应用 40 第三部分 KAFKA学习 48 第12章 KAFKA介绍 49 12.1 KAFKA简介 49 12.2信息系统 49 12.3 KAFKA是什么? 50 第13章 KAFKA基本组成与集群架构 51 13.1 KAFKA的基本组成 51 13.2 KAFKA集群架构 52 第14章 KAFKA工作流程 53 14.1 PUB-SUB信息工作流 53 14.2 队列信息工作流/消费者组 53 14.3 Zookeeper在KAFKA中扮演的角色 54 第15章 KAFKA安装 55 第16章 KAFKA基本操作 56 16.1 启动zookeeper服务 56 16.2 单个单节点中间件配置 56 16.3 Topics列表 56 16.4 启动生产者发送信息 57 16.5 启动消费者接收信息 57 16.6 单个多节点中间件配置 57 16.7 创建一个topic 58 16.8 启动生产者发送信息 59 16.9 启动消费者接收信息 59 16.10 基本Topic操作 59 16.11 删除Topic 59 第17章 KAFKA 生产者与消费者群实例 60 17.1 生产者实例 60 17.2 简单消费者实例 63 17.3 消费者群例子 65 第18章 KAFKA与SPARK集成 67 18.1 Kafka与spark集成 67 18.2 SparkConf API 67 18.3 StreamingContext API 67 18.4 KafkaUtils API 67 18.5 建立脚本 69 18.6 编译/打包 69 18.7 提交到Spark 69 第四部分HIVE学习 70 第19章 HIVE介绍 71 19.1 HIVE是什么? 71 19.2 HIVE特点 71 19.3 HIVE架构 71 19.5 HIVE工作流 72 第20章 HIVE 安装 74 20.1 Hadoop安装 74 20.2 HIVE安装 77 20.3 Derby安装与设置 78 第21章 HIVE 数据类型 80 21.1列类型(Column Type) 80 21.2文本类型(Literals) 81 21.3 Null 值 81 21.4 复杂类型 81 第22章 数据库操作 82 22.1 创建数据库 82 22.2 删除数据库 82 第23章 数据表操作 83 23.1 创建数据表 83 23.2 load数据(插入数据) 85 23.3 修改数据表(Alter table) 86 23.4 删除表(Drop table) 90 第24章 分区 92 24.1 添加分区(Adding a Partition) 93 24.2 重命名分区(Renaming a Partition) 93 24.3 删除分区(Droping a Partition) 93 第25章 内置运算符 94 25.1 关系运算符 94 25.2 算术运算符 96 25.3 逻辑运算符 97 25.4 复杂运算符(Complex Operators) 97 第26章 内置函数 98 26.1 内置函数 98 26.2 聚合函数(Aggregate Functions) 99 第27章 视图与索引 100 27.1 创建视图(Creating a View) 100 27.2 删除视图(Dropping a View) 100 27.3 创建索引(Creating an Index) 101 27.4 删除索引(Dropping an Index) 101 第28章 HIVEQL 102 28.1 查询语句(SELECT ...WHERE) 102 28.1.1 查询语句实例 102 28.1.2 JDBC查询语句实例 102 28.2 查询语句(SELECT...ORDER BY) 103 28.2.1 ORDER BY查询语句实例 103 28.2.2 JDBC ORDER BY 查询语句实例 104 28.3 查询语句(GROUP BY) 104 28.3.1 GROUP BY查询语句实例 104 28.3.2 JDBC GROUP BY查询语句实例 105 28.4 查询语句(JOIN) 106 28.4.1 JOIN查询语句实例 106

立即下载

热点文章

关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

Web-Harvest学习笔记.doc

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: