没有合适的资源?快使用搜索试试~ 我知道了~
来自百度文库的雨林算法解读PPT RainForest ——雨林算法框架 大数据集决策树快速生成框架 报告人:李岱 2003.4.5 与你看到的CSDN其他资源内容相同,PPT中只有算法的解读 没有实现
资源推荐
资源详情
资源评论
RainForest
RainForest
——
——
雨林算法框架
雨林算法框架
大数据集决策树快速生成框架
大数据集决策树快速生成框架
报告人:李岱
报告人:李岱
2003.4.5
2003.4.5
决策树简介
略
略
Sprint 算法的缺点
为每个
为每个
node
node
都保存属性表,这个表的大
都保存属性表,这个表的大
小有可能是数据库中原始数据大小的好
小有可能是数据库中原始数据大小的好
几倍。
几倍。
维护每个
维护每个
node
node
属性表的
属性表的
hash
hash
表的开销很
表的开销很
大
大
(
(
该表的大小与该
该表的大小与该
node
node
所具有的纪录
所具有的纪录
成正比
成正比
)
)
。
。
雨林算法框架综述
过去的研究提出了多种决策树算法,但是到目前为止
过去的研究提出了多种决策树算法,但是到目前为止
并没有一种算法在任何数据集合下生成决策树的质量
并没有一种算法在任何数据集合下生成决策树的质量
方面超过所有其他的算法
方面超过所有其他的算法
雨林算法框架关注于提高决策树算法的伸缩性,该框
雨林算法框架关注于提高决策树算法的伸缩性,该框
架可运用于大多数决策树算法
架可运用于大多数决策树算法
(
(
例如
例如
Sprint
Sprint
和
和
SLIQ)
SLIQ)
,
,
使算法获得的结果与将全部的数据放置于内存所得到
使算法获得的结果与将全部的数据放置于内存所得到
的结果一致,但是在运行时可以使用较少的内存。而
的结果一致,但是在运行时可以使用较少的内存。而
在内存一定的情况下,也可以更好的满足算法的需求
在内存一定的情况下,也可以更好的满足算法的需求
。
。
生成的决策树的质量取决于具体的决策树算法,于本
生成的决策树的质量取决于具体的决策树算法,于本
框架无关。
框架无关。
雨林算法框架
数据结构:
数据结构:
AVC-set:
AVC-set:
节点
节点
n
n
包含的所有纪录在某个属性上的
包含的所有纪录在某个属性上的
投影,其中该
投影,其中该
AVC-set
AVC-set
包括了属性的不同值在每
包括了属性的不同值在每
个类别上的计数。
个类别上的计数。
AVC-group:
AVC-group:
一个节点
一个节点
n
n
上所有的
上所有的
AVC -set
AVC -set
的集合
的集合
AVC-set
AVC-set
的所占内存的大小正比于对应属性的不
的所占内存的大小正比于对应属性的不
同值个数,
同值个数,
AVC-group
AVC-group
并不是数据库信息的简单
并不是数据库信息的简单
的压缩,它只是提供了建立决策树需要的信息,
的压缩,它只是提供了建立决策树需要的信息,
AVC-group
AVC-group
所占用的内存空间远远小于数据库所
所占用的内存空间远远小于数据库所
实际占用的空间。
实际占用的空间。
剩余20页未读,继续阅读
资源评论
Duringger
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功