没有合适的资源?快使用搜索试试~ 我知道了~
weka详细使用文档实例
3星 · 超过75%的资源 需积分: 17 13 下载量 88 浏览量
2013-12-31
21:33:49
上传
评论
收藏 504KB PDF 举报
温馨提示
试读
17页
weka详细使用文档包含实例,Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。
资源推荐
资源详情
资源评论
WEKA 入门教程
目录
1. 简介 顶楼
2. 数据格式 顶楼
3.数据准备 1楼
4. 关联规则(购物篮分析) 1楼
5. 分类与回归 2楼
6. 聚类分析 2楼
1. 简介
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),
它的源代码可通过
http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种
鸟名,而WEKA的主要开发者来自新西兰。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算
法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视
化。
如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算
法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
2005 年 8 月,在第 11 届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据
挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器
学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有 11 年的发展历史)。Wek
a的每月下载次数已超过万次。
--整理自
http://www.china-pub.com/computers/common/info.asp?id=29304
2. 数据格式
巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。
跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图 1 那样的一个二维的表
格。
图 1
新窗口打开
这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当
于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当
于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WE
KA看来,呈现了属性之间的一种关系(Relation)。图 1 中一共有 14 个实例,5 个属性,关
系名称为“weather”。
WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文
本文件。图 1 所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.
arff”文件,在WEKA安装目录的“data”子目录下可以找到。
代码:
全选
% ARFF file for the weather data with some numric features
%
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
%
% 14 instances
%
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致
分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。
下面我们来对这个文件的内容进行说明。
识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格
的行)将被忽略。
以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了
些“%”开始的行,是没有影响的。
除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head informati
on),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),
即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。
关系声明
关系名称在ARFF文件的第一个有效行来定义,格式为
@relation <relation-name>
<relation-name>是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点
的单引号或双引号)。
属性声明
属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@at
tribute”语句,来定义它的属性名称和数据类型。
这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如,“humidity”
是第三个被声明的属性,这说明数据部分那些被逗号分开的列中,第三列数据 85 90 86
96 ... 是相应的“humidity”值。其次,最后一个声明的属性被称作class属性,在分类或回归
任务中,它是默认的目标变量。
属性声明的格式为
@attribute <attribute-name> <datatype>
其中<attribute-name>是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含
空格,它必须加上引号。
WEKA支持的<datatype>有四种,分别是
numeric-------------------------数值型
<nominal-specification>-----分类(nominal)型
string----------------------------字符串型
date [<date-format>]--------日期和时间型
其中<nominal-specification> 和<date-format> 将在下面说明。还可以使用两个类型“integ
er”和“real”,但是WEKA把它们都当作“numeric”看待。注意“integer”,“real”,“numeric”,“d
ate”,“string”这些关键字是区分大小写的,而“relation”“attribute ”和“date”则不区分。
数值属性
数值型属性可以是整数或者实数,但WEKA把它们都当作实数看待。
分类属性
分类属性由<nominal-specification>列出一系列可能的类别名称并放在花括号中:{<nomina
l-name1>, <nominal-name2>, <nominal-name3>, ...} 。数据集中该属性的值只能是其中
一种类别。
例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”。而数据
集中每个实例对应的
“outlook”值必是这三者之一。
@attribute outlook {sunny, overcast, rainy}
如果类别名称带有空格,仍需要将之放入引号中。
字符串属性
字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。
示例:
@ATTRIBUTE LCC string
日期和时间属性
日期和时间属性统一用“date”类型表示,它的格式是
剩余16页未读,继续阅读
资源评论
- zuibiandeai2014-01-14文档是不错啦,直接上网百度就能搜到的文档,不用浪费积分
weka_chen
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功