没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘WEKA实验报告.docx
4 下载量 69 浏览量
2022-11-29
13:11:47
上传
评论 1
收藏 879KB DOCX 举报
温馨提示
试读
22页
数据挖掘WEKA实验报告.docx
资源推荐
资源详情
资源评论
数据挖掘-WAKA
实验报告
一、WEKA 软件简介
在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据
日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,
但是却可以为一些公司的决策和对客户的服务提供不小的价值。因此,我们
可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计
算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于
回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式,
进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来
解决问题。WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。
WEKA 是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析
环境(Waikato Environment for Knowledge Analysis)。WEKA 是由 JAVA
编写的,它的源代码可通过 http://www.cs.waikato.ac.nz/ml/WEKA 得到,
并且限制在 GBU 通用公众证书的条件下发布,可以运行在所有的操作系统
中。是一款免费的,非商业化的机器学习以及数据挖掘软件
WEKA 作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘
任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联
规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的
话,可以看一看 WEKA 的接口文档。在 WEKA 中集成自己的算法甚至借鉴它
的方法自己实现可视化工具并不是件很困难的事情。
安装 WEKA 也十分简单,首相要下载安装 JDK 环境 ,JDK 在这个页面可
以找到它的下载 http://java.sun.com/javase/downloads/index.jsp。点击
JDK 6 之后的 Download 按钮,转到下载页面。选择 Accepct,过一会儿页面
会刷新。我们需要的是这个 Windows Offline Installation, Multi-language
jdk-6-windows-i586.exe 53.16 MB ,点击它下载。也可以右键点击它上面
的链接,在 Flashget 等工具中下载。安装它和一般软件没什么区别。不过中间
会中断一下提示你安装 JRE,一并装上即可。之后就是安装 WEKA 软件,这个
在网上很多地方都有。同样简单地按默认方法安装后即可使用。
点击启动 运 行 WEKA 软件 后 , 我门 发现 WEKA 存 储 数 据 的格 式是 ARFF
(Attribute-Relation File Format)文件,这是一种 ASCII 文本文件。我
们如图 1 通过软件的 Tools 菜单进入 ArffViewer 可以在安装目录下查看软
件自带的几个 ARFF 文件。
图 1
图 2
如图 2,打开文件后选择 data 自目录下的任意一张表,我们都可以看到如图 3
所示的二维表格存储在如下的 ARFF 文件中。这也就是 WEKA 自带的
“contact-lenses.arff”文件。这里我们要介绍一下 WEKA 中的术语。表格
里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数
据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变
量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在 WEKA 看来,
呈现了属性之间的一种关系(Relation)。图 1 中一共有 22 个实例,5 个属性,
关系名称为“contact-lenses”。
除了 ARFF 格式,WEKA 还支持另外一种常见格式,CSV 格式。CSV 同样是
一种二进制保存的文本格式,我们可以在 WEKA 中直接打开 CSV 格式的文件,
并保存为 ARFF 格式。这样就给我提供了把常见的数据格式转换为 ARFF 格式的
方法,如对于 Excel 文件,我们 可以通过把每张表保存为 CSV 格式,进而保存
为 ARFF 格式,与此同时,我们可以利用 filter 对数据进行相应的预处理。而对
于 Matlab 格式的数据,我们可以通过命令 csvwrite 把数据转化成 CSV 格式的文
件,进而转化为 ARFF 格式文件。对于海量数据,一般保存在数据库中,WEKA
同时支持 JDBC 访问数据库。
图 3
剩余21页未读,继续阅读
资源评论
xinkai1688
- 粉丝: 320
- 资源: 8万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 3122080306 邹子轩 实验报告二.docx
- 基于STM32 NUCLEO板设计彩色LED照明灯(纯cubeMX开发)(大赛作品,文档完整,可直接运行)
- 发那科工业机器人保养大全
- Sphere.h
- REMD固有时间尺度分解信号分量可视化(Matlab完整源码和数据)
- 嵌入式系统双单片机STC89C52+STC15W104多功能学习板电路图可扩展 适用于单片机初学者和教学
- 基于STM32蓝牙控制小车系统设计(硬件+源代码+论文)大赛作品
- XILINXFPGA源码基于Spartan3火龙刀系列FPGA开发板VGA测试例程
- Java聊天室的设计与实现【尚学堂·百战程序员】
- python中matplotlib教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功