没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘实验报告.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 184 浏览量
2022-07-10
15:24:54
上传
评论
收藏 1.35MB PDF 举报
温馨提示
试读
19页
数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf数据挖掘实验报告.pdf
资源推荐
资源详情
资源评论
《数据挖掘》
Weka 实验报告
姓名 _ 学号_
指导教师
开课学期 2015 至 2016 学年 2 学期
完成日期 2015 年 6 月 12 日
1.实验目的
基于 http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-
ginal%29 的数据,使用数据挖掘中的分类算法,运用 Weka 平台的基本功能
对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同
数量的训练集进行对比实验,并画出性能比较图训练并测试。
2.实验环境
实验采用 Weka 平台,数据使用来自 http://archive.ics.uci.edu/ml/Datasets/Br-
east+Cancer+WiscOnsin+%28Original%29,主要使用其中的 Breast Cancer
Wisc-
onsin (Original) Data Set 数据。Weka 是怀卡托智能分析系统的缩写,该系统
由新西兰怀卡托大学开发。Weka 使用 Java 写成的,并且限制在 GNU 通用公共
证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化
的机器学习以及数据挖掘软件。Weka 提供了一个统一界面,可结合预处理以及
后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的
学习方案所得出的结果。
3.实验步骤
3.1 数据预处理
本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample
code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size
(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal
Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare
Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的
核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为
1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各
指标的分布情况。
该数据的数据属性如下:
1. Sample code number(numeric),样本代码;
2. Clump Thickness(numeric),丛厚度;
1
3.Uniformity of Cell Size(numeric)均匀的细胞大小;
4. Uniformity of Cell Shape(numeric),均匀的细胞形状;
5.Marginal Adhesion(numeric),边际粘连;
6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小;
7.Bare Nuclei(numeric),裸核;
8.Bland Chromatin(numeric),平淡的染色质;
9. Normal Nucleoli(numeric),正常的核仁;
10.Mitoses(numeric),有丝分裂;
11.Class(enum),分类。
3.2 数据分析
由 http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-
ginal%29 得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选择数据—
—分列——下一步——逗号——完成,该数据是有关乳腺癌数据集,有 11 个属
性,分别为 Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity
of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),
Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大
小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli
(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的
数据没有属性,所以手工添加一行属性名。 Weka 分类数据需把 excel 保存为
一个 csv 文件。
3.2.1 .csv -> .arff
将 CSV 转换为 ARFF 最迅捷的办法是使用 WEKA 所带的命令行工具。
打开 weka,之后出现 GUI 界面,如图 1 所示:
2
剩余18页未读,继续阅读
资源评论
不吃鸳鸯锅
- 粉丝: 8337
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功