没有合适的资源?快使用搜索试试~ 我知道了~
张逸凯_171840708_实验报告_数据挖掘Assignment31
需积分: 0 0 下载量 78 浏览量
2022-08-03
18:29:34
上传
评论
收藏 6.8MB PDF 举报
温馨提示
试读
35页
张逸凯_171840708_实验报告_数据挖掘Assignment31
资源详情
资源评论
资源推荐
Department of computer science and technology
Introduction to Data Mining - Assignment II L
A
T
E
X
第3次作业
2019 年 5 月 21 日
姓名: 张逸凯
学号: 171840708
年级: 大二
指导老师: 黎铭
邮箱: zykhelloha@gmail.com
目录
1 问题重述 1
2 Assignment完成情况概述 1
3 使用weka进行数据预处理 1
4 How to compare their performances(理论基础) 2
4.1 Threshold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.4 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.5 AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.5.1 ROC曲线 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.5.2 预测偏差(Prediction bias) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.6 10-fold cross validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5 Compare Classification Methods’ Performances(不同方法的对比与分析) 6
5.1 从这几个方面评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.2 具体实现概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.3 数据可视化分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.3.1 About Breast-cancer dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5.3.2 Preprocessing Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.3.3 Pairplot for the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5.3.4 Boxen Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.3.5 Violin plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.3.6 其他展现数据分布的图像(以Marginal Adhesion为例) . . . . . . . . . . . . 12
5.3.7 Heap map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
6 Discuss on these methods performance and suggest how to improve Bagging of KNN (with
necessary experimental evidence) 13
6.1 不同方法的对比分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.1.1 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.2 分析对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6.3 About Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2
1 问题重述
2 Assignment完成情况概述
本次Assignment我使用了weka和Python进行数据分析, 并重点讨论比较了各方法之间的性
能, 对Bagging of KNN也用指标度量做了充分分析.
本报告中有大量数据分析内容(见下面的章节), 具体的数据处理结果见附件 ../张逸凯 171840708 数
据挖掘Assignment3/weka result , 里面都是weka处理结果.
在 ../张逸凯 171840708 数据挖掘Assignment3/代码 里面有Python处理结果
数据预览见附录(section 9)
缺失值处理方法见附录(section 10)
3 使用weka进行数据预处理
使用缺失值处理的方法有很多, 针对不同数据集或者不同方法使用的处理方式不同.
值得一提的是书本
1
276页写的针对 kNN 算法的缺失值处理:
图 1: 课本kNN缺失值处理方法
1
上课用书: 数据挖掘概念与技术(黑书)
1
调用weka.filters.unsupervised.attribute包
2
4 How to compare their performances(理论基础)
先要温习总结一下课本内容嘛, 这是理论基础(以下部分其实就是课本内容的概述, 课本里
讲得其实很详尽了):
4.1 Threshold
首先应该引入阈值的概念:
其实写完在发现, 这里其实Confusion Matrix也非常重要(虽然很简单), 在我接下来的分析
中出现了Confusion Matrix, 都是按照书上定义出的.
逻辑回归返回的是概率, 为了将逻辑回归值映射到一个分类,必须指定 分类阈值(也称为
判定阈值)。如果值高于该阈值,则表示正分类;如果值低于该阈值,则表示负分类(或者更多
的分类).
接下来以第一个数据集breast-w.arff(breast-cancer)为例:
accuracy是一个用于评估分类模型的 指标。通俗来说,准确率是指我们的模型预测正确的
结果所占的比例。accuracy的定义如下:
Accuracy =
Number of correct predictions
Total number of predictions
对于二元分类,按照书本根据正类别和负类别按如下方式计算准确率:
Accuracy =
T P + T N
T P + T N + FP + FN
其中:
• True Positives,TP:预测为正样本,实际也为正样本的特征数
• False Positives,FP:预测为正样本,实际为负样本的特征数
• True Negatives,TN:预测为负样本,实际也为负样本的特征数
• False Negatives,FN:预测为负样本,实际为正样本的特征数
2
从http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/package-summary.html http:
//weka.sourceforge.net/doc.dev/weka/filters/supervised/attribute/package-summary.html上获得具体功能
2
剩余34页未读,继续阅读
赶路的稻草人
- 粉丝: 24
- 资源: 330
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0