没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘实训报告.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 35 浏览量
2022-07-02
00:41:41
上传
评论
收藏 577KB PDF 举报
温馨提示
试读
14页
数据挖掘实训报告.pdf数据挖掘实训报告.pdf数据挖掘实训报告.pdf数据挖掘实训报告.pdf数据挖掘实训报告.pdf数据挖掘实训报告.pdf数据挖掘实训报告.pdf数据挖掘实训报告.pdf
资源推荐
资源详情
资源评论
项目 1:基于 sklearn 的数据分类挖掘
一、项目任务
①熟悉sklearn数据挖掘的大体功能。
②进行用朴素贝叶斯、KNN、决策树、SVM算法进行数据分类分析。
二、项目环境及条件
三、实验数据
Iris 数据集
Iris 数据集是经常使用的分类实验数据集,由Fisher, 1936 搜集整理。Iris 也称鸢尾花卉数据集,是一
类多重变量分析的数据集。数据集包括 150 个数据集,分为 3 类,每类 50 个数据,每一个数据包括 4 个
属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度 4 个属性预测鸢尾花卉属于(Setosa,Versicolour,
Virginica)三个种类中的哪一类。
Digits 数据集
美国闻名数据集 NIST 的子集,模式识别经常使用实验数据集,图像属于灰度图像。分辨率为8x8
四、项目内容及进程
1.读取数据集
从 sklearn 中读取 iris 和 digits 数据集并测试打印
from sklearn import datasets
iris = ()
digits = ()
print 'iris:',,'\ndigits:',
打印的数据集存在中,ndarray 会自动省略较长矩阵的中间部份。
Iris 数据集的样本数据为其花瓣的各项属性
Digits 数据集的样本数据为手写数字图像的像素值
2.划分数据集
引入 sklearn 的 model_selection 利用 train_test_split 划分 digits 数据集,训练集和测试集比例为
8:2
from import train_test_split
x_train,x_test,y_train,y_test=train_test_split,,test_size=
print 'x_train:',x_train,'\nx_test:',x_test,'\ny_train:',y_train,'\ny_test:',y_test
3.利用 KNN 和 SVM 对 digits 测试集分类
引用 sklearn 的和模块挪用算法,利用 classification_report 查看预测结果的准确率和召回率
from import classification_report
from sklearn import neighbors
clf = ()
(x_train,y_train)
y_pred=(x_test)
print classification_report(y_test, y_pred)
from import SVC
clf = SVC()
(x_train,y_train)
y_pred=(x_test)
print classification_report(y_test, y_pred)
KNN 的预测结果:所有数字的预测正确率几乎达到了 100%
剩余13页未读,继续阅读
资源评论
竖子敢尔
- 粉丝: 1w+
- 资源: 2471
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功