没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘实验报告实验名称: **数据集的分类/关联/聚类姓名: ***班级: 计科16-2班学号: 20*******目录基于 Molecular Biolog
资源详情
资源评论
资源推荐
数据挖掘实验报告
实验名称: **数据集的分类/关联/聚类
姓名: ***
班级: 计科16-2班
学号: 20*******
目录
1 基于 Molecular Biology DataSet 的分类任务 1
1.1 实验目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 实验任务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 实验环境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4 实验内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4.1 数据清洗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4.2 扩增数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4.3 特征映射 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.4 决策树方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.5 随机森林方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.6 KNN 方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.7 SVC 方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 原数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2 扩增数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.3 特征映射数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.4
扩增
+
特征映射数据集
. . . . . . . . . . . . . . . . . . . . . . . 9
1.5.5 总述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 实验总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
实验 1: 基于 Molecular Biology DataSet 的分类任务
1.1 实验目的
• 熟练掌握基本的数据预处理技术;
• 学会运用决策树、随机森林等方法解决分类任务。
1.2 实验任务
基于 Molecular Biology DataSet 完成分类任务,决策树,random forest,bagging,
boosting 方法任选或组合,且不限于上述方法和策略,允许有预处理步骤。
1.3 实验环境
• OS: Window10
• 开发环境:PyCharm、Python3.5、numpy、sklearn
1.4 实验内容
1.4.1 数据清洗
数据集中有 instance name 无用属性,我们首先将该属性值删除,只保留 57 个基
因序列和标签值。具体操作是利用 spilt 函数将 instance name 分割出来,然后将有用
的特征值保留即可。实现代码如下所示:
1 file=open('dataset/promoters.data ')
2 x=[]
3 y=[]
4 for i , l i ne in enumerate(file. readlin es ()):
5 l i ne = l i ne . st r i p ('\n')
6 l i n e = l i n e . s p l i t ('\t')
7 x.append( l i n e [-1])
8 y.append( l i n e [0]. s p l i t (',')[0])
1.4.2 扩增数据集
已知 Molecular Biology 数据集有两类标签:+ 和-,属性值有 57 个,取值分别为
a、c、g、t,共有 106 条记录。为了合理扩充数据集来增强模型泛化能力,我采用同类
型数据拼接的方法,将每条记录的属性值增加到 57*2=114 个。
1
剩余11页未读,继续阅读
药罐子也有未来
- 粉丝: 17
- 资源: 300
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0