python数据挖掘机器学习实战基于PACSRAWLabeledDataset的聚类任务（完整项目可直接提交）.zip_贝叶斯分类器如何查看准确率，精确率，召回率，F1分数，混淆矩阵python代码资源-CSDN文库

共62个文件

txt：21个

png：12个

xml：8个

版权申诉

数据挖掘

python

机器学习

聚类

5星 · 超过95%的资源 120 浏览量 2023-04-13 13:45:46 上传评论 1 收藏 2.88MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

python数据挖掘机器学习实战基于 PACS RAW Labeled Dataset 的聚类任务（完整项目可直接提交）.zip （62个子文件）

python数据挖掘机器学习实战基于 PACS RAW Labeled Dataset 的聚类任务（完整项目可直接提交）

图 1.5.2 算法平均指标对比.png 76KB

soybean_classification.py 17KB

图 1.4.1 kNN实验结果.png 7KB

.RDataFiles

-1097149201.RData 2.21MB

图 1.4.7 bagging算法实验结果.png 8KB

图 1.4.5 SVM实验结果.png 8KB

summary.xlsx 30KB

main.py 3KB

data

soybean-large.data 26KB

soybean-large.test 32KB

图 1.5.3 随机森林算法性能指标与测试样例占比关系.png 59KB

图 1.5.1 算法最佳指标对比.png 75KB

datahandler.py 2KB

.idea

H1_1.iml 284B

rGraphicsSettings.xml 291B

workspace.xml 11KB

misc.xml 288B

inspectionProfiles

profiles_settings.xml 174B

rpackages.xml 240B

modules.xml 260B

rSettings.xml 292B

rAvailablePackageCache.xml 185B

t1.png 19KB

图 1.4.2 决策树方法实验结果.png 8KB

图 1.5.4 MLP算法性能指标与初始化随机数关系.png 72KB

20.txt 507B

图 1.4.3 多层感知器分类器实验结果.png 9KB

图 1.4.6 随机森林算法实验结果.png 10KB

t1.py 4KB

报告.docx 230KB

图 1.4.4 朴素贝叶斯分类器实验结果.png 8KB

__pycache__

soybean_classification.cpython-37.pyc 7KB

datahandler.cpython-37.pyc 2KB

testModel

DecisionTree 23KB

RandomForestClassifier 208KB

SVM 103KB

MLPClassifier 51KB

NaiveBayes 13KB

KNN 144KB

Bagging 140KB

result

9.txt 551B

13.txt 551B

15.txt 551B

1.txt 549B

14.txt 550B

16.txt 552B

11.txt 550B

5.txt 550B

6.txt 550B

3.txt 550B

4.txt 549B

19.txt 550B

18.txt 550B

12.txt 550B

20.txt 551B

7.txt 552B

2.txt 551B

8.txt 552B

10.txt 549B

17.txt 549B

testModel_2

RandomForestClassifier 193KB

MLPClassifier 50KB

《数据挖掘》实验报告

2020 年 10 月

1 实验 1：基于 UCI soybean Dataset 的分类任务 ........................................................1

1.1 实验目的................................................................................................................1

1.2 实验任务................................................................................................................1

1.3 实验环境................................................................................................................1

1.4 实验内容................................................................................................................1

1.4.1 数据清洗 ...........................................................................................................1

1.4.2 数据导入 ...........................................................................................................1

1.4.3 kNN 算法 ...........................................................................................................2

1.4.4 决策树算法 .......................................................................................................2

1.4.5 多层感知器分类器（MLP Classifier）...........................................................3

1.4.6 朴素贝叶斯算法 ...............................................................................................4

1.4.7 SVM 算法 ..........................................................................................................4

1.4.8 随机森林算法 ...................................................................................................5

1.4.9 bagging 算法 ......................................................................................................6

1.5 实验分析................................................................................................................7

1.5.1 算法最佳性能对比 ...........................................................................................7

1.5.2 算法平均性能对比 ...........................................................................................8

1.5.3 测试样例占比对算法结果的影响 ...................................................................8

1.5.4 初始化随机数对算法结果的影响 ...................................................................9

1.6 实验总结..............................................................................................................11

附录 ...........................................................................................................................................11

2 实验 2：基于 UCI Groceries Dataset 的关联分析任务............................................12

2.1 背景......................................................................................................................12

2.2 问题描述..............................................................................................................12

2.3 实验环境..............................................................................................................13

2.4 数据集及实现的技术方案..................................................................................13

2.4.1 数据集介绍及预处理 .....................................................................................13

2.4.2 频繁项集挖掘 .................................................................................................14

2.4.3 频繁项目集挖掘 .............................................................................................16

2.5 实验结果..............................................................................................................16

附录 ...............................................................................................................................................19

3 实验 3：基于 PACS RAW Labeled Dataset 的聚类任务.........................................20

3.1 实验目的..............................................................................................................20

3.2 实验任务..............................................................................................................20

3.3 实验环境..............................................................................................................20

3.4 实验内容..............................................................................................................20

3.4.1 库函数引用 .....................................................................................................20

3.4.2 密度聚类（DBSCAN） .................................................................................20

3.4.3 伪代码与流程图 .............................................................................................21

3.4.4 核心代码 .........................................................................................................22

3.5 实验分析..............................................................................................................23

附录 ...............................................................................................................................................27

1 实验 1：基于 UCI soybean Dataset 的分类任务

1.1 实验目的

� 熟练掌握基本的数据预处理技术；

� 学会运用决策树、随机森林等方法解决分类任务。

1.2 实验任务

基于 Molecular Biology DataSet 完成分类任务，kNN、决策树、多层感知器、朴素贝叶斯、SVM、随机

森林、bagging 方法任选或组合，且不限于上述方法和策略，允许有预处理步骤。

1.3 实验环境

� 硬件：Dell G3 3579 笔记本

� 软件：

OS：Windows 10 Pro N for Workstations

平台工具：PyCharm 2019.3.4 (Professional Edition)、Python 3.7.4、OriginPro 2018(64-bit)

1.4 实验内容

1.4.1 数据清洗

数据集中有的数据项严重缺失，为了方便下一步工作，需要剔除训练数据中缺失值大于 90%的列。具体

操作是构建函数 drop_col，以待剔除数据集、列名与阈值为参数，在导入训练数据时调用其进行筛除。

实现代码如下所示：

def drop_col(df, col_name, cutoff=0.9):

n = len(df)

cnt = df[col_name].count()

if (float(cnt) / n) < cutoff:

df.drop(col_name, axis=1, inplace=True)

1.4.2 数据导入

原始数据集中的数据为 csv 格式，使用 Python 的第三方库 pandas 的 csv 读取方法可以方便地处理。如

1.4.1 所述，严重缺失数据的列（仅对于训练数据）应当删除，数据缺失不严重的使用 sklearn 的

SimpleImputer 进行补全，本次实验 SimpleImputer 的参数设置为 most_frequent。最后将格式化的数据

存入 df 中，并返回 df 的值。实现代码如下所示：

url = "data/soybean-large.data"

dataset = pd.read_csv(url, names=names)

dataset = dataset.replace({'?': np.nan})

for item in dataset.columns.values:

drop_col(dataset, item, cutoff=0.8)

df1 = dataset.iloc[:, 1:]

df2 = dataset.iloc[:, :1]

imr = SimpleImputer(strategy='most_frequent')

imr = imr.fit(df1)

imputed_data = imr.transform(df1.values)

df = pd.DataFrame(imputed_data)

df = pd.concat([df2, df], axis=1)

return df

1.4.3 kNN 算法

实验过程中主要使用 sklearn 函数包来实现 kNN 方法，同时为了更好地调节 kNN 算法的参数，本次实

验实现了一个 choose_best_k_to_knn 函数用于选取最大值，即 best_k 以及对应的下标。首先，从

sklearn.neighbors 函数包中导入 KNeighborsClassifier 函数。然后，使用 best 作为参数初始化

KNeighborsClassifier。最终，将分割好的数据分别作为第一个与第二个参数，对 kNN 模型进行训练。

实现代码如下所示：

best_k, max_value = choose_best_k_to_knn(x_train, y_train, x_validation, y_validation)

knn = KNeighborsClassifier(n_neighbors=best_k)

knn.fit(x_train, y_train)

值得一提的是，本次实验所用的 scikit-learn（简称 sklearn）是目前最受欢迎，也是功能最强大的一个

用于机器学习的 Python 库件。它广泛地支持各种分类、聚类以及回归分析方法比如支持向量机、随机

森林、DBSCAN 等等，由于其强大的功能、优异的拓展性以及易用性，目前受到了很多数据科学从业者

的欢迎，也是业界相当著名的一个开源项目之一。kNN 的实验结果如图 1.4.1 所示。

图 1.4.1 kNN 实验结果

1.4.4 决策树算法

实验过程中主要使用 sklearn 函数包来实现决策树方法。决策树（decision tree）算法基于特征属性进行

分类，其主要的优点：模型具有可读性，计算量小，分类速度快。sklearn 决策树算法类库内部实现是

使用了调优过的 CART 树算法，既可以做分类，又可以做回归。分类决策树的类对应的是

DecisionTreeClassifier。实现代码如下所示：

# 构建 Keras 模型

dtc = DecisionTreeClassifier()

# 训练模式

dtc.fit(partial_train_data, partial_train_targets)

首先取十分之一的数据作为测试数据，分别赋給 val_data 与 val_targets；而后准备训练数据，分别赋給

partial_train_data 与 partial_train_targets；之后从 sklearn.tree 包中导入 DecisionTreeClassifier 函数，并

初始化；接着以 partial_train_data 与 partial_train_targets 为参数对 DecisionTreeClassifier 进行训练；最

后完成精确度与折验证分数平均等指标的统计后。决策树方法的实验结果如图 1.4.2 所示。

评论收藏

内容反馈

版权申诉

m0_74812948

2024-04-08

发现一个宝藏资源，资源有很高的参考价值，赶紧学起来~

瞲_大河弯弯

粉丝: 1314
资源: 135

python数据挖掘机器学习实战基于 PACS RAW Labeled Dataset 的聚类任务（完整项目可直接提交）.zip

python数据挖掘机器学习UCI soybean Dataset 的分类任务（完整项目：数据集+代码+word直接提交）

Oviyam-2.1-bin.zip

python数据挖掘机器学习实战UCI Groceries Dataset 的关联分析任务（完整项目：数据集+word+代码）

区域PACS发展及问题研究.zip

PACS.zip_pacs

概述医学影像科室PACS和RIS系统及其未来发展.zip

基于区域PACS共享平台和远程医疗会诊系统设计方案.zip

pacs基本知识.zip_meet5cc_pacs

DicomWebViewer.zip_DICOMwebviewer_c# webpacs_laidw3s_webpacs_yel

Dcmtk在PACS开发中的应用.zip

2021年医院级影像信息化解决方案(PACS&MIIS)（专业完整版）.pdf

智慧医院影像归档和通信系统-PACS实施全套文件.zip

ClearCanvas13.2完整源码包涵所有DLL.zip

DICOM.zip_dicom_dicom pacs_dicom中文_pacs

visio信息化设计实例兰州市口腔医院PACS项目（一期）网络.zip

基于PACS的医学图像压缩技术的实验研究

dcm4chee-2.18.1-mysql.zip

Dicom.zip_dicom_dicom pacs_dicom开发_pacs_医院影像系统

脚踏开关 FOOTSwitch：设置程序及教程.zip

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

Python数据分析项目实践，包括数据读取、评估、清洗、分析、可视化机器学习相关内容等

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

YOLOv8-火焰识别（火焰数据集+代码+GUI界面+内置训练好的模型文件）

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计