用Jupyternotebook完成Iris数据集的Fisher线性分类，并学习数据可视化技术

146 浏览量 2020-12-20 23:01:32 上传评论 1 收藏 103KB PDF 举报

这里写自定义目录标题一、关于Fisher算法的主要思想与数学计算步骤已在上次博客中有讲到。二、用scikit-learn库中也有LDA的函数，下面给出测试代码三、完成Iris数据集的 Fisher线性分类，及实现可视化一、关于Fisher算法的主要思想与数学计算步骤已在上次博客中有讲到。若不会清楚，请访问次链接二、用scikit-learn库中也有LDA的函数，下面给出测试代码 from sklearn import datasets, cross_validation,discriminant_analysis ##################################### 在本文中，我们将深入探讨如何使用Jupyter Notebook对Iris数据集进行Fisher线性判别分析（Linear Discriminant Analysis, LDA），并学习数据可视化技术。Fisher算法是一种统计方法，主要用于多类别的分类问题，它寻找一个线性投影，使得类间距离最大化，类内距离最小化。在Iris数据集上应用LDA，我们可以清晰地理解不同类别之间的差异，并且通过可视化结果来直观展示这些差异。我们要了解Fisher算法的主要思想。Fisher的目标是找到一个超平面，使得各类别的样本在这个超平面上的投影间隔最大。这个间隔通常被称为“判别函数”，它可以通过求解类间散度和类内散度的比值（Fisher准则）来确定。在上一篇文章中，已经详细讲解了Fisher算法的数学计算步骤。如果对这部分内容不熟悉，可以通过提供的链接进行复习。接下来，我们将使用Python的scikit-learn库中的LDA函数来实现分类。scikit-learn提供了方便的接口，让我们能够快速实现LDA。首先导入必要的库，如`datasets`、`cross_validation`和`discriminant_analysis`： ```python from sklearn import datasets, cross_validation, discriminant_analysis ``` 然后，我们需要加载Iris数据集，并将其划分为训练集和测试集。Iris数据集包含150个样本，分为三个类别，每个类别有50个样本。我们使用`train_test_split`函数将数据随机划分为训练集和测试集，其中25%的数据用于测试： ```python def load_data(): iris = datasets.load_iris() return cross_validation.train_test_split(iris.data, iris.target, test_size=0.25, random_state=0, stratify=iris.target) ``` 接下来，定义一个函数`test_LinearDiscriminantAnalysis`，该函数用于训练LDA模型，并打印出模型的系数和截距，以及在训练集和测试集上的得分： ```python def test_LinearDiscriminantAnalysis(x_train, x_test, y_train, y_test): lda = discriminant_analysis.LinearDiscriminantAnalysis() lda.fit(x_train, y_train) print('Coefficients:', lda.coef_, 'intercept:', lda.intercept_) print('Score (Test Set):', lda.score(x_test, y_test)) print('Score (Training Set):', lda.score(x_train, y_train)) ``` 调用`load_data`和`test_LinearDiscriminantAnalysis`函数，将训练和测试数据传入，得到LDA模型的性能表现。结果显示，在Iris数据集上，LDA模型在测试集上的预测准确度为97%，而在训练集上可能达到100%，这表明模型具有良好的泛化能力。除了分类任务，LDA还可以作为一个有效的降维工具，被称为监督降维技术。通过将高维数据转换到低维空间，我们可以更容易地进行可视化。在Iris数据集中，我们可以利用LDA转换后的数据进行二维或三维绘图，以便更好地理解数据的分布和类别之间的界限。例如，可以使用matplotlib库来创建这些图形： ```python from mpl_toolkits.mplot3d import Axes3D def plot_LDA(converted_X, y): # ...绘制代码... ``` 通过Jupyter Notebook进行Iris数据集的Fisher线性分类，不仅可以实现有效的分类任务，还能借助数据可视化技术更直观地理解数据结构和分类效果。同时，LDA作为降维工具，可以帮助我们在理解和探索复杂数据时降低维度，从而简化分析过程。对于初学者来说，这是一个很好的实践案例，既涵盖了机器学习的基础知识，也展示了数据可视化的实用技巧。

资源详情

资源评论

用用Jupyter notebook完成完成Iris数据集的数据集的 Fisher线性分类，并学习数据可视化技线性分类，并学习数据可视化技

术术

这里写自定义目录标题这里写自定义目录标题一、关于Fisher算法的主要思想与数学计算步骤已在上次博客中有讲到。二、用scikit-learn库中也有LDA的函数，下面给出测试代码三、

完成Iris数据集的 Fisher线性分类，及实现可视化

一、关于一、关于Fisher算法的主要思想与数学计算步骤已在上次博客中有讲到。算法的主要思想与数学计算步骤已在上次博客中有讲到。

若不会清楚，请访问次链接

二、用二、用scikit-learn库中也有库中也有LDA的函数，下面给出测试代码的函数，下面给出测试代码

from sklearn import datasets, cross_validation,discriminant_analysis

###############################################################################

#用莺尾花数据集

def load_data():

iris=datasets.load_iris()

return cross_validation.train_test_split(iris.data,iris.target,test_size=0.25,random_state=0,stratify=iris.target)

#返回为: 一个元组，依次为：训练样本集、测试样本集、训练样本的标记、测试样本的标记

###############################################################################

def test_LinearDiscriminantAnalysis(*data):

x_train,x_test,y_train,y_test=data

lda=discriminant_analysis.LinearDiscriminantAnalysis()

lda.fit(x_train,y_train)

print('Coefficients:%s, intercept %s'%(lda.coef_,lda.intercept_))#输出权重向量和b

print('Score: %.2f' % lda.score(x_test, y_test))#测试集

print('Score: %.2f' % lda.score(x_train, y_train))#训练集

###############################################################################

x_train,x_test,y_train,y_test=load_data()

test_LinearDiscriminantAnalysis(x_train,x_test,y_train,y_test)

运行结果：

对比结果发现：原本的鸢尾花的测试集的预测准确度为100%，但经过分类器训练后，变成了97%也就是我们所说的训练集。

三、完成三、完成Iris数据集的数据集的 Fisher线性分类，及实现可视化线性分类，及实现可视化

Fisher的种映射关系还有一种作用就是作为降维技术，称为监督降维技术（因为是有训练数据的，所以称为监督）

from sklearn import datasets, cross_validation,discriminant_analysis

###############################################################################

#用莺尾花数据集

def load_data():

iris=datasets.load_iris()

return cross_validation.train_test_split(iris.data,iris.target,test_size=0.25,random_state=0,stratify=iris.target)

#返回为: 一个元组，依次为：训练样本集、测试样本集、训练样本的标记、测试样本的标记

###############################################################################

def plot_LDA(converted_X,y):

'''

绘制经过 LDA 转换后的数据

:param converted_X: 经过 LDA转换后的样本集

:param y: 样本集的标记

:return: None

'''

from mpl_toolkits.mplot3d import Axes3D

import matplotlib.pyplot as plt

fig=plt.figure()

ax=Axes3D(fig)

colors='rgb'

markers='o*s'

for target,color,marker in zip([0,1,2],colors,markers):

pos=(y==target).ravel()

X=converted_X[pos,:] ax.scatter(X[:,0], X[:,1], X[:,2],color=color,marker=marker,

label="Label %d"%target)

ax.legend(loc="best")

fig.suptitle("Iris After LDA")

plt.show()

###############################################################################

import numpy as np

x_train,x_test,y_train,y_test=load_data()

X=np.vstack((x_train,x_test))#沿着竖直方向将矩阵堆叠起来，把训练与测试的数据放一起来看

Y=np.vstack((y_train.reshape(y_train.size,1),y_test.reshape(y_test.size,1)))#沿着竖直方向将矩阵堆叠起来

lda = discriminant_analysis.LinearDiscriminantAnalysis()

lda.fit(X, Y)

converted_X=np.dot(X,np.transpose(lda.coef_))+lda.intercept_

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

用Jupyter notebook完成Iris数据集的 Fisher线性分类，并学习数据可视化技术

评论0

最新资源

用Jupyter notebook完成Iris数据集的 Fisher线性分类，并学习数据可视化技术

评论0

最新资源

相关推荐

基于Jupyter Notebook 的机器学习基本模型算法介绍(附加案例)

基于jupyter notebook的python编程—–机器学习中的线性分类器及相应判定方法(鸢尾花数据集的分类可视化)

人工智能基础学习： 用Jupyter完成Iris数据集的 Fisher线性分类，并学习数据可视化技术

Iris数据集的Fisher线性分类及可视化

作业2数据 数据+jupyter notebook

iris数据集

kmeans实现iris数据集分类

Iris_DataSet.csv 鸢尾花数据集 约150条数据，每条样本4个属性，共3个类别

Iris数据集（鸢尾花数据集）csv格式无空格完美版

手写数字识别（Jupyter Notebook文件）

Python 实现多元线性回归 Jupyter Notebook 源代码和数据.zip

Python 实现一元线性回归 Jupyter Notebook 源代码和数据.zip

用jupyter notebook实现贝叶斯定理

数据分析，画饼图的jupyter notebook

Python数据分析实践：JupyterNotebook使用.docx

陈俊辉数据分析实例 - Jupyter Notebook.pdf

iris_classification_BPNeuralNetwork:Python 基于BP神经网络实现鸢尾花的分类

基于Jupyter Notebook与MovieLens数据集的电影推荐系统设计与实现

基于paddle的绵羊品种分类python源码+数据集(使用Jupyter Notebook打开).zip

基于 jupyter notebook pytorch使用卷积网络的图像10分类附完整代码+数据集可直接运行 毕业设计

Jupyter notebook使用详解

Python-JupyterNotebook代码美化格式化扩展

数据可视化教学代码和案例（python+jupyter）

基于knn和线性回归实现的鸢尾花分类识别python源码+数据集+详细注释(Jupyter Notebook运行).zip

jupyter notebook 实现matplotlib图动态刷新

Jupyter Notebook安装包

使用jupyter notebook将文件保存为Markdown,HTML等文件格式

2022年全国医院数据（更新至2022年，42000家医院信息）

IEEE39节点数据、包括负荷、节点电压、发电机、线路等

人工智能基础学习：用Jupyter完成Iris数据集的 Fisher线性分类，并学习数据可视化技术

作业2数据数据+jupyter notebook

Iris_DataSet.csv 鸢尾花数据集约150条数据，每条样本4个属性，共3个类别

基于 jupyter notebook pytorch使用卷积网络的图像10分类附完整代码+数据集可直接运行毕业设计