贝叶斯与KNN算法实现_贝叶斯优化knn资源-CSDN文库

共5个文件

py：2个

txt：1个

docx：1个

机器学习

贝叶斯分类器

课程报告

5星 · 超过95%的资源需积分: 35 11 浏览量 2023-01-02 10:49:52 上传评论 2 收藏 734KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

贝叶斯与KNN算法实现.rar （5个子文件）

贝叶斯与KNN算法实现

贝叶斯与KNN算法实现.docx 800KB

bayes1.py 9KB

项目路径.txt 22B

iris.data 4KB

knn2.py 3KB

Bayes 和 KNN 分类器实现鸢尾花数据集分类

一、问题描述

鸢尾花数据集是入门的经典数据集。Iris 数据集是常用的分类实验数据集，

由 Fisher, 1936 收集整理。Iris 也称鸢尾花卉数据集，是一类多重变量分析的

数据集。数据集包含 150 个样本，分为 3 类，每类 50 个数据，每个数据包含 4

个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度 4 个属性预测鸢尾花

卉属于（山鸢尾 Setosa，变色鸢尾 Versicolour，维吉尼亚鸢尾 Virginica）三

个种类中的哪一类。在三个类别中，其中有一个类别和其他两个类别是线性可分

的。假设鸢尾花数据集的各个类别是服从正态分布的，尝试利用贝叶斯决策论的

原理，

1. 设计贝叶斯分类器；

2. 设计基于最近邻准则的分类器。

二、数据预处理

（1）划分数据集

数据集一共分为四个变量，分别为：花萼长度、花萼宽度、花瓣长度、花瓣

宽度。由数据集可以直观地看到 iris 数据集给出的三种花是按照顺序来的，前

50 个是第 0 类，51-100 是第 1 类，101~150 是第二类，分训练集和测试集时需

把顺序打乱。本次选取 120 个数据组为训练集，30 个为测试集。为实现随机性，

使用 random_state 随机形成模型训练数据和测试数据。

（2）数据可视化

由于花瓣宽度变化很小，将其省略后根据前三维数据画出散点图，如下所示：

图 1 三维散点图

其中，绿色点群为山鸢尾数据，蓝色点群为变色鸢尾数据，黄色点群为维吉

尼亚鸢尾。代码如下：

图 2 绘制三维散点图代码

三、模型基本原理

（1）朴素贝叶斯算法原理

朴素贝叶斯算法的原理是通过某对象的先验概率，利用贝叶斯公式计算出它

的后验概率（对象属于某一类的概率），选取具有最大后验概率的类作为该对象

所属的类。

朴素贝叶斯算法流程如下：

（1）设

1 2

{ , , , }

x a a a= K

为待分类项，其中

为

的一个特征属性；

（2）类别集合为

1 2

{ , , , }

x a a a= K

；

（3）分别计算

1 2

( | ), ( | ), , ( | )

P y x P y x P y xK

的值（贝叶斯公式）；

（4）如果

1 2

( | ) max{ ( | ), ( | ), , ( | )}

k n

P y x P y x P y x P y x= K

,那么认为

为

类

型。

因此，从上面可以看出，该算法的关键步骤就是（3）中的各个条件概率的

计算，基于独立性假设，可以这样计算：

（1）找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

（2）统计得到在各个类别下各个特征属性的条件概率估计值，即：

1 1 2 1 1

1 2 2 2 2

1 2

( | ), ( | ), , ( | )

n n m n

P a y P a y P a y

（1）

（3）如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

( | ) ( )

( | )

( )

P x yi P yi

P y x

P x

（2）

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各

特征属性是条件独立的，所以有：

1 2

( | ) ( | ) ( (( | ) ( ) ( ) ( ) | )| )

i i i i m i j

m i i

P x y P y y y y P y P y P yP a P aa P a

= =

（3）

常用模型——高斯朴素贝叶斯：

Gaussian Naive Bayes 是指当特征属性为连续值时，而且分布服从高斯分布，

那么在计算

( | )P x y

的时候可以直接使用高斯分布的概率公式：

( )

( , , )

, ,

k k

k k k y y

g x e

P x y g x

h s

=∣

（4）

因此只需要计算出各个类别中此特征项划分的各个均值和标准。

算法流程图如下：

图 3 贝叶斯算法流程图

（2）KNN 算法原理

k 近邻分类算法(k-Nearest Neighbor，KNN)，是一个理论上比较成熟的方法，

也是最简单的机器学习算法之一。k 近邻算法，即是给定一个训练数据集，对新

的输入实例，在训练数据集中找到与该实例最邻近的 K 个实例，这 k 个实例的

多数属于某个类，就把该输入实例分类到这个类中。

计算步骤：

（1）计算测试对象与训练集中所有对象的距离，选取欧式距；

（2）找出上步计算的距离中最近的 k 个对象，作为测试对象的 k 个邻居；

（3）找出 K 个邻居中类别出现频率最高的对象，其所属的类别就是该测试

对象所属的类别。

算法流程图如下：

图 3 KNN 算法流程图

四、贝叶斯分类器设计

（1）算法过程

1.读取样本数据集

1. def load_dataset(self):

2. url = 'iris.data'

3. names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']

4. dataset = pandas.read_csv(url, names=names)

5. return dataset

2.提取样本特征集和类别集划分训练/测试集

1. def split_out_dataset(self, dataset):

2. array = dataset.values # 将数据库转换成数组形式

3. X = array[:, 0:4].astype(float) # 取特征数值列

评论收藏

内容反馈

FelaniaLiu

2023-07-28

这篇文件对贝叶斯与KNN算法的优缺点进行了客观分析，为读者提供了全面的信息，让人可以做出明智的选择。
宝贝的麻麻

2023-07-28

这篇文件对贝叶斯与KNN算法的介绍很全面，帮助我更好地理解了两种算法的原理和应用。
不知者无胃口

2023-07-28

作者在这篇文件中用简洁清晰的语言解释了贝叶斯与KNN算法的实现过程，让人可以很容易地入门学习。
十二.12

2023-07-28

结合了理论和实践，这篇文件给读者提供了一个很好的学习资源，帮助他们掌握贝叶斯与KNN算法的实现方法。
罗小熙

2023-07-28

这篇文件提供了一些实际的案例来说明贝叶斯与KNN算法的应用，让读者可以更好地理解算法在实际问题中的效果。

在学习的小董

粉丝: 389
资源: 8

贝叶斯与KNN算法实现

贝叶斯和KNN算法比较——基于Adult数据集.rar_KNN贝叶斯_adult_knn 贝叶斯_贝叶斯

基于贝叶斯-KNN文本分类算法的设计与实现

贝叶斯算法和KNN算法的文本分类器Java实现

数据挖掘-基于贝叶斯算法及KNN算法.pdf

数据挖掘-基于贝叶斯算法及KNN算法.docx

贝叶斯优化LSSVM

KNN算法实现

KNN算法的代码实现

KNN分类器算法实现

c语言的KNN算法实现

贝叶斯人脸识别 pca knn算法的人脸识别

实现KNN、SVM、贝叶斯算法的文本分类系统

code_贝叶斯算法_KNN分类_

基于贝叶斯及KNN算法的newsgroup文本分类器

机器学习方法朴素贝叶斯模型、knn实现手写数字识别

KNN算法实现.ipynb

KNN算法C#实现

KNN算法的VC++实现

KNN算法的matlab实现

26.图像分类原理及基于KNN、朴素贝叶斯算法的图像分类案例1

纯python实现机器学习之kNN算法示例

基于贝叶斯及KNN算法的newsgroup文本分类器免积分下载版

KNN算法的MATLAB实现

KNN算法的Python实现

KNN算法JVAA实现

Python实现KNN算法

KNN算法的Matlab实现

KNN:KNN算法的Python实现

最新资源