【免费】机器学习算法总结21资源-CSDN文库

需积分: 0 20 浏览量更新于2022-08-03 收藏 1.95MB PDF 举报

【机器学习算法总结21】本文将探讨一种基础的机器学习算法——K近邻（K-Nearest Neighbors，简称KNN）。KNN是一种监督学习方法，用于分类和回归问题。其基本思想是：给定一个新的未知实例，通过查找训练集中与其最接近的K个已知实例（即K个“邻居”），并依据这些邻居的类别进行投票或平均来决定未知实例的类别。 KNN算法的工作原理如下： 1. 计算未知实例与所有训练实例之间的距离。 2. 选择距离最近的K个训练实例。 3. 根据这K个实例的类别进行投票，选择出现次数最多的类别作为未知实例的预测类别，或者对于回归问题，取这K个实例的平均值作为预测值。在实际应用中，KNN算法面临几个关键问题： - K值的选择：K值的大小会影响模型的复杂度和泛化能力。较小的K值可能导致过拟合，较大的K值可能增加噪声影响，降低模型的稳定性。 - 距离度量：如何衡量实例间的相似性，常用的有欧氏距离、曼哈顿距离、余弦相似度等。 - 处理类别不平衡：当不同类别的样本数量差距很大时，需要采取策略平衡影响，如加权投票。 - 计算效率：随着数据量的增大，KNN的计算复杂度会提高，因此需要优化搜索策略，如kd树、球树等数据结构。接下来，我们转向朴素贝叶斯算法。这是一种基于贝叶斯定理和特征条件独立假设的分类方法。朴素贝叶斯分类器的主要特点包括： 1. 基于贝叶斯定理计算后验概率，目标是最大化后验概率，即期望风险最小化。 2. 假设特征之间相互独立，这使得计算简化，但也是其“朴素”之处，因为现实中的特征往往并非完全独立。 3. 参数估计通常采用极大似然估计，处理连续特征时使用高斯模型（假设特征服从正态分布），离散特征时则使用多项式模型（如拉普拉斯平滑）或伯努利模型（适用于二元特征）。朴素贝叶斯算法的步骤包括： 1. 训练阶段：计算各类别的先验概率和每个特征对各类别的条件概率。 2. 应用阶段：根据输入的测试样本，通过贝叶斯公式计算后验概率，预测所属类别。朴素贝叶斯的优点在于计算高效、易于理解，尤其适合大规模数据集。然而，其对特征独立的假设可能在实际问题中过于理想化，可能导致性能下降。相比之下，逻辑回归是一种判别模型，不需要条件独立假设，适应性更强，但在小数据集上可能不如朴素贝叶斯效果好。在Python的scikit-learn库中，可以方便地实现朴素贝叶斯的各种模型，如GaussianNB（高斯朴素贝叶斯）、MultinomialNB（多项式朴素贝叶斯）和BernoulliNB（伯努利朴素贝叶斯）。 KNN和朴素贝叶斯是机器学习中两种重要的基础算法，各有优缺点，适用于不同的问题场景。理解和掌握这些算法有助于我们构建更强大的机器学习模型。

机器学习算法总结2 

6.朴素贝叶斯 

参考文章：

《统计学习方法》

机器学习常见算法个人总结（面试用）

朴素贝叶斯理论推导与三种常见模型

朴素贝叶斯的三个常用模型：高斯、多项式、伯努利

简介 

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。

贝叶斯定理是基于条件概率来计算的，条件概率是在已知事件B发生的前提下，求解事件A发生的概率，即

，而贝叶斯定理则可以通过来求解：

其中分母可以根据全概率公式分解为：

而特征条件独立假设是指假设各个维度的特征互相独立，则条件概率可以转化为：

朴素贝叶斯分类器可表示为：

而由于对上述公式中分母的值都是一样的，所以可以忽略分母部分，即可以表示为：

这里是先验概率，而则是后验概率，朴素贝叶斯的目标就是最大化后验概率，这等价于期望风险最小

化。

参数估计 

极大似然估计 

朴素贝叶斯的学习意味着估计和 ,可以通过极大似然估计来估计相应的概率。

表示类别为的样本中，第维特征的均值；

表示类别为的样本中，第维特征的方差。

伯努利模型 

与多项式模型一样，伯努利模型适用于离散特征的情况，所不同的是，伯努利模型中每个特征的取值只能是1和

0(以文本分类为例，某个单词在文档中出现过，则其特征值为1，否则为0).

伯努利模型中，条件概率的计算方式是：

当特征值为1时，；

当特征值为0时，；

工作流程 

1.准备阶段

确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本。

2.训练阶段

计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计

3.应用阶段

使用分类器进行分类，输入是分类器和待分类样本，输出是样本属于的分类类别

属性特征 

1.特征为离散值时直接统计即可（表示统计概率）

2.特征为连续值的时候假定特征符合高斯分布，则有

与逻辑回归的不同 

1.NaiveBayes是一个生成模型，在计算P(y|x)之前，先要从训练数据中计算P(x|y)和P(y)的概率，从而利用贝

叶斯公式计算P(y|x)。

LogisticRegression是一个判别模型，它通过在训练数据集上最大化判别函数P(y|x)学习得到，不需要知道

P(x|y)和P(y)。

2.NaiveBayes是建立在条件独立假设基础之上的，设特征X含有n个特征属性（X1，X2，...Xn），那么在给定

Y的情况下，X1，X2，...Xn是条件独立的。

LogisticRegression的限制则要宽松很多，如果数据满足条件独立假设，LogisticRegression能够取得非常好

的效果；当数据不满足条件独立假设时，LogisticRegression仍然能够通过调整参数让模型最大化的符合数据

的分布，从而训练得到在现有数据集下的一个最优模型。

3.当数据集比较小的时候，应该选用NaiveBayes，为了能够取得很好的效果，数据的需求量为O(logn)

当数据集比较大的时候，应该选用LogisticRegression，为了能够取得很好的效果，数据的需求量为O(n)

与逻辑回归的相同 

剩余23页未读，继续阅读

资源推荐

资源评论

无声远望

粉丝: 1127
资源: 298

机器学习算法总结21

机器学习算法总结_决策树(含代码).pdf

机器学习算法总结

传统机器学习算法总结

机器学习算法总结ppt

机器学习算法总结1

学习机器学习基础算法总结

机器学习算法分类

机器学习算法总结.docx

机器学习算法地图

基于机器学习算法的交通标志图像智能识别.pdf

人工智能背景下量子机器学习算法的概论.pdf

机器学习算法总结决策树.docx

机器学习算法总结_决策树.docx

机器学习实战 - k近邻算法（KNN算法）总结

机器学习算法总结，包括代码sklearn库的

人工智能机器学习常用算法总结及各个常用算法精确率对比

机器学习总结，人工智能学习，机器学习算法总结

量子机器学习算法综述.pdf

机器学习十大经典算法总结

量子机器学习算法综述 (1).pdf

机器学习算法在冠心病和心梗预测中的应用.pdf

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

BurpLoaderKeygen.jar.zip

BurpSuite V2024.1.1专业版

Chrome Header Editor 插件

最新资源