K最近邻算法在分类和预测中的应用资源-CSDN文库

5星 · 超过95%的资源需积分: 12 29 浏览量 2012-06-01 09:53:38 上传评论 1 收藏 130KB PDF 举报

资源推荐

资源详情

资源评论

第一讲

k-最近邻算法在分类和预测中的应用

1 k-最近邻分类

在 k-最近邻算法背后的思想是建立一种对函数形式没有假设的分类方法，方程

，把因变量（或回应）和自变量联系起来。我们所做的唯

一的假设是，认为它是一个光滑的函数。这是一个非参数的方法，因为它不涉及在一个假设

了函数形式的方程中进行参数估计，这和我们在线性回归中碰到的线性假设和系数求解完全

不同。

),...,,(

21 p

xxxfy =

y

p

xxx ,...,

21

我们的训练数据中，每个观测点（observation）都含有 y 值，这个值刚好是该观测点的

类别。例如，如果我们有两个类，那么是一个二元的变量。k-最近相邻的方法是在训练数

据集中动态的确定和一个新的观测点相近的 k 个观测点，比如，对于点，我

们希望用 k 个观测点去把一个特定的观测点分到某一类中。如果我们知道函数，那就简

单地计算。如果我们所有的假设是：是一个光滑函数，那么一个合理

的想法就是在观测点集中寻找和它（根据自变量）相近的观测点，并从值计算出。这是

一个类似于插值的思想，如同我们常用的正态分布表。当我们谈到邻居时，通常隐含着我们

能够计算观测点间的距离或相异的度量，这些度量能够根据自变量得出。目前，我们局限于

最常见的距离度量方法中：欧几里德距离。点和之间的欧式距离

为：

y

),...,,(

21 p

uuu

^

v

f

),...,,(

21

^

p

uuufv =

f

y

^

v

),...,(

21 p

xxx ),...,(

21 p

uuu

22

22

2

11

)(...)()(

pp

uxuxux −++−+−

当讨论聚类方法的时候，我们会考虑在预测变量空间中点的距离的其它定义。

最简单的情况是当 k=1 的情况，这时我们发现观测点就是最近的（最近邻），并且，

这里是最近邻的观测点的类别。一个显著的事实是：这是简单的、直观的、有力的分类想

法，尤其当我们的训练集中观测点的数目很大的时候。可以证明 1-NN 的误分的概率不劣于

我们知道每个类的精确的概率密度函数时误分概率的 2 倍。换句话说，如果有大量的数据及

充分复杂的分类规则，我们最多能减少划分错误到用简单的 1-NN 规则时的一半。

yv =

^

y

下面我们延伸 1-NN 的想法为 k-NN。首先，发现最近 k 邻居然后用大量的决策规则去

分类一个新的观测点。由于在训练数据中存在噪声，高一点的 k 值的优点是提供平滑的分类，

以便减少过拟和的风险。在典型的应用中，k 是几个或十几个单元，而不是成百上千。注意

到如果 k=n，在整个观测数据训练集中的数据数目，我们仅仅预测在训练数据集中大多数训

练数据的所属类别，而不管的值如何。这显然是一个过平滑的例子，除非根本

就没有关于因变量的自变量的信息。

),...,(

21 p

uuu

1

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

内容反馈

zongxia900311

2013-06-06

里面没有程序啊，就是一个PDF文档，比较欠缺
姚小胖

2013-10-22

最近刚好做相关的东西，很有用，多谢！
W170532934

2013-11-25

最近在学这类的算法，谢谢。
u010783030

2013-06-03

还不错的小程序
junqinryoma

2014-08-12

不错期末大作业参考了一下

前往

页

angelaxiaohan

粉丝: 1
资源: 4

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip