分类与聚类,监督学习与无监督学习
在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是
聚类,以及都包含哪些具体算法或问题。
Classification ( 分类 ) ,对于一个 classifier ,通常需要你告诉它“这个
东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从
它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,
这种提供训练数据的过程通常叫做 supervised learning ( 监督学习 ).
Clustering( 聚类 ) ,简单地说就是把相似的东西分到一组,聚类的时候
,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东
西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似 度就
可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学
习,这在 Machine Learning 中被称作 unsupervised learning ( 无监督
学习 ).