我们生活在数据大爆炸时代,每时每刻都在产生海量的数据如视频,文
本,图像和博客等。由于数据的类型和大小已经超出了人们传统手工处理的能
力范围。聚类,作为一种最常见的无监督学习技术,可以帮助人们给数据自动
打标签,已经获得了广泛应用。聚类的目的就是把不同的数据点按照它们的相
似与相异度分割成不同的簇(注意:簇就是把数据划分后的子集),确保每个
簇中的数据都是尽可能相似,而不同的簇里的数据尽可能的相异。从模式识别
的角度来讲,聚类就是在发现数据中潜在的模式,帮助人们进行分组归类以达
到更好理解数据的分布规律。
今天要跟大家分享的这个工具就跟聚类有关,它是 ArcGIS 中一个空间模
式识别工具——基于密度的聚类分析。基于密度的聚类工具的工作原理是检测
点集中的区域以及被空的或稀疏的区域所分隔的区域。不属于聚类的点将被标
记为噪点。
城市供水网络是一种重要的隐形地下资产。管道破裂和爆裂的聚类可以指明潜在的问
题。使用基于密度的聚类工具,工程师可以找到这些聚类的位置并对供水网络中的高
危区域抢先采取行动。
假设您拥有 NBA 球员所有成功的和失败的投篮位置数据。基于密度的聚类可以显示
每名球员成功与失败投篮位置的不同模式。然后可利用此信息告知比赛战术。
假设您正在研究一种特别的害虫传播疾病,并且有一个代表您研究区域内家庭的点数
据集,其中有些家庭已经被感染,有些家庭尚未被感染。通过使用基于密度的聚类工
具,您可以确定受害家庭的最大聚类,以帮助确定一个区域以开始害虫的处理和消
灭。
可对自然灾害或恐怖袭击之后的地理定位推文进行聚类,根据所确定的聚类大小和位
置报告救援和疏散需求。
聚类可以将大规模的客户数据按照客户喜好进行归类,比如下图1 展示了聚类后发现
了 3 个簇。