聚类分析定义聚类分析是根据数据中找到的描述对象及其关系的信息对数据对象进行分组。八:聚类算法K-means(20191223-29学习内容:无监督聚类算法KMeanskmeans:模型原理、收敛过程、超参数的选取,聚类分析在数据中找到对象之间的关系,放入数据。
学习内容:无监督聚类算法KMeanskmeans:模型原理、收敛过程、超参数的选取。聚类分析发现数据对象之间的关系。分组数据,组内相似度越大越好。不同的聚类类型:聚类旨在发现有用的对象聚类。现实中我们使用的聚类类型很多,用不同的聚类类型划分数据的结果是不一样的。基于原型(Prototype-based):一个集群是一个对象的集合,其中每个对象与定义该集群的原型之间的距离比其他集群之间的距离更近。如(b)所示,原型是中心点,一个簇中的数据比另一个簇的中心点更靠近其中心点。
这种簇趋向于球形。基于密度:聚类是对象的密度区域,(d)显示基于密度的聚类。当聚类是不规则的或交织的,并且存在早晨和异常值时,通常使用基于密度的聚类定义。有关集群的更多介绍,请参考数据挖掘简介。基本聚类分析算法1。K-means:基于原型,分割距离技术,它试图找到一个用户指定数量(k)的聚类。
我们来看看聚类分析。K-means聚类是一种流行的聚类方法,属于分割聚类方法。KMeans算法的思想很简单。对于给定的样本集,根据样本之间的距离将其划分为k个聚类。让簇内的点尽可能的紧密连接,让簇间的距离尽可能的大。目标是最小化Esum(x\miu_i),其中\miu_i是每个聚类的平均值。直接求上述公式的最小值并不容易,这是一个NP难问题,所以采用了启发式迭代法KMeans。
上图A所示为初始数据集,假设k3。在图B中,我们随机选取三个K类别对应的类别质心,即图中的红绿和草绿质心,然后分别求出样本中所有点到这三个质心的距离,将每个样本的类别标记为与样本距离最小的类别,如图c所示,计算样本与红绿和草绿质心的距离后,第一次迭代后得到所有样本点的类别。此时,我们找到我们当前点的新质心,分别标记为红色、绿色和草绿色,重复这个过程,将所有点的类别标记为最近质心的类别,找到新质心。