(1)什么是聚类? 聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小,属于无监督学习。 聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。 聚类算法和分类算法的区别:
分类算法是有监督学习,基于有标注的历史数据进行算法模型构建聚类算法是无监督学习,数据集中的数据是没有标注的(2)相似度/距离公式
闵可夫斯基距离(Minkowski)dist(X,Y)=∑i=1n∣xi−yi∣pp dist(X, Y)=sqrt[p]{sum_{i=1}^n|x_i-y_i|^p} dist(X,Y)=pi=1∑n∣xi−yi∣p
当p为1的时候是曼哈顿距离(Manhattan) M_dist=∑i=1n∣xi−yi∣ M_dist=sum_{i=1}^n|x_i-y_i| M_dist=i=1∑n∣xi−yi∣当p为2的时候是欧式距离(Euclidean) E_dist=∑i=1n(xi−yi)2 E_dist=sqrt{sum_{i=1}^n(x_i-y_i)^2} E_dist=i=1∑n(xi−yi)2当p为无穷大的时候是切比雪夫距离(Chebyshev) C_dist=maxi(∣xi−yi∣) C_dist=max_i{(|x_i-y_i|)} C_dist=imax(∣xi−yi∣)标准化欧式距离(Standardized Euclidean Distance)X∗=X−X‾ss=∑i=1n(si−s‾)2nS_E_D=∑i=1n(xi−yisi)2 begin{aligned} X^{ast}&=frac{X-overline{X}}{s} \ s&=sqrt{frac{sum_{i=1}^n(s_i-overline{s})^2}{n}} \ S_E_D&=sqrt{sum_{i=1}^n(frac{x_i-y_i}{s_i})^2} end{aligned} X∗sS_E_D=sX−X=n∑i=1n(si−s)2=i=1∑n(sixi−yi)2
夹角余弦相似度(Cosine)a=(x11,x12,…,x1n)b=(x21,x22,…,x2n)cos(θ)=∑i=1nx1kx2k∑k=1nx1k2⋅∑k=1nx2k2=aT⋅b∣a∣∣b∣ begin{aligned} a&=(x_{11}, x_{12},dots, x_{1n}) \ b&=(x_{21}, x_{22},dots, x_{2n}) \ cos(theta)&=frac{sum_{i=1}^nx_{1k}x_{2k}}{sqrt{sum_{k=1}^nx_{1k}^2}cdotsqrt{sum_{k=1}^nx_{2k}^2}} &=frac{a^Tcdot b}{|a||b|} end{aligned} abcos(θ)=(x11,x12,…,x1n)=(x21,x22,…,x2n)=∑k=1nx1k2⋅∑k=1nx2k2∑i=1nx1kx2k=∣a∣∣b∣aT⋅b
KL距离(相对熵)D(P∣∣Q)=∑xP(x)log(P(x)Q(x)) D(P||Q)=sum_xP(x)log(frac{P(x)}{Q(x)}) D(P∣∣Q)=x∑P(x)log(Q(x)P(x))
杰卡德相似系数(Jaccard)J(A,B)=∣A⋂B∣∣A⋃B∣dist(A,B)=1−J(A,B)=∣A⋃B∣−∣A⋂B∣∣A⋃B∣ begin{aligned} J(A, B)&=frac{|Abigcap B|}{|Abigcup B|} \ dist(A, B)&=1-J(A, B) \ &=frac{|Abigcup B|-|Abigcap B|}{|Abigcup B|} end{aligned} J(A,B)dist(A,B)=∣A⋃B∣∣A⋂B∣=1−J(A,B)=∣A⋃B∣∣A⋃B∣−∣A⋂B∣
Pearson相关系数ρXY=Cov(X,Y)D(X)⋅D(Y)=E(X−E(X))(Y−E(Y))D(X)⋅D(Y)=∑i=1n(Xi−μX)(Yi−μY)∑i=1n(Xi−μX)2⋅∑i=1n(Yi−μY)2dist(X,Y)=1−ρXY begin{aligned} rho_{XY}&=frac{Cov(X,Y)}{sqrt{D(X)}cdotsqrt{D(Y)}} \ &=frac{E{(X-E(X))(Y-E(Y))}}{sqrt{D(X)}cdotsqrt{D(Y)}} \ &=frac{sum_{i=1}^n(X_i-mu_X)(Y_i-mu_Y)}{sqrt{sum_{i=1}^n(X_i-mu_X)^2}cdotsqrt{sum_{i=1}^n(Y_i-mu_Y)^2}} \ dist(X,Y)&=1-rho_{XY} end{aligned} ρXYdist(X,Y)=D(X)⋅D(Y)Cov(X,Y)=D(X)⋅D(Y)E(X−E(X))(Y−E(Y))=∑i=1n(Xi−μX)2⋅∑i=1n(Yi−μY)2∑i=1n(Xi−μX)(Yi−μY)=1−ρXY (3)聚类的思想 给定一个有M个对象的数据集,构建一个具有k个簇的模型,其中k<=M。满足以下条件:
每个簇至少包含一个对象每个对象属于且仅属于一个簇将满足上述条件的k个簇称为一个合理的聚类划分。 对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使得每次处理后得到的划分方式比上一次的好(总的数据集之间的距离和变小了)。
2、K-Means算法(1)K-Means算法的原理 K-Means算法,也称为K-平均或者K-均值,是一种使用广泛的最基础的聚类算法,一般作为掌握聚类算法的第一个算法。 假设输入样本为T=X1,X2,...,XmT=X_1, X_2 ,..., X_mT=X1,X2,...,Xm,则算法步骤为(使用欧几里得距离公式):
选择初始化的k个类别中心a1,a2,…,aka_1, a_2,dots,a_ka1,a2,…,ak对于每个样本XiX_iXi,将其标记为距离类别中心aja_jaj最近的类别j更新每个类别的中心点aja_jaj为隶属该类别的所有样本的均值重复上面两步操作,直到达到某个中止条件中止条件:迭代次数大于阈值,或者最小平方误差MSE小于阈值,或者簇中心点变化率小于阈值。 最小平方误差: MSE=argmin1≤j≤k∑i=1n(xi−aj)2 MSE=argmin_{1le jle k}{sqrt{sum_{i=1}^n(x_i-a_j)^2}} MSE=arg1≤j≤kmini=1∑n(xi−aj)2 簇中心点变化率: aj=1N(cj)∑i∈cjxj a_j=frac{1}{N(c_j)}sum_{iin c_j}x_j aj=N(cj)1i∈cj∑xj 记K个簇中心分别为a1,a2,…aka_1, a_2,dots a_ka1,a2,…ak,每个簇的样本数量为N1,N2,…,NKN_1, N_2,dots,N_KN1,N2,…,NK,使用欧几里得距离公式,平方误差作为目标函数,目标函数公式为: J(a1,a2,…,ak)=12∑j=1K∑i=1n(xi−aj)2 J(a_1, a_2, dots, a_k)=frac{1}{2}sum_{j=1}^Ksum_{i=1}^n(x_i-a_j)^2 J(a1,a2,…,ak)=21j=1∑Ki=1∑n(xi−aj)2 要获取最优解,也就是目标函数需要尽可能的小,对J函数求偏导数,可以得到簇中心点a更新的公式为: ∂J∂aj=∑i=1n(xi−aj)令→0⇒aj=1Nj∑i=1Njxj begin{aligned} frac{partial J}{partial a_j}&=sum_{i=1}^n(x_i-a_j)underrightarrow{令} 0 \ Rightarrow a_j&=frac{1}{N_j}sum_{i=1}^{N_j}x_j end{aligned} ∂aj∂J⇒aj=i=1∑n(xi−aj)令0=Nj1i=1∑Njxj K-Means算法在迭代的过程中使用所有点的均值作为新的质点(中心点),如果簇中存在异常点,将导致均值偏差比较严重。比如一个簇中有2、4、6、8、100五个数据,那么新的质点为24,显然这个质点离绝大多数点都比较远。在当前情况下,使用中位数6可能比使用均值更好,使用中位数的聚类方式叫做K-Mediods聚类(K中值聚类)。 K-Means算法是初值敏感的,选择不同的初始值可能导致不同的簇划分规则。为了避免这种敏感性导致的最终结果异常性,可以采用初始化多套初始点构造不同的分类规则,然后选择最优的构造规则。 (2)K-Means算法的优缺点 优点:
理解容易,聚类效果不错处理大数据集的时候,该算法可以保证较好的伸缩性和高效率当簇近似高斯分布的时候,效果非常不错缺点:
K值是用户给定的,在进行数据处理前,K值是未知的,不同的K值得到的结果也不一样对初始簇中心点是敏感的不适合发现非凸形状的簇或者大小差别较大的簇特殊值(离群值)对模型的影响比较大(3)二分K-Means算法 二分K-Means解决K-Means算法对初始簇心比较敏感的问题,二分K-Means算法是一种弱化初始质心的算法。具体思路步骤如下:
将所有样本数据作为一个簇放到一个队列中从队列中选择一个簇进行K-Means算法划分,划分为两个子簇,并将子簇添加到队列中循环迭代第二步操作,直到中止条件达到(聚簇数量、最小平方误差、迭代次数等)队列中的簇就是最终的分类簇集合从队列中选择划分聚簇的规则一般有两种方式,分别如下:
对所有簇计算误差和SSE(SSE也可以认为是距离函数的一种变种),选择SSE最大的聚簇进行划分操作(优选这种策略) SSE=∑i=1nwi(yi−y^i)2 SSE=sum_{i=1}^nw_i(y_i-hat y_i)^2 SSE=i=1∑nwi(yi−y^i)2选择样本数据量最多的簇进行划分操作(4)K-Means++算法 解决K-Means算法对初始簇心比较敏感的问题,K-Means++算法和K-Means算法的区别主要在于初始的K个中心点的选择方面。K-Means算法使用随机给定的方式,K-Means++算法采用下列步骤给定K个初始质点:
从数据集中任选一个节点作为第一个聚类中心对数据集中的每个点x,计算x到所有已有聚类中心点的距离和D(X),基于D(X)采用线性概率选择出下一个聚类中心点(距离较远的一个点成为新增的一个聚类中心点)重复步骤2直到找到k个聚类中心点K-Means++算法的缺点:由于聚类中心点选择过程中的内在有序性,在扩展方面存在着性能方面的问题,即第k个聚类中心点的选择依赖前k-1个聚类中心点的值。 (5)K-Means||算法 解决K-Means++算法缺点而产生的一种算法,主要思路是改变每次遍历时候的取样规则,并非按照K-Means++算法每次遍历只获取一个样本,而是每次获取K个样本,重复该取样操作O(logn)次,然后再将这些抽样出来的样本聚类出K个点,最后使用这K个点作为K-Means算法的初始聚簇中心点。实践证明:一般5次重复采样就可以保证一个比较好的聚簇中心点。 (6)Canopy算法 1)Canopy算法的原理 Canopy算法属于一种“粗”聚类算法,执行速度较快,但精度较低,算法执行 步骤如下:
给定样本列表L=x1,x2,…,xmL=x_1, x_2,dots, x_mL=x1,x2,…,xm以及先验值r1r_1r1和r2r_2r2(r1>r2r_1gt r_2r1>r2)从列表L中获取一个节点P,计算P到所有聚簇中心点的距离(如果不存在聚簇中心,那么此时点P形成一个新的聚簇),并选择出最小距离D(P,aj)D(P, a_j)D(P,aj)如果距离D小于r1r_1r1,表示该节点属于该聚簇,添加到该聚簇列表中如果距离D小于r2r_2r2,表示该节点不仅仅属于该聚簇,还表示和当前聚簇中心点非常近,所以将该聚簇的中心点设置为P,并将P从列表L中删除如果距离D大于r1r_1r1,那么节点P形成一个新的聚簇直到列表L中的元素数据不再有变化或者元素数量为0的时候,结束循环操作Canopy算法得到的最终结果,聚簇之间是可能存在重叠的,但是不会存在某个对象不属于任何聚簇的情况。 2)Canopy算法常用应用场景 由于K-Means算法存在初始聚簇中心点敏感的问题,常用使用Canopy+K-Means算法混合形式进行模型构建。先使用Canopy算法进行“粗”聚类得到K个聚类中心点,K-Means算法使用Canopy算法得到的K个聚类中心点作为初始中心点,进行“细”聚类。 3)Canopy算法优点
执行速度快(先进行了一次聚簇中心点选择的预处理)不需要给定K值,应用场景多能够缓解K-Means算法对于初始聚类中心点敏感的问题(7)Mini Batch K-Means算法 Mini Batch K-Means算法是K-Means算法的一种优化变种,采用小规模的数据子集,每次训练使用的数据集是在训练算法的时候随机抽取的数据子集,以减少计算时间,同时试图优化目标函数。Mini Batch K-Means算法可以减少K-Means算法的收敛时间,而且产生的结果的效果只是略差于标准K-Means算法。 Mini Batch K-Means算法步骤如下:
首先抽取部分数据集,使用K-Means算法构建出K个聚簇点的模型继续抽取训练数据集中的部分数据集样本数据,并将其添加到模型中,分配给距离最近的聚簇中心点更新聚簇的中心点值循环迭代第二步和第三步操作,直到中心点稳定或者达到迭代次数,停止计算操作3、聚类算法的衡量指标(1)均一性 一个簇中只包含一个类别的样本,则满足均一性。也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)。 p=1k∑i=1kN(Ci==Ki)N(Ki) p=frac{1}{k}sum_{i=1}^kfrac{N(C_i==K_i)}{N(K_i)} p=k1i=1∑kN(Ki)N(Ci==Ki) (2)完整性 同类别样本被归类到相同簇中,则满足完整性。每个聚簇中正确分类的样本数占该类型的总样本数比例的和。 r=1k∑i=1kN(Ci==Ki)N(Ci) r=frac{1}{k}sum_{i=1}^kfrac{N(C_i==K_i)}{N(C_i)} r=k1i=1∑kN(Ci)N(Ci==Ki) (3)V-measure 均一性和完整性的加权平均。 vβ=(1+β2)⋅prβ2⋅p+r v_beta=frac{(1+beta^2)cdot pr}{beta^2cdot p+r} vβ=β2⋅p+r(1+β2)⋅pr (4)Rand index(兰德指数,RI) RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。 RI=a+bc2nsamples RI=frac{a+b}{c_2^{n_{samples}}} RI=c2nsamplesa+b 其中C表示实际类别信息,K表示聚类结果,a表示在C与K中都是同类别的元素的对数,b表示在C与K中都是不同类别的元素的对数,c2nsamplesc_2^{n_{samples}}c2nsamples表示数据集中可以组成的对数。 (5)调整兰德系数(ARI,Adjusted Rnd Index) ARI取值范围为[-1,1],值越大表示聚类结果和真实情况越吻合。从广义的角度来讲,ARI是衡量两个数据分布的吻合程度的。 ARI=RI−E[RI]max(RI)−E(RI) ARI=frac{RI-E[RI]}{max{(RI)}-E(RI)} ARI=max(RI)−E(RI)RI−E[RI] (6)轮廓系数 簇内不相似度:计算样本i到同簇其它样本的平均距离aia_iai,aia_iai越小,表示样本i越应该被聚类到该簇,簇C中的所有样本的aia_iai的均值被称为簇C的簇不相似度。 簇间不相似度:计算样本i到其它簇CjC_jCj的所有样本的平均距离bijb_{ij}bij,bi=min{bi1,bi2,…,bik}b_i=min{b_{i1}, b_{i2},dots, b_{ik}}bi=min{bi1,bi2,…,bik},bib_ibi越大,表示样本i越不属于其它簇。 轮廓系数:sis_isi值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上。所有样本的sis_isi的均值被称为聚类结果的轮廓系数。 s(i)=b(i)−a(i)max{a(i),b(i)}s(i)={1−a(i)b(i),a(i)<b(i)0,a(i)=b(i)b(i)a(i)−1,a(i)>b(i) begin{aligned} s(i)&=frac{b(i)-a(i)}{max{a(i), b(i)}} \ s(i)&=begin{cases}1-frac{a(i)}{b(i)}, &a(i)lt b(i) \ 0, &a(i)=b(i) \ frac{b(i)}{a(i)}-1, &a(i)gt b(i)end{cases} end{aligned} s(i)s(i)=max{a(i),b(i)}b(i)−a(i)=⎩⎪⎨⎪⎧1−b(i)a(i),0,a(i)b(i)−1,a(i)<b(i)a(i)=b(i)a(i)>b(i)
4、层次聚类方法(1)传统的层次聚类算法 层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止。传统的层次聚类算法主要分为两大类算法:
凝聚的层次聚类:AGNES算法(AGglomerative NESting)采用自底向上的策略。 最初将每个对象作为一个簇,然后这些簇根据某些准则被一步一步合并,两个簇间的距离可以由这两个不同簇中距离最近的数据点的相似度来确定。聚类的合并过程反复进行直到所有的对象满足簇数目分裂的层次聚类:DIANA算法(DIvisive ANALysis)采用自顶向下的策略。首先将所有对象置于一个簇中,然后按照某种既定的规则逐渐细分为越来越小的簇(比如最大的欧式距离),直到达到某个终结条件(簇数目或者簇距离达到阈值)AGNES算法中的簇间距离:
最小距离(SL聚类)两个聚簇中最近的两个样本之间的距离(single/word-linkage聚类法)最终得到模型容易形成链式结构最大距离(CL聚类)两个聚簇中最远的两个样本的距离(complete-linkage聚类法)如果存在异常值,那么构建可能不太稳定平均距离(AL聚类)两个聚簇中样本间两两距离的平均值(average-linkage聚类法)两个聚簇中样本间两两距离的中值(median-linkage聚类法)AGNES和DIANA算法的优缺点:
简单,理解容易合并点/分裂点选择不太容易合并/分类的操作不能进行撤销大数据集不太适合执行效率较低O(t×n2)O(ttimes n^2 )O(t×n2),t为迭代次数,n为样本点数(2)BIRCH算法(平衡迭代削减聚类法) BIRCH算法的聚类特征使用3元组记录一个簇的相关信息,通过构建满足分枝因子和簇直径限制的聚类特征树来求聚类。聚类特征树其实是一个具有两个参数分枝因子和类直径的高度平衡树。分枝因子规定了树的每个节点的子女的最多个数,而类直径体现了对这一类点的距离范围。非叶子节点为它的子女的最大特征值。聚类特征树的构建可以是动态过程的,可以随时根据数据对模型进行更新操作。 BIRCH算法的优缺点:
适合大规模数据集,线性效率只适合分布呈凸形或者球形的数据集,需要给定聚类个数和簇直径的限制(3)CURE算法(使用代表点的聚类法) CURE算法先把每个数据点看成一类,然后合并距离最近的类直至类个数为所要求的个数为止。但是和AGNES算法的区别是:取消了使用所有点或用中心点+距离来表示一个类,而是从每个类中抽取固定数量、分布较好的点作为此类的代表点,并将这些代表点乘以一个适当的收缩因子,使它们更加靠近类中心点。代表点的收缩特性可以调整模型可以匹配那些非球形的场景,而且收缩因子的使用可以减少噪音对聚类的影响。 CURE算法的优缺点:
能够处理非球形分布的应用场景采用随机抽样和分区的方式可以提高算法的执行效率5、密度聚类方法密度聚类方法的指导思想:只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中。这类算法可以克服基于距离的算法只能发现凸聚类的缺点,可以发现任意形状的聚类,而且对噪声数据不敏感。但是计算复杂度高,计算量大。 常用密度聚类算法:
DBSCAN密度最大值算法(1)DBSCAN算法 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法,相比于基于划分的聚类方法和层次聚类方法,DBSCAN算法将簇定义为密度相连的点的最大集合,能够将足够高密度的区域划分为簇,并且在具有噪声的空间数据上能够发现任意形状的簇。 DBSCAN算法的核心思想是:用一个点的ε邻域内的邻居点数衡量该点所在空间的密度,该算法可以找出形状不规则的cluster,而且聚类的时候事先不需要给定cluster的数量。
DBSCAN算法基本概念ε邻域ε邻域(ε neighborhood,也称为Eps),给定对象在半径ε内的区域。 Nε(x)={y∈X:dist(x,y)≤ε} N_varepsilon(x)={yin X:dist(x,y)levarepsilon} Nε(x)={y∈X:dist(x,y)≤ε}
密度(density)ε邻域中x的密度是一个整数值,依赖于半径ε。 p(x)=∣Nε(x)∣ p(x)=|N_varepsilon(x)| p(x)=∣Nε(x)∣
MinPtsMinPts定义核心点的阈值,简记为M。
核心点(core point)如果p(x)>=M,那么称x为X的核心点。记由X中所有核心点构成的集合为XcX_cXc,并记Xnc=X∖XcX_{nc}=Xsetminus X_cXnc=X∖Xc表示由X中所有非核心点构成的集合。直白来讲,核心点对应于稠密区域内部的点。
边界点(border point)如果非核心点x的ε邻域中存在核心点,那么认为x为X的边界点。由X中所有的边界点构成的集合为XbdX_{bd}Xbd。直白来讲,边界点对应稠密区域边缘的点。 x∈Xnc∃y∈Xy∈Nε(x)∩Xc xin X_{nc} \ exists yin X \ yin N_varepsilon(x)cap X_c x∈Xnc∃y∈Xy∈Nε(x)∩Xc
噪音点(noise point)集合中除了边界点和核心点之外的点都是噪音点,所有噪音点组成的集合叫做XnoiX_{noi}Xnoi。直白来讲,噪音点对应稀疏区域的点。 Xnoi=X∖(Xc⋃Xbd) X_{noi}=Xsetminus (X_cbigcup X_{bd}) Xnoi=X∖(Xc⋃Xbd)
直接密度可达(directly density-reachable)给定一个对象集合X,如果y是在x的ε邻域内,而且x是一个核心对象,可以说对象y从对象x出发是直接密度可达的。 x,y∈Xx∈Xc,y∈Nε(x) x,yin X \ xin X_c, yin N_varepsilon(x) x,y∈Xx∈Xc,y∈Nε(x)
密度可达(density-reachable)如果存在一个对象链p1,p2,…pmp_1, p_2,dots p_mp1,p2,…pm,如果满足pi+1p _{i+1}pi+1是从pip_ipi直接密度可达的,那么称pmp_mpm是从p1p_1p1密度可达的。
密度相连(density-connected)在集合X中,如果存在一个对象o,使得对象x和y是从o关于ε和m密度可达的,那么对象x和y是关于ε和m密度相连的。
簇(cluster)一个基于密度的簇是最大的密度相连对象的集合C。满足以下两个条件:
Maximality:若x属于C,而且y是从x密度可达的,那么y也属于CConnectivity:若x属于C,y也属于C,则x和y是密度相连的DBSCAN算法流程如果一个点x的 ε邻域包含多于m个对象,则创建一个x作为核心对象的新簇寻找并合并核心对象直接密度可达的对象没有新点可以更新簇的时候,算法结束算法特征描述每个簇至少包含一个核心对象非核心对象可以是簇的一部分,构成簇的边缘包含过少对象的簇被认为是噪声DBSCAN算法的优点不需要事先给定cluster的数目可以发现任意形状的cluster能够找出数据中的噪音,且对噪音不敏感算法只需要两个输入参数聚类结果几乎不依赖节点的遍历顺序DBSCAN算法的缺点DBSCAN算法聚类效果依赖距离公式的选取,最常用的距离公式为欧几里得距离。但是对于高维数据,由于维数太多,距离的度量已变得不是那么重要DBSCAN算法不适合数据集中密度差异很大的情况(2)密度最大值聚类算法(MDCA) MDCA(Maximum Density Clustering Application)算法基于密度的思想引入划分聚类中,使用密度而不是初始点作为考察簇归属情况的依据,能够自动确定簇数量并发现任意形状的簇。另外MDCA一般不保留噪声,因此也避免了阈值选择不当情况下造成的对象丢弃情况。 MDCA算法的基本思路是寻找最高密度的对象和它所在的稠密区域。MDCA算法在原理上来讲,和密度的定义没有关系,采用任意一种密度定义公式均可,一般情况下采用DBSCAN算法中的密度定义方式。
MDCA概念最大密度点xmax={x∣x∈X;∀y∈X,density(x)≥density(y)} x_{max}={x|xin X; forall yin X, density(x)ge density(y)} xmax={x∣x∈X;∀y∈X,density(x)≥density(y)}
有序序列根据所有对象与pmaxp_{max}pmax的距离对数据重新排序。 Spmax={x1,x2,…,xn∣dist(xmax,x1)≤dist(xmax,x2)≤⋯≤dist(xmax,xn)} S_{p_{max}}={x_1, x_2, dots, x_n|dist(x_{max}, x_1)le dist(x_{max}, x_2)ledotsle dist(x_{max}, x_n)} Spmax={x1,x2,…,xn∣dist(xmax,x1)≤dist(xmax,x2)≤⋯≤dist(xmax,xn)}
密度阈值density0density_0density0当节点的密度值大于密度阈值的时候,认为该节点属于一个比较固定的簇,在第一次构建基本簇的时候,就将这些节点添加到对应簇中,如果小于这个值的时候,暂时认为该节点为噪声节点。
簇间距离对于两个簇C1C_1C1和C2C_2C2之间的距离,采用两个簇中最近两个节点之间的距离作为簇间距离。 dist(C1,C2)=min(dist(p,q));p∈C1,q∈C2 dist(C_1, C_2)=min(dist(p, q)); pin C_1, qin C_2 dist(C1,C2)=min(dist(p,q));p∈C1,q∈C2
聚簇距离阈值dist0dist_0dist0当两个簇的簇间距离小于给定阈值的时候,这两个簇的结果数据会进行合并操作。
M值初始簇中最多数据样本个数。
MDCA算法聚类过程步骤将数据集划分为基本簇。对数据集X选取最大密度点PmaxP_{max}Pmax,形成以最大密度点为核心的新簇CiC_iCi,按照距离排序计算出序列SpmaxS_{pmax}Spmax,对序列的前M个样本数据进行循环判断,如果节点的密度大于等于density0density_0density0,那么将当前节点添加到CiC_iCi中循环处理剩下的数据集X,选择最大密度点PmaxP_{max}Pmax,并构建基本簇Ci+1C_{i+1}Ci+1,直到X中剩余的样本数据的密度均小于density0density_0density0使用凝聚层次聚类的思想,合并较近的基本簇,得到最终的簇划分。在所有簇中选择距离最近的两个簇进行合并,合并要求是:簇间距小于等于dist0dist_0dist0,如果所有簇中没有簇间距小于dist0dist_0dist0的时候,结束合并操作处理剩余节点,归入最近的簇6、谱聚类方法(1)谱聚类基本概念 谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比,具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。 通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据进行聚类的目的。其本质是将聚类问题转换为图的最优划分问题,是一种点对聚类算法。 谱聚类算法将数据集中的每个对象看做图的顶点V,将顶点间的相似度量化为相应顶点连接边E的权值w,这样就构成了一个基于相似度的无向加权图G(V,E),于是聚类问题就转换为图的划分问题。基于图的最优划分规则就是子图内的相似度最大,子图间的相似度最小。 (2)谱聚类的构建过程
构建表示对象相似度的矩阵W构建度矩阵D(对角矩阵)构建拉普拉斯矩阵L计算矩阵L的前k个特征值的特征向量(k个列向量)将k个列向量组成矩阵U对矩阵U中的n行数据利用K-means或其它经典聚类算法进行聚类得出最终结果(3)拉普拉斯矩阵变形 拉普拉斯矩阵: L=D−W L=D-W L=D−W 对称拉普拉斯矩阵: Lsym=D−12(D−W)D−12=I−D−12WD−12 begin{aligned} L_{sym}&=D^{-frac{1}{2}}(D-W)D^{-frac{1}{2}} \ &=I-D^{-frac{1}{2}}WD^{-frac{1}{2}} end{aligned} Lsym=D−21(D−W)D−21=I−D−21WD−21 随机游走拉普拉斯矩阵: Lrw=D−1(D−W) L_{rw}=D^{-1}(D-W) Lrw=D−1(D−W) (4)谱聚类应用场景及面临的问题 应用场景:
图形聚类计算机视觉非凸球形数据聚类等面临的问题:
相似度矩阵的构建问题:业界一般使用高斯相似函数或者k近邻来作为相似度量,一般建议使用k近邻的方式来计算相似度权值聚类数目需要给定如何选择特征向量如何提高谱聚类的执行效率 ---来自腾讯云社区的---魏晓蕾
微信扫一扫打赏
支付宝扫一扫打赏