我的位置:首页 > 奇闻

系统聚类的最长距离法 一种基于最大最小距离和K-means的自适应聚类方法

发布时间:2019-11-20 22:52:56 来源:杭州劲风网络编辑:杭州劲风网络
【专利说明】-种基于最大最小距离和K-means的自适应聚类方法

【技术领域】
[0001] 本发明涉及一种基于最大最小距离和K-means聚类算法的自适应聚类方法,属于 数据挖掘【技术领域】。

【背景技术】
[0002] 聚类分析将数据划分成有意义或有用的组(簇),其目标为:组内的对象相互之间 是相似的,而不同组中的对象是不同的。组内的相似性越大,组间差别越大,聚类就越好。在 某种意义下,聚类分析只是解决其他问题的起点。在信息检索方面,万维网包含数以亿计的 Web页面,网络搜索引擎可能返回数以千计的页面。可以使用聚类将搜索结果分成若干簇, 每个簇捕获查询的某个特定方面,每个类别(簇)又可以划分成若干子类别(子簇),从而 产生一个层次结构,帮助用户进一步探索查询结果。在气候方面,聚类分析已经用来发现对 陆地气候具有显著影响的极地和海洋大气压力模式。在心里学和医学方面,聚类已经用来 识别不同类型的抑郁症,同时聚类分析也可以用来检测疾病的时间和空间分布模式。因此 无论是旨在理解还是实用,聚类分析在诸多领域都扮演着重要的角色,这些领域包括:统计 学、模式识别、信息检索、机器学习和数据挖掘。
[0003] 国际权威学术会议;[EEE International Conference on Data Mining (ICDM) 2006 年12月评选出了数据挖掘领域的十大经典算法,K-means聚类算法是其中之一。K-means 算法比较简单,首先,选择K个初始中心,其中K是用户指定的参数,即所期望的簇的个数。 将每个点划分到最近的中心,而划分到一个中心的点集为一个簇。然后,计算各簇的质心, 将其作为各簇的中心。重复划分点和更新簇中心步骤,直到簇不再发生变化,或者等价地, 直到中心不发生变化。然而,随机地选择K-means聚类算法初始中心,不仅会使聚类陷入局 部最优解,而且可能得不到最优的聚类结果。选择合适的初始中心,不仅可以减少聚类过程 的迭代次数,而且可以提高聚类的效果,而且随机选取初始中心可能会选取到孤立点作为 初始中心,导致迭代次数过多,抑或得到不合理的聚类结果。K-means聚类算法不仅对初始 中心敏感,同时簇个数的选择也是影响聚类结果的重要因素。而本发明能够较好地解决上 面的问题。

【发明内容】

[0004] 本发明目的在于提供一种基于最大最小距离和K-means聚类算法的自适应聚类 方法,该方法解决了传统K-means聚类算法存在的对初始中心敏感,以及簇个数需事先确 定的问题。该方法能有效地避免选取到孤立点作为初始中心,同时能有效地减少聚类过程 的迭代次数,并且能得到较好的聚类结果。
[0005] 本发明解决其技术问题所采用的技术方案是:本发明是一种策略性方法。K-means 是基于原型的、划分的聚类技术,以其简单的算法、较快的聚类速度和稳定的聚类结果得到 了广泛应用,然而基本K-means算法还存在一些问题,比如K-means难处理非球形的簇和不 同大小的簇,并且受噪声和离群点的影响。同时聚类结果也很受聚类中心个数和初始中心 选择的影响。
[0006] 本发明针对K-means聚类算法的缺点提出了一个基于最大最小距离和K-means算 法,以数据集总的SSE(Sum of Square Error,误差平方和)出现拐点作为聚类结束条件的 自适应聚类方法。该方法对初始中心的选择不是随机的,而是经过计算得到的,可以较有效 地避免选取到孤立点作为初始中心,同时能有效地减少聚类过程的迭代次数,并得到较好 的聚类结果;此外针对各簇SSE情况和总的SSE变化趋势决定是否增加簇以及是否结束聚 类,从而能自适应确定簇数,特别适合那些簇数难以确定的应用场景。
[0007] 传统K-means聚类算法是将n个数据点划分到K个簇中,使每个数据点到其簇中 心的距离之和最小,算法处理过程:
[0008] (1)随机选择K个数据点作为初始中心
[0009] (2)将每个数据点划分到最近的中心,形成K个簇
[0010] (3)计算每个簇的质心,将其作为簇的中心
[0011] (4)重复步骤(2)和(3)直到中心不再发生变化
[0012] 本发明中使用如下的定义和计算公式:
[0013] (1)数据点之间的相似程度可以通过计算两两数据之间的距离来确定,欧氏距离 是最为人所知的距离测度,在n维欧式空间中,每个点都是n维实数向量,空间中X和y两 点之间的欧几里得距离定义为:
[0014]

【权利要求】
1. 一种基于最大最小距离和κ-means聚类算法的自适应聚类方法,其特征在于,所述 方法对数据集S = Ix1, x2, ...,xn}的聚类包括如下步骤: 步骤1 :计算数据集S中任意两个数据点之间的欧几里得距离; 步骤2 :找到数据集S中相距最远的两个点Xi和Xj,再找到距离Xi最近的点X p和距离 Xj最近的点Xtl ; 步骤3:将Xp和Xq作为初始聚类(簇)中心,此时聚类(簇)中心集合Cw = {Xp,X(1}, 另设 t = 1,SSE(〇); 步骤4 :采用K-means聚类算法,划分数据集S、更新各个簇中心,得到新的簇中心集合 c(t)和 |c(t)| 个簇,此时 S = Lk ; k=l 步骤5:分别计算各个簇中各点到簇中心的距离平方和XWf,hl,2,...,|C^|,并累加 得到总的误差平方和SSEh
? ,其中S为阈值,转步骤9 ;否则继续; 步骤6 :选择&4η/|&|最大的簇,记为Smax,其中心记为Cmax,去除C (t)中该簇的聚类中 心,即令 Cw =Cw-IcmaJ ; 步骤7 :找到数据子集Smax中相距最远的两个点Xi和Xj,再找到距离X i最近的点Xp和 距离Xj最近的点Xtl ; 步骤8 :将Xp和Xq并入Cw,即令Cw = C(t) U {Xp,Xj,再令t = t+Ι,转步骤4 ; 步骤9 :取上一次聚类结果为最终聚类结果,即最终的聚类中心集C = C(w)。
2. 根据权利要求1所述的一种基于最大最小距离和K-means聚类算法的自适应聚类方 法,其特征在于:所述方法对初始中心以及新增簇的初始中心的选择都不是随机的,而是经 过计算得到的。
3. 根据权利要求1所述的一种基于最大最小距离和K-means聚类算法的自适应聚类方 法,其特征在于:所述方法应用于数据挖掘【技术领域】。
【文档编号】G06F17/30GK104376057SQ201410621601
【公开日】2015年2月25日 申请日期:2014年11月6日 优先权日:2014年11月6日
【发明者】成卫青, 卢艳红, 仲伟伟 申请人:南京邮电大学

相关推荐

  • 男子扯住狗狗尾巴,将其两次重砸向地面。 在男子的一通残忍棍棒下,狗狗最终丧命。 据台媒报道,14日网上流传一段恐怖虐狗的影片,画面非常血腥,被网民大肆转发及引起热议。据悉事发于广东...
    2019-11-20
  • 相信各位高考生们都很想知道,和自己一样分数或是比自己分数高的高考生还有多少人呢?小编整理了江苏高考文科理科一分一段表,赶快来看一下自己的排名吧! 江苏文科2019年一分一档表详情 ...
    2019-11-20
  • 荆轲剑客出身为何在秦王身边了却还杀不了他?都是太子丹害的!感兴趣的读者可以跟着小编一起看一看。 风萧萧兮,易水寒,壮士一去兮,不复还。探虎穴兮,入蛟宫,仰天呼气兮,成白虹。 ——荆轲...
    2019-11-20
  • 有没有那么一个号码,你永恒不会打,也永恒不会删 又回到了从前,只需在夜深了的时候才华做回最真的我。 你要相信,你会被世界温柔相待,荣幸只是迟到了,它不会永恒缺席。 毕竟明白爱是一...
    2019-11-20
  • 新京报记者 赵亢 摄 新京报记者 赵亢 摄 新京报记者 赵亢 摄 新京报记者 赵亢 摄 新京报记者 赵亢 摄 新京报记者 赵亢 摄 工作人员将附近餐馆的燃气罐抬上车。新京报记者 赵亢 摄 新京...
    2019-11-20
免责声明:本文仅代表原文作者个人观点,与杭州劲风网络无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。