基于网格数据中心的密度峰值聚类算法

【摘要】 通过对数据集进行网格划分来降低聚类过程中的计算复杂度,提出了一种基于网格数据中心的密度峰值聚类算法。首先将数据集进行网格化,形成若干网格对象,以落在网格内的数据点个数与通过衰减后的相邻网格内数据点个数之和作为该网格对象的局部密度值,以该网格数据中心到更高密度网格数据中心的最近距离作为该网格对象的相对距离值;然后根据簇心网格对象同时具备更高的局部密度和较大的相对距离的特征,确定簇心网格对象;最后通过密度划分的方法完成数据聚类。在UCI人工数据集上的仿真实验表明,该算法能够在较短的时间内有效地处理大规模数据,聚类准确率较高。