中文引用格式: 李秋云,,劉燕武. 一種服務(wù)于K-means的初始中心選取方法[J]. 電子技術(shù)應(yīng)用,,2023,49(3):134-138.
英文引用格式: Li Qiuyun,,Liu Yanwu. An initial centers selection method serving K-means[J]. Application of Electronic Technique,2023,,49(3):134-138.
0 引言
聚類是一種無監(jiān)督分析方法,,其目的是識(shí)別出數(shù)據(jù)集中的所有數(shù)據(jù)簇,,并將每個(gè)簇中的數(shù)據(jù)點(diǎn)看作一類。在眾多聚類算法中,,K-means[1]是使用頻率最高的舉足輕重的算法之一,。K-means算法從數(shù)據(jù)集中選取k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心,按照距離最近原則,,將其他數(shù)據(jù)點(diǎn)分配給這k個(gè)初始中心得到初始簇,,再將處于初始簇中心的數(shù)據(jù)點(diǎn)作為新的聚類中心。重復(fù)上述過程,,直到聚類中心不再改變?yōu)橹?。K-means算法的原理相對(duì)簡(jiǎn)單,這也是其受到廣泛追捧的原因,。然而,,該算法也存在著明顯缺陷:
(1)分析之前,需要明確k值,。在K-means算法中,,k值就是簇的數(shù)量。若k被設(shè)置為10,,那么K-means算法將識(shí)別出10個(gè)數(shù)據(jù)簇,。但聚類是一種無監(jiān)督分析任務(wù),在聚類之前無法得知數(shù)據(jù)集存在多少簇,。顯然,,K-means算法的機(jī)理與聚類初衷是相矛盾的。在真實(shí)分析場(chǎng)景中,,常常會(huì)出現(xiàn)k值多于或少于真實(shí)簇?cái)?shù)的情況,,影響聚類準(zhǔn)確度。
(2)初始中心易聚團(tuán),。K-means算法隨機(jī)將k個(gè)數(shù)據(jù)點(diǎn)確定為初始聚類中心,,易造成多個(gè)聚類中心出現(xiàn)在同一簇內(nèi),導(dǎo)致該簇被分解為多類,。
(3)迭代次數(shù)無法控制,。K-means算法需要經(jīng)過多次迭代直至聚類中心不再改變?yōu)橹埂MǔG闆r下,,聚類中心最終會(huì)迭代到密度稠密區(qū),。也就是說,初始中心越遠(yuǎn)離密度核心,,K-means算法的迭代次數(shù)越多,,運(yùn)行時(shí)間越長(zhǎng),。又因初始中心是隨機(jī)選取的,致使K-means算法的運(yùn)行時(shí)間無法控制,。
針對(duì)上述問題,,本文提出一種名為DPCC(Density Peak Clustering Centers)的方法,為K-means算法提供初始中心,。DPCC運(yùn)用于K-means算法之前,,通過計(jì)算數(shù)據(jù)點(diǎn)密度以及與高密度數(shù)據(jù)點(diǎn)間最近距離生成決策圖,以凸顯數(shù)據(jù)集中所有的密度峰值點(diǎn),。這些密度峰值點(diǎn)即可作為K-means算法的初始中心,。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000005243
作者信息:
李秋云1,劉燕武2
(1.中國運(yùn)載火箭技術(shù)研究院 北京宇航系統(tǒng)工程研究所,,北京 100076,;
2.中國電子信息產(chǎn)業(yè)集團(tuán)有限公司,廣東 深圳 518000)