中文引用格式: 劉道君,劉帥,張玉松,等. 基于K-means的異常識別方法[J]. 電子技術(shù)應(yīng)用,2025,51(5):62-67.
英文引用格式: Liu Daojun,Liu Shuai,Zhang Yusong,et al. Outlier detection method based on K-means[J]. Application of Electronic Technique,2025,51(5):62-67.
引言
異常識別在當(dāng)今社會中具有重要意義,它可以幫助提高安全性、優(yōu)化效率、預(yù)測未來、改善數(shù)據(jù)質(zhì)量以及支持決策,在各個領(lǐng)域中推動進(jìn)步和發(fā)展。隨著技術(shù)的不斷發(fā)展和應(yīng)用范圍的擴(kuò)大,異常識別將繼續(xù)發(fā)揮重要作用,并為人類社會帶來更多的益處。
當(dāng)前,已有上千種異常識別算法被陸續(xù)提出。它們大致可以被劃分為基于統(tǒng)計、基于距離、基于深度學(xué)習(xí)、基于集成的算法。具體地,基于統(tǒng)計的算法使用數(shù)據(jù)的統(tǒng)計特性來識別異常值,常見的統(tǒng)計信息包括均值、標(biāo)準(zhǔn)差、中位數(shù)、百分位數(shù)等。基于距離的算法通過計算對象之間的相似度或距離來識別異常值。基于集成的算法結(jié)合多個基本異常檢測模型的輸出,以提高整體的性能和魯棒性。基于深度學(xué)習(xí)的算法利用多層神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)數(shù)據(jù)的復(fù)雜特征,并在此基礎(chǔ)上進(jìn)行異常檢測。盡管上述類型算法已經(jīng)被驗證可以在各樣場景下很好地識別數(shù)據(jù)集中的復(fù)雜異常,但大多算法面臨一個共同的問題,就是需要若干輸入?yún)?shù),且異常識別效果與參數(shù)值高度相關(guān)。然而,異常識別是一種無監(jiān)督分析任務(wù),這意味著面對未知數(shù)據(jù)集時,將無法客觀地預(yù)測哪些參數(shù)值是適當(dāng)?shù)摹R环N名為DPC的算法解決了上述問題,它通過識別簇邊界區(qū)域,然后將邊界區(qū)域中密度小于密度均值的對象識別為異常,識別過程中不需要輸入任何參數(shù)。然而,DPC的異常識別效果易受對象分布的影響。若簇間較為接近時,會有許多正常數(shù)據(jù)對象被錯誤地識別為異常。顯然,如果構(gòu)建一個既無輸入?yún)?shù)又有優(yōu)異的異常識別效果的算法模型將是有意義的。
為了實現(xiàn)上一目標(biāo),本文提出了一種全新的名為K-outlier的算法。具體地,K-outlier算法首先將數(shù)據(jù)集劃分為個簇,其中為數(shù)據(jù)集中數(shù)據(jù)對象的數(shù)量。由于異常對象分布相對稀疏,因此異常對象將被劃分到只包含少量對象的小簇中。然后,K-outlier算法統(tǒng)計每個簇中對象的數(shù)量,并生成數(shù)量概率圖,稱之為決策圖。從決策圖中,使用者可以很清晰地識別出哪些簇中的對象數(shù)量少且概率低,從而將它們識別為異常簇(因為異常對象的數(shù)量遠(yuǎn)小于正常對象,且異常對象所在簇中對象的數(shù)量也遠(yuǎn)小于正常對象所在簇中對象的數(shù)量),其中的對象識別為異常。K-outlier算法的主要貢獻(xiàn):
(1)首次將K-means引入異常識別任務(wù)。K-means是最經(jīng)典的聚類算法,盡管它沒有異常識別能力,但它具有低時間復(fù)雜的優(yōu)勢,可以幫助K-outlier算法快速識別出異常。
(2)生成可視決策圖代替輸入?yún)?shù)。K-outlier算法不再像其他異常識別算法需要輸入?yún)?shù)來識別異常,使用者可以通過決策圖提供的可視信息直接得到異常識別結(jié)果。
(3)K-outlier算法的異常識別效果不受對象分布的影響。由于將異常劃分到小簇中,與正常對象進(jìn)行了物理隔離,因此不受正常對象分布的影響。
(4)通過大量實驗驗證了K-outlier算法的有效性。實驗表明K-outlier算法對密度不平衡數(shù)據(jù)集、復(fù)雜分布數(shù)據(jù)集具有一定的魯棒性。在7個真實世界數(shù)據(jù)集上,相比于現(xiàn)有算法,K-outlier算法取得了最優(yōu)的結(jié)果。
本文詳細(xì)內(nèi)容請下載:
http://forexkbc.com/resource/share/2000006527
作者信息:
劉道君,劉帥,張玉松,歐思程
(中國長江電力股份有限公司 三峽水利樞紐梯級調(diào)度通信中心 湖北 宜昌 443000)