摘 要: 提出了一種基于CBR的特征屬性權重選取與自修正方法,即通過構建歷史權重案例庫和相似性檢索得到與目標權重最相似的權重來完成權重的選取,,并對相似權重與目標權重進行差異性分析,,基于差異屬性集對案例庫進行聚類分析,再從聚類結果中檢索出與相似權重最相近的權重,,以實現(xiàn)權重的自修正,。以突發(fā)大氣環(huán)境污染事故案例推理為例,對該方法進行了試驗,,結果表明此方法能充分借鑒以往的特征屬性權重分配經(jīng)驗,,較好地解決了特殊環(huán)境下的復雜特征屬性權重選取與調整問題。
關鍵詞: 案例推理,;權重選?。粰嘀刈孕拚?/p>
案例特征屬性權重反映了該屬性相對于其他屬性的重要程度,,以及單個屬性對問題解決的貢獻程度[1-2],。案例特征屬性權重向量的選取將直接影響到檢索出案例的質量的好壞,并進一步影響到CBR推理的效率和質量,,同時也決定了案例復用與修改的難易,。
在傳統(tǒng)的CBR系統(tǒng)中,特征屬性的權重常采用專家主觀賦權法[3],,即特征屬性的權重一般事先由領域專家根據(jù)經(jīng)驗進行主觀判斷給定,,并且特征屬性的權重一旦確定以后,便被永久地固定在系統(tǒng)中,,一般很少改變,。然而在許多場合下,特征屬性對問題解決的貢獻程度呈現(xiàn)著一定的波動性,,即特征屬性的權重會隨著環(huán)境,、時間等因素的變化而變化[4]。因此,,需要對特征屬性權重進行動態(tài)調整,。
本文在分析現(xiàn)有案例特征屬性權重調整方法存在問題的基礎上,,充分參考CBR的思想,,提出了一種基于CBR的特征屬性權重選取與自修正方法,,充分利用權重分配的歷史經(jīng)驗,指導當前權重問題的動態(tài)分配與調整,。
1 特征屬性權重選取基本方法
國內外學者對于特征屬性權重選取做了大量研究,,并提出了多種權重向量選取與調整方法[5-7],如Pull&Push,、遺傳算法,、基于時序等。
1.1 Pull&Push調整法
Pull&Push調整[8-9]基于訓練樣本成功和失敗的檢索經(jīng)驗來調整特征屬性權重,。當源案例被正確檢索出來,,如果源案例與目標案例對應特征屬性的屬性值相同,系統(tǒng)將自動提高該屬性的權重,,否則系統(tǒng)將自動降低該屬性的權重,;當源案例被錯誤檢索出來,如果源案例與目標案例對應特征屬性的屬性值不同,,系統(tǒng)將自動提高該屬性的權重,,否則系統(tǒng)將自動降低該屬性的權重。
特征屬性權重采用下式來確定每次調整幅度的大?。?br />
以上這些調整方法基本都依賴于領域專家事先對特定問題給出一個經(jīng)驗參考權重向量,,并在此基礎上對其進行不斷地重復累積調整,這種累積經(jīng)驗對于相似環(huán)境下的權重分配需求是有效的,,但對于特殊環(huán)境下的權重分配需求就顯得難以勝任,。
2 基于CBR的特征屬性權重選取與自修正方法
CBR核心思想是充分借鑒以往專家經(jīng)驗來指導新問題的求解[13-14]。在這種思想的啟發(fā)下,,對于特征屬性權重的選取和調整問題,,同樣可以嘗試用CBR的思想來解決。即將以往任何一次專家的屬性權重分配經(jīng)驗作為案例存入歷史權重庫中,,運用歷史權重庫中歷史權重來指導目標權重的選取與調整,。
根據(jù)事物發(fā)展的規(guī)律性和重現(xiàn)性,即相同或相似的問題具有相同或相似的解法,,相同或相似的問題會重復發(fā)生,,每一個權重分配案例都是某種特定需求環(huán)境下的成功經(jīng)驗記錄,對將來類似問題具有重要的參考借鑒作用,,同時歷史權重分配經(jīng)驗直接以新案例的形式進行保存,,避免了特定需求環(huán)境下的成功分配經(jīng)驗的二次修改難以適應原始需求環(huán)境。
歷史權重庫收集了以往各種不同需求的權重分配案例,,積累了豐富的經(jīng)驗和知識,,同時CBR具有自學習能力,隨著權重庫的不斷積累,理想情況下將會覆蓋到各種不同環(huán)境下的權重分配問題,。因此,,通過權重庫來解決權重分配問題是可行的也是有效的,這樣不僅能夠滿足相似環(huán)境下的權重分配需求,,同時也可以處理特殊異常環(huán)境下的權重分配需求,。
2.1 基于CBR的特征屬性權重選取
參考CBR基本過程,即4R(Retrieve,、Reuse,、Revise、Retain)[13-14],,基于CBR的特征屬性權重自學習與調整策略可分為4個過程,,如圖1所示。
(1)權重檢索:根據(jù)目標權重和歷史權重相似性度量標準,,通過合適的檢索匹配算法,,從歷史權重庫中找出與目標權重最相似的權重。
(2)權重重用:將最相似的權重作為參考權重,,指導目標權重的分配,。
(3)權重修正:分析參考權重與目標權重間的差異部分,通過合適的權重修正策略,,并結合實際情況,,對參考權重加以調整與修正。
(4)權重學習:根據(jù)制定的學習策略,,把新權重存儲到權重庫中,。
基于CBR的特征屬性權重選取思想的具體實現(xiàn):
(1)結合領域應用背景,收集以往專家的特征屬性權重分配經(jīng)驗,,將其作為權重案例,,存入歷史權重庫中以構建領域問題權重參考庫;
(2)對于一個新的權重分配問題,,制定局部權重相似性度量標準,,選擇合適的權重案例相似性檢索算法,結合權重分配需求條件,,對歷史權重庫進行相似性檢索,,找出相似度最高的歷史權重,即為與目標權重最相似的權重,;
(3)結合實際應用需要,,采用合適的權重調整策略,對最相似權重進行修正,,以適應新問題,;
(4)將調整后的新權重存入歷史權重庫中以豐富權重庫的經(jīng)驗,提高權重庫解決問題的能力。
2.2 基于CBR的特征屬性權重自修正
基于CBR相似性檢索得到的參考權重,,可能不完全適合于當前的權重分配需求,,需要對其進行修正。一般特征屬性權重修正規(guī)則和知識獲取十分困難,,而歷史權重案例庫中儲備了豐富的實際經(jīng)驗和顯性知識,同時也蘊含了大量的隱性知識,,這些知識對于特征屬性權重修正有一定的幫助,。
基于CBR的特征屬性權重自修正的基本思想是直接從權重案例庫中得到權重修正知識。即首先從權重案例庫中檢索出與目標權重最相似的權重案例,;通過比較目標權重和最相似的權重,,得出存在差異的權重所對應的特征屬性集合;根據(jù)這些差異特征屬性集合對權重案例庫進行聚類,,得出一個新的權重案例庫,;最后從新的權重案例庫中再次檢索出和上次得到的最相似權重最接近的權重組合,將這個權重組合作為參考來指導當前的特征屬性權重分配,。
整個修正方法在權重修正過程中應用CBR思想,,根據(jù)重用失敗的原因,找到最終的解決方案,,如圖2所示,。整個屬性權重修正過程不需要依賴領域知識。
基于CBR的特征屬性權重自修正算法描述如下:
(1)假設權重案例庫為WC,,目標權重為A,,先從權重案例庫WC中檢索出與A最相似的權重B。
(2)對A和B進行特征屬性權重差異性分析,,找出兩者之間的特征屬性權重差異,。假設A有m個特征屬性,其中i(0≤i≤m)個特征屬性權重存在差異,,如果i=0,,表示沒有差異,算法結束,。
(3)根據(jù)這些差異特征D1,,D2,…,,Di對權重案例庫進行聚類分析,。即針對每一個差異特征,從權重案例庫WC中找到和A中該特征屬性的權重值相同的案例,,將其聚成一類,。這樣可以得到分類D1(C),D2(C),…,,Di(C),,其構成一個新權重案例庫WCnew。
(4)從WCnew中檢索出和B最相似的權重案例,,并將其作為最佳權重分配參考方案,。根據(jù)相似性的傳遞性原理,此權重案例不僅與目標權重A具有較高的相似性,,同時兼顧了權重案例B中部分屬性權重不能滿足目標權重A分配的需求,。
3 應用實例
本文提出的方法在突發(fā)性大氣環(huán)境污染事故案例推理系統(tǒng)中進行了應用。突發(fā)性大氣環(huán)境污染事故對事故現(xiàn)場環(huán)境依賴性特別強,,不同環(huán)境背景下,,各特征屬性表現(xiàn)出來的重要程度存在很大的差異性。以往的固定屬性權重難以滿足特殊環(huán)境下屬性權重分配的需要,,而基于CBR的特征屬性權重選取與自修正方法可以很好地解決不同環(huán)境條件下的特征屬性權重分配需求,。
在突發(fā)性環(huán)境污染事故案例推理系統(tǒng)中,對于特征屬性權重的選取與調整的實現(xiàn)問題,,首先收集以往權重分配經(jīng)驗并初步建立權重案例庫,;其次根據(jù)當前的環(huán)境條件,確定特征屬性的重要程度,,并給所關注特征屬性分配一定的權重,,對于非特別關注或重要程度難以確定的特征屬性,其權重缺省為0,,即目標權重為OC(0.2,,-,-,,0.15,,0.15,0.15,,-,,-,0.2),,依據(jù)特征屬性權重相似性檢索算法,,對權重庫進行相似性檢索。
表1給出了目標權重與部分歷史權重之間基于指數(shù)法和K-NN算法的相似性檢索結果,,其中歷史權重案例6是與目標權重最相似的權重,。
若歷史權重案例6的權重分配滿足當前權重分配的需要,直接將其作為目標權重分配問題的解決方案,;若對歷史權重案例6的權重分配結果不滿意,,則對其執(zhí)行自修正操作,。即對歷史權重案例6的參考權重與目標權重進行差異性分析,得到差異屬性集合{氣象條件,,應急措施},,其對應的目標權重為{0.15,0.2},;根據(jù)污染物質,、應急決策兩個特征屬性的目標權重對權重庫進行聚類分析,得到兩個權重案例集{5,,8}和{1,,2,4,,7},并構成一個新的子權重庫{1,,2,,4,5,,7,,8};再次利用屬性權重相似性檢索算法,,從子權重庫中檢索出與歷史權重案例6中的參考權重最相似的權重,,即為歷史權重案例5,并將其作為當前目標權重分配問題的參考解決方案,。
依據(jù)相似性的傳遞性,,歷史權重案例5不僅與目標權重具有較高的相似性,同時彌補了歷史權重案例6部分屬性權重不能滿足目標權重分配需求的不足,。若對歷史權重案例5不滿意,,可對其進行人工局部調整,并將調整結果存入到權重庫中以備下次重用,。
這樣不僅解決了當前權重分配問題,,同時也豐富了權重案例庫的經(jīng)驗,擴大了權重案例庫的覆蓋面,,增強了其解決問題的能力,。
傳統(tǒng)案例屬性的靜態(tài)權重已難以滿足需要,而案例屬性權重選取與動態(tài)調整是當前研究的一大難題,,本文嘗試借鑒CBR思想,,提出了一種基于CBR的特征屬性權重選取與自修正方法,為特征屬性權重分配與調整提供了一種新的思路,?;贑BR的特征屬性權重選取與自修正方法直接援引以前積累的經(jīng)驗和知識來解決當前特征屬性權重的選取與調整問題,,具有操作實現(xiàn)簡單、進行知識積累和重用等優(yōu)點,,特別適合特殊環(huán)境下復雜問題的特征屬性權重選取與調整,。
參考文獻
[1] LEAKE D B,KINLEY A,,WILSON D.Learning to integrate multiple knowledge sources for case-based reasoning[C]. Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, Morgan Kaufmann,,San Francisco,1997:246-251.
[2] 章曙光,,蔡慶生.一種基于屬性組合的權重向量選取模型[J].微機發(fā)展,,2004,14(11):13-15.
[3] 艾芳菊.基于實例推理系統(tǒng)中的權重分析[J].計算機應用,,2005,,25(5):1022-1025.
[4] AHA D W.The omnipresence of case-based reasoning in science and application[J].Knowledge-Based Systems,1998,,11(5):261-273.
[5] SKALAK D B.Prototype and feature selection by sampling and random mutation hill climbing algorithms[C].Proceedings of the 1994 International Conference on Machine Learning,,293-301.
[6] MOHRI T,TANAKA H.An optimal weighting criterion of case indexing for both numeric and symbolic attributes[C]. AAAI Technical Report WS-94-01, Case-Based Reasoning:Papers from the 1994 Workshop.Menlo Park,,CA:AAAI Press.
[7] LING C X,,WANG H.Computing optimal attribute weight setting fot nearest neighbor algorithms[J].Artificial Intelligence Review,1997,,11(1-5):255-272.
[8] SALZBERG S.A nearest hyperrectangle learning method[J]. Machine Learning,,1991(6):251-276.
[9] BONZANO A,CUNNINGHAM P,,SMYTH B.Using introspective learning to improve retrieval in CBR:a case study in air traffic control[C].Proceedings of the 2nd International Conference on Case-Based Reasoning,,Providence RI,USA:Springer,,1997:291-302.
[10] SHIN K S,,HAN I.Case-based reasoning supported by genetic algorithms for corporate bond rating[J].Expert Systems with Applications,1999(16):85-95.
[11] 章曙光,,汪淼,,張永,等.一種基于遺傳算法的權重向量選取模型[J].微機發(fā)展,,2005,,15(12):87-89.
[12] 楊健,楊曉光,,劉曉彬,,等.一種基于K-NN的案例相似度權重調整算法[J].計算機工程與應用,2007,,43(23): 8-11.
[13] WATSON I,,MARIR F.Case-based reasoning:a review[J].The knowledge engineering review,,1994,9(4):327-354.
[14] CUNNINGHAM P,,SMYTH B.Case-based reasoning in scheduling:reusing solution components[J].International Journal of Production Research,,1997,35(11):2947-2962.