高集榮1,田艷2,,楊永紅1,,劉清華1
(1.中山大學(xué) 計(jì)算機(jī)科學(xué)系,,廣東 廣州 510006,;2.西安財(cái)經(jīng)學(xué)院 統(tǒng)計(jì)學(xué)院,陜西 西安 710061)
摘要:乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾病,。對(duì)于乳腺癌診斷來說,,當(dāng)一個(gè)惡性病例被誤分類為良性病例的時(shí)候,其代價(jià)遠(yuǎn)遠(yuǎn)大于一個(gè)良性病例被誤分類為惡性病例,。它利用數(shù)據(jù)挖掘領(lǐng)域的代價(jià)敏感相關(guān)方法,,建立一個(gè)識(shí)別良性乳腺腫瘤和惡性乳腺腫瘤的診斷預(yù)測(cè)系統(tǒng)。在建模過程中充分考慮到誤分類代價(jià)的因素,,提出了誤分類代價(jià)策略,。通過一系列實(shí)驗(yàn)驗(yàn)證了所建立的模型。從實(shí)驗(yàn)結(jié)果來看,,Adaboost與SVM的誤分類組合分類算法在正確率和總誤分類代價(jià)兩個(gè)評(píng)估指標(biāo)上得到了良好的效果,。
關(guān)鍵詞:數(shù)據(jù)挖掘;代價(jià)敏感,;誤分類代價(jià),;乳腺癌
中圖分類號(hào):TP393.092文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.02.004
引用格式:高集榮,田艷,楊永紅,等.基于誤分類模式的乳腺癌診斷研究[J].微型機(jī)與應(yīng)用,,2017,36(2):10-13,,16.
0引言
乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾病[1],全球乳腺癌發(fā)病率從上世紀(jì)70年代末起就一直呈上升趨勢(shì),。據(jù)美國的調(diào)查,,平均每8名美國婦女中,就有一個(gè)人在其一生中可能患有乳腺癌疾病,。據(jù)中國國家癌癥中心和衛(wèi)生部疾病預(yù)防控制局2012年公布的2009年乳腺癌發(fā)病數(shù)據(jù)顯示:全國腫瘤登記地區(qū)的女性惡性腫瘤排行榜上,,乳腺癌發(fā)病率位居第1位。
乳腺癌的研究和治療歷史悠久,,積累了不少的數(shù)據(jù),,如何從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息來輔助治療,成了當(dāng)下比較熱門的一個(gè)課題,。數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)的不斷進(jìn)步,,將這些技術(shù)用于乳腺癌的識(shí)別和預(yù)測(cè)是大勢(shì)所趨。再結(jié)合醫(yī)生本身的經(jīng)驗(yàn)來預(yù)測(cè)乳腺癌,,這將是未來癌癥疾病的診斷模式,。
國內(nèi)外對(duì)乳腺癌診斷預(yù)測(cè)的研究從未停止過,很多研究算法都得到了95%以上的正確率,。但是這些研究所使用的數(shù)據(jù)集為威斯康星乳腺癌數(shù)據(jù)集,,共收集病例樣本699個(gè)樣本,只有9個(gè)特征屬性,。
本文使用到的良惡性乳腺腫瘤分析的數(shù)據(jù)為威斯康星乳腺癌診斷數(shù)據(jù)集,,含有569個(gè)樣本(其中良性樣本357個(gè),惡性樣本212個(gè)),,30個(gè)特征維度[2],;近些年的乳腺癌挖掘研究大都采用此數(shù)據(jù)集。
在進(jìn)行乳腺癌診斷預(yù)測(cè)的過程中,,降低誤診斷的風(fēng)險(xiǎn)是一個(gè)實(shí)際的需求,。如果是惡性乳腺腫瘤被預(yù)測(cè)為良性,其帶來的后果比原本是良性的被預(yù)測(cè)為惡性的給病人帶來的后果會(huì)更嚴(yán)重,。因此,,本文引入誤分類代價(jià),誤分類代價(jià)是一種代價(jià)敏感的策略,,它定義了被誤分類為不同類型時(shí)所產(chǎn)生的成本是不同的,。
1算法描述
基于誤分類的乳腺癌診斷預(yù)測(cè)建模主要分為兩個(gè)步驟:首先是對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行降維操作,乳腺癌細(xì)胞的特征屬性本來就很多,,本數(shù)據(jù)集中含有30個(gè)特征屬性,,如果直接對(duì)其進(jìn)行建模,所花費(fèi)的成本會(huì)很高,而且這么多特征屬性之中,,可能存在噪聲數(shù)據(jù),,影響建模的效果;其次是使用基于誤分類代價(jià)的建模方法對(duì)其數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證,。文中重點(diǎn)考察了決策樹和SVM兩種分類方法,,并且在研究中引入它們的誤分類策略。
1.1乳腺癌特征選擇的方法
降維方式基本分為兩種,,特征選擇和特征變換,。特征選擇方法依據(jù)是否獨(dú)立于后續(xù)的學(xué)習(xí)算法又分為過濾式和封裝式兩種[3]。過濾式與后續(xù)的學(xué)習(xí)分類算法無關(guān),,一般是直接利用所有訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)信息評(píng)估特征,,其特點(diǎn)是速度快;封裝式利用后續(xù)學(xué)習(xí)算法的訓(xùn)練準(zhǔn)確率評(píng)估特征子集,,其特點(diǎn)是偏差小,,計(jì)算量大。特征變換不同于特征選擇之處在于其輸出結(jié)果不是原有的屬性,,而是基于某種變換的原則所產(chǎn)生的新屬性,。作為醫(yī)療診斷來說,不僅需要診斷預(yù)測(cè)的結(jié)果,,還重視其推理的過程,。由于變換后的屬性改變了原有屬性的物理特性,不可能看到其推理的結(jié)果,,因此這里不討論特征變化方式,。
本文研究的模型針對(duì)的是擁有30個(gè)屬性維度的數(shù)據(jù)集,屬于高維數(shù)據(jù)集,。如果直接針對(duì)原始數(shù)據(jù)集采用分類方法,,不僅成本較高,,而且可能由于噪聲屬性的影響而降低精確度,。
在絕大部分的特征選擇方法中,其核心部分在于對(duì)屬性特征重要性的評(píng)估,,本文將選用三種特征重要度評(píng)估方式,,其中一種是上文中提到的Fscores,另一種是在構(gòu)建決策樹過程中用于選擇分裂數(shù)據(jù)集時(shí)評(píng)估屬性的GINI方法,,最后一種則是基于分類器的特征評(píng)估方式,。選擇這三種評(píng)估方式的先驗(yàn)條件是假定每一個(gè)特征是獨(dú)立的,可以評(píng)估出每一個(gè)特征的重要程度,,并按照重要程度進(jìn)行降序排序,,從而根據(jù)需要選擇最重要的前N個(gè)特征屬性。
1.2乳腺癌誤分類代價(jià)的組合分類研究
在進(jìn)行了降維操作之后,需要對(duì)其進(jìn)行分類建模操作,。本文除了要基本保持診斷預(yù)測(cè)的正確率之外,,還要降低其誤分類診斷的總代價(jià)。這里將把誤分類代價(jià)的概念引入到乳腺癌診斷預(yù)測(cè)課題中,,誤分類代價(jià)屬于代價(jià)敏感的一種,。
1.2.1代價(jià)敏感
數(shù)據(jù)挖掘的本質(zhì)在于利用一個(gè)特定的數(shù)學(xué)模型來給某一個(gè)數(shù)據(jù)進(jìn)行分類,判定其類別,,為了構(gòu)建出數(shù)學(xué)模型,,需要從大量的數(shù)據(jù)中獲取信息,并發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律,,最后利用這個(gè)規(guī)律,,也就是數(shù)學(xué)模型來預(yù)測(cè)一些數(shù)據(jù),得到其可能的一個(gè)類別,,這個(gè)類別是通過預(yù)測(cè)而來的,,可能會(huì)和該數(shù)據(jù)真實(shí)的類別(假設(shè)只能在未來驗(yàn)證得知)不一致,這時(shí)就會(huì)出現(xiàn)一個(gè)分類正確率的問題,,對(duì)于一個(gè)預(yù)測(cè)數(shù)學(xué)模型來說,,正確率是一個(gè)非常重要的指標(biāo)。但是在實(shí)際應(yīng)用中,,代價(jià)因素也是不得不考慮的一個(gè)問題,。
分類的代價(jià)不平等性給基于代價(jià)敏感的數(shù)據(jù)挖掘方法帶來了全新的視角和方向。TURNEY P D[4]認(rèn)為代價(jià)具有抽象的意義,,可以用不同的單位來進(jìn)行衡量,,并且他歸納總結(jié)了分類過程中8種不同的代價(jià)類型:誤分類代價(jià)、測(cè)試代價(jià),、標(biāo)注代價(jià),、干預(yù)代價(jià)、計(jì)算代價(jià),、獲取實(shí)例代價(jià),、人機(jī)交互代價(jià)、不穩(wěn)定代價(jià),。
代價(jià)敏感,,尤其是誤分類代價(jià)在機(jī)器學(xué)習(xí)中重點(diǎn)處理的是數(shù)據(jù)不平衡的情況,擔(dān)心大樣本類別數(shù)據(jù)在建模過程中對(duì)分類結(jié)果產(chǎn)生一定的傾斜,。而對(duì)于本文所研究的問題而言,,這卻是一個(gè)具有實(shí)際意義的問題。對(duì)于乳腺腫瘤良惡性診斷來說,,當(dāng)一個(gè)惡性病例被誤分類為良性病例的時(shí)候,,其代價(jià)遠(yuǎn)遠(yuǎn)大于一個(gè)良性病例被誤分類為惡性病例的代價(jià)(主要指對(duì)病人的關(guān)注),。
對(duì)于二元分類問題,一個(gè)實(shí)例本來是i類別的,,但是在分類預(yù)測(cè)的時(shí)候被錯(cuò)誤地歸為類別j,,Ci,j表示將類別為i的事物預(yù)測(cè)為類別j時(shí)所產(chǎn)生的代價(jià)。
一個(gè)二元分類的代價(jià)矩陣定義如表1所示,。其中,,正確分類的不會(huì)產(chǎn)生代價(jià)。誤分類代價(jià)的分類的目的就是要以最小誤分類代價(jià)建立以下模型:
TotalCost=C0,1*FN+C1,0*FP(1)
其中FN和FP分別為假負(fù)實(shí)例數(shù)和假正實(shí)例數(shù),。
1.2.2組合分類器誤分類策略
將誤分類策略分別引入到基礎(chǔ)分類器和組合分類器中,,但是在大部分的誤分類研究中,主要是使用單一的分類器進(jìn)行誤分類建模,,在上述給出的單一誤分類器中,,從某種程度來說也改變了其建模過程中的一些步驟,因此可能與不引入誤分類策略后分類正確率有所出入,。為此,,使用組合分類模式來降低個(gè)體分類器在引入誤分類策略時(shí)所帶來的誤差,同時(shí)使用基于誤分類策略的組合分類模式,,也能達(dá)到基礎(chǔ)分類器和組合分類器誤分類效果的疊加,。
本文使用的基礎(chǔ)分類器有C45決策樹和SVM,使用的組合分類器有Adaboost與Bagging,。其中Adaboost擁有誤分類策略,,而Bagging盡管自身沒有誤分類策略,但是可以使用帶有誤分類策略的基礎(chǔ)分類器來達(dá)到其誤分類的效果,。
2算法驗(yàn)證
本節(jié)著重根據(jù)上文提到的各種方法對(duì)乳腺癌數(shù)據(jù)進(jìn)行建模實(shí)驗(yàn),,從而構(gòu)建出基于誤分類代價(jià)的診斷預(yù)測(cè)系統(tǒng)。因篇幅所限,,本文只列出了一部分,。
2.1N-交叉驗(yàn)證
交叉驗(yàn)證是數(shù)據(jù)挖掘?qū)嶒?yàn)中常用的方法。在N交叉驗(yàn)證[56]中,,將數(shù)據(jù)集隨機(jī)劃分為N份,,并進(jìn)行N次實(shí)驗(yàn)。在每一次實(shí)驗(yàn)中,,選取與之前不同的一份作為驗(yàn)證集,,剩余N1份作為建立模型使用的訓(xùn)練集。
在本文的實(shí)驗(yàn)中會(huì)頻繁用到N交叉驗(yàn)證,,例如在特征選擇的時(shí)候,需要經(jīng)過N交叉驗(yàn)證來確定特征屬性的重要程度,;在建立預(yù)測(cè)診斷模型的時(shí)候,,需要使用N交叉驗(yàn)證來評(píng)估預(yù)測(cè)的準(zhǔn)確性和總誤分類代價(jià),。
2.2評(píng)估標(biāo)準(zhǔn)
乳腺腫瘤良惡性診斷是一個(gè)分類問題,目前成熟的分類模型評(píng)估方式有:正確率,、召回率,、精確度、AUC,、ROC曲線,、混淆矩陣等。在混淆矩陣的基礎(chǔ)上,,可以得到以上多個(gè)評(píng)估度量值,。其中正確率(Acc)和錯(cuò)誤率(Err)是使用最廣泛的兩個(gè)基礎(chǔ)度量標(biāo)準(zhǔn),其公式如下:
除了基本的正確率和錯(cuò)誤率之外,,由于本文重點(diǎn)考察的是基于代價(jià)敏感的乳腺腫瘤良惡性診斷,。在前文的描述中也提到,一個(gè)惡性乳腺癌患者被診斷為良性所付出的代價(jià)遠(yuǎn)比一個(gè)良性乳腺腫瘤患者被診斷為惡性所付出的代價(jià)要高得多,。所以本文所做研究是,,除預(yù)測(cè)結(jié)果基本保持在一個(gè)比較高的水準(zhǔn)之外,還需要預(yù)測(cè)的代價(jià)盡可能地小,。下面給出基本準(zhǔn)則去判斷實(shí)驗(yàn)評(píng)估指標(biāo),,即預(yù)測(cè)產(chǎn)生的錯(cuò)誤總代價(jià)(TotalCost)。
表2給出了乳腺癌預(yù)測(cè)的代價(jià)矩陣,,其中如果本身為良性乳腺腫瘤而預(yù)測(cè)為良性,,由于預(yù)測(cè)是正確的,因此不會(huì)產(chǎn)生代價(jià),,惡性乳腺腫瘤預(yù)測(cè)為惡性也是同樣的道理,。而如果本身是良性乳腺腫瘤被診斷為惡性的話,其花費(fèi)的代價(jià)是C0,1,,如果本身是惡性乳腺腫瘤而被診斷為良性的話,,其花費(fèi)的代價(jià)為C1,0,其中C1,0>C0,1,。由此可以得到式(4):
TotalCost=FN*C0,1+FP*C1,0(4)表2代價(jià)矩陣預(yù)測(cè)正類(預(yù)測(cè)良性)預(yù)測(cè)負(fù)類(預(yù)測(cè)惡性)實(shí)際正類(實(shí)際良性)0C0,1實(shí)際負(fù)類(實(shí)際惡性)C1,00
本文希望達(dá)到的目標(biāo)是:在保持正確率不會(huì)有太大下降的情況下,,降低總的誤分類代價(jià)。
2.3誤分類組合建模實(shí)驗(yàn)
在組合不同誤分類代價(jià)策略時(shí),,基本分類器均具有其誤分類代價(jià)策略,,可以進(jìn)行對(duì)比試驗(yàn),而組合分類器只有Adaboost具有誤分類策略,,可考慮將基礎(chǔ)誤分類與Bagging組合分類器,,而Adaboost可對(duì)比采用誤分類策略與不采用誤分類策略的效果,并同時(shí)與基礎(chǔ)分類器的誤分類策略進(jìn)行整合,。
為了看出誤分類策略的效果,,需要設(shè)計(jì)對(duì)比試驗(yàn),,下面針對(duì)每一個(gè)基礎(chǔ)分類器設(shè)計(jì)了幾組對(duì)比試驗(yàn)。表3給出了需要對(duì)比的實(shí)驗(yàn),,以證實(shí)在建模過程中確實(shí)有誤分類策略的效果,。
本文采用的誤分類矩陣為0101000,使用的數(shù)據(jù)集為乳腺腫瘤疾病良惡性診斷集,有兩個(gè)類型,,0表示良性,,1表示惡性,根據(jù)前文對(duì)于良惡性誤分類代價(jià)的分析判斷,,得cost(1,0)=10,cost(0,1)=100,。
本文所采用的數(shù)據(jù)挖掘的基礎(chǔ)程序來自Weka3.6。懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,,Weka)是一款免費(fèi)的,、非商業(yè)化的挖掘工具,基于Java環(huán)境的開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件,。源代碼可在其官方網(wǎng)站下載,,其中的C45基礎(chǔ)算法也來自該官網(wǎng)。
SVM則采用LIBSVM的Java版本,,LIBSVM是臺(tái)灣大學(xué)林智仁等人開發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單,、易于使用和快速有效的SVM模式識(shí)別與回歸軟件包,不但提供了編譯好的可在Windows操作系統(tǒng)上執(zhí)行的文件,,還提供了源代碼,,方便改進(jìn)、修改以及在其他操作系統(tǒng)上應(yīng)用,。
(1) C45算法結(jié)果分析
首先展示Adaboost+C45算法的結(jié)果,,以便與后期結(jié)果進(jìn)行對(duì)照。
(2) SVM算法結(jié)果分析
SVM在此問題上有很好的處理效果,。這里可以對(duì)其進(jìn)行分析比較,,研究其在誤分類代價(jià)的情況下的處理效果。本文采用的是LIBSVM的Java版本,,其中一些參數(shù)均為默認(rèn)值,,其中核函數(shù)采用的是RBF核函數(shù)。
圖1,、圖2分別給出了正確率,、總代價(jià)曲線,表4給出了不采取誤分類策略的Adaboost+SVM的最高評(píng)估值,?! ?/p>
從實(shí)驗(yàn)結(jié)果可以看出,盡管Adaboost+SVM組合模式的正確率非常高,,但是其代價(jià)也不低,,主要原因在于其高誤分類代價(jià)的個(gè)數(shù)比較多,。而采用SVM的誤分類策略組合模式可能可以做到既擁有比較高的分類正確率,,又能減少其高代價(jià)誤分類的個(gè)數(shù),,從而降低總的誤分類代價(jià)。
從對(duì)比實(shí)驗(yàn)可以看出,,SVM在誤分類代價(jià)策略效果下表現(xiàn)得比決策樹都要好一些,。其相對(duì)較高的正確率是一個(gè)重要原因,從SVM和決策樹兩者的表現(xiàn)來看,,SVM構(gòu)建模型的分類正確率遠(yuǎn)高于決策樹,,因而被誤分類的個(gè)數(shù)要小于決策樹;另一原因是在采用了誤分類代價(jià)策略之后,,惡性乳腺腫瘤被診斷為良性的個(gè)數(shù)比不采用誤分類策略時(shí)減少了,,所以總的誤分類的代價(jià)才會(huì)減少。
實(shí)驗(yàn)結(jié)果表明,,大部分實(shí)驗(yàn)都達(dá)到了其降低總誤分類代價(jià)的目的,,而且能保持比較高的正確率:Adaboost與SVM的誤分類組合分類算法不僅正確率達(dá)到了98.23%,而且將總誤分類代價(jià)從600左右降到了330,。
3結(jié)論
本文結(jié)合傳統(tǒng)的基礎(chǔ)分類算法,,運(yùn)用組合分類模式進(jìn)行診斷預(yù)測(cè),并針對(duì)乳腺癌樣例的特征屬性采取了降維的處理,,旨在降低建模過程的成本和對(duì)樣例進(jìn)行預(yù)測(cè)時(shí)的成本,,并希望清除噪聲屬性。同時(shí),,也將代價(jià)敏感的概念引入到乳腺癌診斷過程中,。在建模過程中,將誤分類代價(jià)策略和基礎(chǔ)分類模式,、組合分類模式Bagging和Adaboost進(jìn)行整合修改,,以便能在保持較高正確率的情況下,降低總的誤分類代價(jià),。設(shè)計(jì)了對(duì)比試驗(yàn),,以便能得出最優(yōu)的組合分類模式;在此基礎(chǔ)上采用粒子群算法,,以最低誤分類代價(jià)為評(píng)估標(biāo)準(zhǔn),,采用上述組合實(shí)驗(yàn)中的最佳組合分類方法,選擇出最穩(wěn)定的低誤分類代價(jià)的特征屬性和相關(guān)參數(shù)值,。
參考文獻(xiàn)
?。?] The Women’s Health Resource .What is breast cancer[EB/OL].(2013-06-10)[2016-07-28].http://www.imaginis.com/general informationonbreastcancer/whatisbreastcancer2.
[2] UCI Machine Learning Repository. Wisconsin breast cancer dataset[EB/OL]. (20120630)[2016-07-28]http://archive.ics.uci.edu/ml/datasets.html-format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=.
?。?] 姚旭.特征選擇方法綜述[J].控制與決策.2012,127(2):35-40.
?。?] TURNEY P D. Types of cost in inductive concept learning[C]. Workship on CostSensitive Learning at ICML, 2000:15-21.
?。?] DUPRET, G. KODA, M. Theory and methodology: boostrap resampling for unbalanced data in supervised learning[J]. Eropean Journal of Operational Research,2001,,134(1), 141-156.
?。?] GOOD,P.I. Resampling methods: a practical guide to data analysis (3rd Edition)[M]. Birkhauser, 2006.