基于誤分類模式的乳腺癌診斷研究-AET-電子技術應用

基于誤分類模式的乳腺癌診斷研究

2017年微型機與應用第2期

高集榮1，田艷2，楊永紅1，劉清華1

1.中山大學計算機科學系，廣東廣州 510006；2.西安財經學院統(tǒng)計學院，陜西西安 710061

摘要： 乳腺癌已經成為當今世界影響婦女健康的重要疾病。對于乳腺癌診斷來說，當一個惡性病例被誤分類為良性病例的時候，其代價遠遠大于一個良性病例被誤分類為惡性病例。它利用數(shù)據(jù)挖掘領域的代價敏感相關方法，建立一個識別良性乳腺腫瘤和惡性乳腺腫瘤的診斷預測系統(tǒng)。在建模過程中充分考慮到誤分類代價的因素，提出了誤分類代價策略。通過一系列實驗驗證了所建立的模型。從實驗結果來看，Adaboost與SVM的誤分類組合分類算法在正確率和總誤分類代價兩個評估指標上得到了良好的效果。

關鍵詞： 數(shù)據(jù)挖掘代價敏感誤分類代價乳腺癌

Abstract：

Key words :

　　高集榮1，田艷2，楊永紅1，劉清華1

　　(1.中山大學計算機科學系，廣東廣州 510006；2.西安財經學院統(tǒng)計學院，陜西西安 710061)

摘要：乳腺癌已經成為當今世界影響婦女健康的重要疾病。對于乳腺癌診斷來說，當一個惡性病例被誤分類為良性病例的時候，其代價遠遠大于一個良性病例被誤分類為惡性病例。它利用數(shù)據(jù)挖掘領域的代價敏感相關方法，建立一個識別良性乳腺腫瘤和惡性乳腺腫瘤的診斷預測系統(tǒng)。在建模過程中充分考慮到誤分類代價的因素，提出了誤分類代價策略。通過一系列實驗驗證了所建立的模型。從實驗結果來看，Adaboost與SVM的誤分類組合分類算法在正確率和總誤分類代價兩個評估指標上得到了良好的效果。

　　關鍵詞：數(shù)據(jù)挖掘；代價敏感；誤分類代價；乳腺癌

　　中圖分類號：TP393.092文獻標識碼：ADOI： 10.19358/j.issn.1674-7720.2017.02.004

　　引用格式：高集榮，田艷，楊永紅,等.基于誤分類模式的乳腺癌診斷研究［J］.微型機與應用，2017,36（2）：10-13，16.

0引言

　　乳腺癌已經成為當今世界影響婦女健康的重要疾病［1］,全球乳腺癌發(fā)病率從上世紀70年代末起就一直呈上升趨勢。據(jù)美國的調查，平均每8名美國婦女中，就有一個人在其一生中可能患有乳腺癌疾病。據(jù)中國國家癌癥中心和衛(wèi)生部疾病預防控制局2012年公布的2009年乳腺癌發(fā)病數(shù)據(jù)顯示：全國腫瘤登記地區(qū)的女性惡性腫瘤排行榜上，乳腺癌發(fā)病率位居第1位。

　　乳腺癌的研究和治療歷史悠久，積累了不少的數(shù)據(jù)，如何從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息來輔助治療，成了當下比較熱門的一個課題。數(shù)據(jù)挖掘技術和機器學習的不斷進步，將這些技術用于乳腺癌的識別和預測是大勢所趨。再結合醫(yī)生本身的經驗來預測乳腺癌，這將是未來癌癥疾病的診斷模式。

　　國內外對乳腺癌診斷預測的研究從未停止過，很多研究算法都得到了95%以上的正確率。但是這些研究所使用的數(shù)據(jù)集為威斯康星乳腺癌數(shù)據(jù)集，共收集病例樣本699個樣本，只有9個特征屬性。

　　本文使用到的良惡性乳腺腫瘤分析的數(shù)據(jù)為威斯康星乳腺癌診斷數(shù)據(jù)集，含有569個樣本(其中良性樣本357個，惡性樣本212個)，30個特征維度［2］；近些年的乳腺癌挖掘研究大都采用此數(shù)據(jù)集。

　　在進行乳腺癌診斷預測的過程中，降低誤診斷的風險是一個實際的需求。如果是惡性乳腺腫瘤被預測為良性，其帶來的后果比原本是良性的被預測為惡性的給病人帶來的后果會更嚴重。因此，本文引入誤分類代價，誤分類代價是一種代價敏感的策略，它定義了被誤分類為不同類型時所產生的成本是不同的。

1算法描述

　　基于誤分類的乳腺癌診斷預測建模主要分為兩個步驟：首先是對數(shù)據(jù)集中的數(shù)據(jù)進行降維操作，乳腺癌細胞的特征屬性本來就很多，本數(shù)據(jù)集中含有30個特征屬性，如果直接對其進行建模，所花費的成本會很高，而且這么多特征屬性之中，可能存在噪聲數(shù)據(jù)，影響建模的效果；其次是使用基于誤分類代價的建模方法對其數(shù)據(jù)進行訓練和驗證。文中重點考察了決策樹和SVM兩種分類方法，并且在研究中引入它們的誤分類策略。

　　1.1乳腺癌特征選擇的方法

　　降維方式基本分為兩種，特征選擇和特征變換。特征選擇方法依據(jù)是否獨立于后續(xù)的學習算法又分為過濾式和封裝式兩種［3］。過濾式與后續(xù)的學習分類算法無關，一般是直接利用所有訓練數(shù)據(jù)的統(tǒng)計信息評估特征，其特點是速度快；封裝式利用后續(xù)學習算法的訓練準確率評估特征子集，其特點是偏差小，計算量大。特征變換不同于特征選擇之處在于其輸出結果不是原有的屬性，而是基于某種變換的原則所產生的新屬性。作為醫(yī)療診斷來說，不僅需要診斷預測的結果，還重視其推理的過程。由于變換后的屬性改變了原有屬性的物理特性，不可能看到其推理的結果，因此這里不討論特征變化方式。

　　本文研究的模型針對的是擁有30個屬性維度的數(shù)據(jù)集，屬于高維數(shù)據(jù)集。如果直接針對原始數(shù)據(jù)集采用分類方法，不僅成本較高，而且可能由于噪聲屬性的影響而降低精確度。

　　在絕大部分的特征選擇方法中，其核心部分在于對屬性特征重要性的評估，本文將選用三種特征重要度評估方式，其中一種是上文中提到的Fscores，另一種是在構建決策樹過程中用于選擇分裂數(shù)據(jù)集時評估屬性的GINI方法，最后一種則是基于分類器的特征評估方式。選擇這三種評估方式的先驗條件是假定每一個特征是獨立的，可以評估出每一個特征的重要程度，并按照重要程度進行降序排序，從而根據(jù)需要選擇最重要的前N個特征屬性。

　　1.2乳腺癌誤分類代價的組合分類研究

　　在進行了降維操作之后，需要對其進行分類建模操作。本文除了要基本保持診斷預測的正確率之外，還要降低其誤分類診斷的總代價。這里將把誤分類代價的概念引入到乳腺癌診斷預測課題中，誤分類代價屬于代價敏感的一種。

　　1.2.1代價敏感

　　數(shù)據(jù)挖掘的本質在于利用一個特定的數(shù)學模型來給某一個數(shù)據(jù)進行分類，判定其類別，為了構建出數(shù)學模型，需要從大量的數(shù)據(jù)中獲取信息，并發(fā)現(xiàn)其中蘊含的規(guī)律，最后利用這個規(guī)律，也就是數(shù)學模型來預測一些數(shù)據(jù)，得到其可能的一個類別，這個類別是通過預測而來的，可能會和該數(shù)據(jù)真實的類別(假設只能在未來驗證得知)不一致，這時就會出現(xiàn)一個分類正確率的問題，對于一個預測數(shù)學模型來說，正確率是一個非常重要的指標。但是在實際應用中，代價因素也是不得不考慮的一個問題。

　　分類的代價不平等性給基于代價敏感的數(shù)據(jù)挖掘方法帶來了全新的視角和方向。TURNEY P D［4］認為代價具有抽象的意義，可以用不同的單位來進行衡量，并且他歸納總結了分類過程中8種不同的代價類型：誤分類代價、測試代價、標注代價、干預代價、計算代價、獲取實例代價、人機交互代價、不穩(wěn)定代價。

　　代價敏感，尤其是誤分類代價在機器學習中重點處理的是數(shù)據(jù)不平衡的情況，擔心大樣本類別數(shù)據(jù)在建模過程中對分類結果產生一定的傾斜。而對于本文所研究的問題而言，這卻是一個具有實際意義的問題。對于乳腺腫瘤良惡性診斷來說，當一個惡性病例被誤分類為良性病例的時候，其代價遠遠大于一個良性病例被誤分類為惡性病例的代價(主要指對病人的關注)。

　　對于二元分類問題，一個實例本來是i類別的，但是在分類預測的時候被錯誤地歸為類別j，Ci,j表示將類別為i的事物預測為類別j時所產生的代價。

　　一個二元分類的代價矩陣定義如表1所示。其中，正確分類的不會產生代價。誤分類代價的分類的目的就是要以最小誤分類代價建立以下模型：

　　TotalCost=C0,1*FN+C1,0*FP(1)

　　其中FN和FP分別為假負實例數(shù)和假正實例數(shù)。

　　1.2.2組合分類器誤分類策略

　　將誤分類策略分別引入到基礎分類器和組合分類器中，但是在大部分的誤分類研究中，主要是使用單一的分類器進行誤分類建模，在上述給出的單一誤分類器中，從某種程度來說也改變了其建模過程中的一些步驟，因此可能與不引入誤分類策略后分類正確率有所出入。為此，使用組合分類模式來降低個體分類器在引入誤分類策略時所帶來的誤差，同時使用基于誤分類策略的組合分類模式，也能達到基礎分類器和組合分類器誤分類效果的疊加。

　　本文使用的基礎分類器有C45決策樹和SVM，使用的組合分類器有Adaboost與Bagging。其中Adaboost擁有誤分類策略，而Bagging盡管自身沒有誤分類策略，但是可以使用帶有誤分類策略的基礎分類器來達到其誤分類的效果。

2算法驗證

　　本節(jié)著重根據(jù)上文提到的各種方法對乳腺癌數(shù)據(jù)進行建模實驗，從而構建出基于誤分類代價的診斷預測系統(tǒng)。因篇幅所限，本文只列出了一部分。

　　2.1N-交叉驗證

　　交叉驗證是數(shù)據(jù)挖掘實驗中常用的方法。在N交叉驗證［56］中，將數(shù)據(jù)集隨機劃分為N份，并進行N次實驗。在每一次實驗中，選取與之前不同的一份作為驗證集，剩余N1份作為建立模型使用的訓練集。

　　在本文的實驗中會頻繁用到N交叉驗證，例如在特征選擇的時候，需要經過N交叉驗證來確定特征屬性的重要程度；在建立預測診斷模型的時候，需要使用N交叉驗證來評估預測的準確性和總誤分類代價。

　　2.2評估標準

　　乳腺腫瘤良惡性診斷是一個分類問題，目前成熟的分類模型評估方式有：正確率、召回率、精確度、AUC、ROC曲線、混淆矩陣等。在混淆矩陣的基礎上，可以得到以上多個評估度量值。其中正確率(Acc)和錯誤率(Err)是使用最廣泛的兩個基礎度量標準，其公式如下：

　　 ]XTT)_FDS@8KOYIRO6QYX7R.png

　　除了基本的正確率和錯誤率之外，由于本文重點考察的是基于代價敏感的乳腺腫瘤良惡性診斷。在前文的描述中也提到，一個惡性乳腺癌患者被診斷為良性所付出的代價遠比一個良性乳腺腫瘤患者被診斷為惡性所付出的代價要高得多。所以本文所做研究是，除預測結果基本保持在一個比較高的水準之外，還需要預測的代價盡可能地小。下面給出基本準則去判斷實驗評估指標，即預測產生的錯誤總代價(TotalCost)。

　　表2給出了乳腺癌預測的代價矩陣，其中如果本身為良性乳腺腫瘤而預測為良性，由于預測是正確的，因此不會產生代價，惡性乳腺腫瘤預測為惡性也是同樣的道理。而如果本身是良性乳腺腫瘤被診斷為惡性的話，其花費的代價是C0,1，如果本身是惡性乳腺腫瘤而被診斷為良性的話，其花費的代價為C1,0，其中C1,0>C0,1。由此可以得到式（4）：

　　TotalCost=FN*C0,1+FP*C1,0(4)表2代價矩陣預測正類(預測良性)預測負類(預測惡性)實際正類(實際良性)0C0,1實際負類(實際惡性)C1,00

　　本文希望達到的目標是：在保持正確率不會有太大下降的情況下，降低總的誤分類代價。

　　2.3誤分類組合建模實驗

　　在組合不同誤分類代價策略時，基本分類器均具有其誤分類代價策略，可以進行對比試驗，而組合分類器只有Adaboost具有誤分類策略，可考慮將基礎誤分類與Bagging組合分類器，而Adaboost可對比采用誤分類策略與不采用誤分類策略的效果，并同時與基礎分類器的誤分類策略進行整合。

　　為了看出誤分類策略的效果，需要設計對比試驗，下面針對每一個基礎分類器設計了幾組對比試驗。表3給出了需要對比的實驗，以證實在建模過程中確實有誤分類策略的效果。

　　本文采用的誤分類矩陣為0101000,使用的數(shù)據(jù)集為乳腺腫瘤疾病良惡性診斷集，有兩個類型，0表示良性，1表示惡性，根據(jù)前文對于良惡性誤分類代價的分析判斷，得cost(1,0)=10,cost(0,1)=100。

　　本文所采用的數(shù)據(jù)挖掘的基礎程序來自Weka3.6。懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis，Weka)是一款免費的、非商業(yè)化的挖掘工具，基于Java環(huán)境的開源的機器學習以及數(shù)據(jù)挖掘軟件。源代碼可在其官方網站下載，其中的C45基礎算法也來自該官網。

　　SVM則采用LIBSVM的Java版本，LIBSVM是臺灣大學林智仁等人開發(fā)設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸軟件包，不但提供了編譯好的可在Windows操作系統(tǒng)上執(zhí)行的文件，還提供了源代碼，方便改進、修改以及在其他操作系統(tǒng)上應用。

　　(1) C45算法結果分析

　　首先展示Adaboost+C45算法的結果，以便與后期結果進行對照。

　　(2) SVM算法結果分析

　　SVM在此問題上有很好的處理效果。這里可以對其進行分析比較，研究其在誤分類代價的情況下的處理效果。本文采用的是LIBSVM的Java版本，其中一些參數(shù)均為默認值，其中核函數(shù)采用的是RBF核函數(shù)。

　　圖1、圖2分別給出了正確率、總代價曲線，表4給出了不采取誤分類策略的Adaboost+SVM的最高評估值。　　

　　從實驗結果可以看出，盡管Adaboost+SVM組合模式的正確率非常高，但是其代價也不低，主要原因在于其高誤分類代價的個數(shù)比較多。而采用SVM的誤分類策略組合模式可能可以做到既擁有比較高的分類正確率，又能減少其高代價誤分類的個數(shù)，從而降低總的誤分類代價。

　　從對比實驗可以看出，SVM在誤分類代價策略效果下表現(xiàn)得比決策樹都要好一些。其相對較高的正確率是一個重要原因，從SVM和決策樹兩者的表現(xiàn)來看，SVM構建模型的分類正確率遠高于決策樹，因而被誤分類的個數(shù)要小于決策樹；另一原因是在采用了誤分類代價策略之后，惡性乳腺腫瘤被診斷為良性的個數(shù)比不采用誤分類策略時減少了，所以總的誤分類的代價才會減少。

　　實驗結果表明，大部分實驗都達到了其降低總誤分類代價的目的，而且能保持比較高的正確率：Adaboost與SVM的誤分類組合分類算法不僅正確率達到了98.23%，而且將總誤分類代價從600左右降到了330。

　　3結論

　　本文結合傳統(tǒng)的基礎分類算法，運用組合分類模式進行診斷預測，并針對乳腺癌樣例的特征屬性采取了降維的處理，旨在降低建模過程的成本和對樣例進行預測時的成本，并希望清除噪聲屬性。同時，也將代價敏感的概念引入到乳腺癌診斷過程中。在建模過程中，將誤分類代價策略和基礎分類模式、組合分類模式Bagging和Adaboost進行整合修改，以便能在保持較高正確率的情況下，降低總的誤分類代價。設計了對比試驗，以便能得出最優(yōu)的組合分類模式；在此基礎上采用粒子群算法，以最低誤分類代價為評估標準，采用上述組合實驗中的最佳組合分類方法，選擇出最穩(wěn)定的低誤分類代價的特征屬性和相關參數(shù)值。

　　參考文獻

　　［1］ The Women’s Health Resource .What is breast cancer［EB/OL］.(2013-06-10)［2016-07-28］.http://www.imaginis.com/general informationonbreastcancer/whatisbreastcancer2.

　　［2］ UCI Machine Learning Repository. Wisconsin breast cancer dataset［EB/OL］. （20120630）［2016-07-28］http://archive.ics.uci.edu/ml/datasets.html-format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=.

　　［3］姚旭.特征選擇方法綜述［J］.控制與決策.2012,127（2）:35-40.

　　［4］ TURNEY P D. Types of cost in inductive concept learning［C］. Workship on CostSensitive Learning at ICML, 2000:15-21.

　　［5］ DUPRET, G. KODA, M. Theory and methodology: boostrap resampling for unbalanced data in supervised learning［J］. Eropean Journal of Operational Research，2001，134（1）, 141-156.

　　［6］ GOOD,P.I. Resampling methods: a practical guide to data analysis (3rd Edition)［M］. Birkhauser, 2006.

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容