《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于支持向量機(jī)的乳腺癌化療預(yù)后狀態(tài)預(yù)測(cè)
基于支持向量機(jī)的乳腺癌化療預(yù)后狀態(tài)預(yù)測(cè)
2015年微型機(jī)與應(yīng)用第23期
賀立強(qiáng),王玉娟,林和平
(東北師范大學(xué) 計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,,吉林 長(zhǎng)春 130117)
摘要: : 乳腺癌是危害女性生命的一種惡性腫瘤,。目前,,在乳腺癌治療方面,,新輔助化療獲得了良好的成果,使眾多女性恢復(fù)了健康,。支持向量機(jī)在實(shí)際應(yīng)用中有著良好的泛化和學(xué)習(xí)能力,,并在商業(yè)、經(jīng)濟(jì)以及醫(yī)療等領(lǐng)域有所應(yīng)用,。采用決策樹分類器和支持向量機(jī)分類器,,結(jié)合乳腺癌新輔助化療隨訪記錄數(shù)據(jù),,預(yù)測(cè)乳腺癌患者新輔助化療的預(yù)后狀態(tài),,實(shí)驗(yàn)結(jié)果表明使用支持向量機(jī)的效果好于使用決策樹的效果,在支持向量機(jī)中使用徑向基核函數(shù)時(shí)獲得了最高的準(zhǔn)確率,,達(dá)到了84.08%,,由此可見(jiàn),,該分類方法可能成為一種乳腺癌新輔助化療的預(yù)后狀態(tài)的有效預(yù)測(cè)工具。
Abstract:
Key words :

  摘  要乳腺癌是危害女性生命的一種惡性腫瘤,。目前,,在乳腺癌治療方面,,新輔助化療獲得了良好的成果,,使眾多女性恢復(fù)了健康。支持向量機(jī)在實(shí)際應(yīng)用中有著良好的泛化和學(xué)習(xí)能力,,并在商業(yè),、經(jīng)濟(jì)以及醫(yī)療等領(lǐng)域有所應(yīng)用。采用決策樹分類器和支持向量機(jī)分類器,,結(jié)合乳腺癌新輔助化療隨訪記錄數(shù)據(jù),,預(yù)測(cè)乳腺癌患者新輔助化療的預(yù)后狀態(tài),,實(shí)驗(yàn)結(jié)果表明使用支持向量機(jī)的效果好于使用決策樹的效果,在支持向量機(jī)中使用徑向基核函數(shù)時(shí)獲得了最高的準(zhǔn)確率,,達(dá)到了84.08%,,由此可見(jiàn),該分類方法可能成為一種乳腺癌新輔助化療的預(yù)后狀態(tài)的有效預(yù)測(cè)工具,。

  關(guān)鍵詞: 乳腺癌,;新輔助化療;預(yù)后,;支持向量機(jī),;分類

0 引言

  女性的乳房是其美麗的代言,是母性的傳承,,同時(shí)也是疾病的侵?jǐn)_對(duì)象,。乳腺癌是女性最常見(jiàn)的惡性腫瘤之一,發(fā)病率正在逐年上升,,且趨于年輕化,,是危害女性健康的主要?dú)⑹諿1]。我國(guó)乳腺癌疾病也有著不好的趨勢(shì),,其發(fā)病率和死亡率正在逐年攀升,。由于受中國(guó)傳統(tǒng)因素的影響,婦女很少去醫(yī)院定期檢查,,羞于關(guān)注乳房的健康,,女性一旦發(fā)現(xiàn)患有乳腺腫瘤,多數(shù)已經(jīng)開始轉(zhuǎn)移,。由于患者的體質(zhì)不同,,各項(xiàng)指標(biāo)亦不相同,如何在患者進(jìn)行新輔助化療之前預(yù)測(cè)到患者的化療療效,,使能進(jìn)行化療的患者得到最大的受益,,就變得尤為重要。本文將依據(jù)患者隨訪記錄信息,,通過(guò)數(shù)據(jù)挖掘技術(shù),,對(duì)患者化療療效進(jìn)行預(yù)測(cè),為乳腺癌患者的治療提供可靠的幫助,。

1 研究現(xiàn)狀

  伴隨著社會(huì)經(jīng)濟(jì)水平的逐漸提高,,乳腺癌逐漸被人們重視起來(lái),國(guó)內(nèi)外學(xué)者和醫(yī)療工作者對(duì)計(jì)算機(jī)輔助治療做了大量的研究工作,,并取得了一定的研究成果,。然而伴隨著研究人員對(duì)乳腺癌的深入鉆研,大量的研究數(shù)據(jù)不斷涌現(xiàn),臨床病例每一位患者都有著大量的檢測(cè),、治療和預(yù)后數(shù)據(jù),。患者的醫(yī)療數(shù)據(jù)信息量很大,,相互之間聯(lián)系復(fù)雜,,想要提取有用的信息數(shù)據(jù),進(jìn)而從信息中提取出有用的知識(shí)更是難上加難,。目前我國(guó)人民思想比較傳統(tǒng),,乳腺癌治療與預(yù)測(cè)相對(duì)落后,計(jì)算機(jī)醫(yī)療輔助治療遠(yuǎn)遠(yuǎn)不如發(fā)達(dá)國(guó)家,,為此,,需要進(jìn)一步提升我國(guó)的醫(yī)療水平。

2 支持向量機(jī)原理

  支持向量機(jī)是一個(gè)被大量使用的分類技術(shù),。其具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ),,在商業(yè)領(lǐng)域、經(jīng)濟(jì)領(lǐng)域以及醫(yī)療領(lǐng)域等具有很好的應(yīng)用效果,。支持向量機(jī)分為兩種模型,,第一種是線性可分,第二種是線性不可分,,第一種模型其實(shí)是第二種模型的特例[2],。

  提高線性分類器的學(xué)習(xí)能力是通過(guò)核函數(shù)實(shí)現(xiàn)的。采用將數(shù)據(jù)映射高維空間的辦法,,使線性不可分變?yōu)榭煞?。常用的核函?shù)有以下幾種:

  (1)線性核函數(shù)

  BINY%RW__Y78L8HVF%QOXPU.jpg

  在實(shí)際應(yīng)用中,,核函數(shù)的選擇尤為重要,,對(duì)于同一數(shù)據(jù),不同的核函數(shù)所得到的分類準(zhǔn)確率大不相同,,所以核函數(shù)的優(yōu)選在支持向量機(jī)分類中顯得尤為重要,。

3 應(yīng)用實(shí)例

  3.1 數(shù)據(jù)預(yù)處理

  本文所用數(shù)據(jù)來(lái)源于吉林大學(xué)附屬醫(yī)院,該數(shù)據(jù)集是依據(jù)乳腺癌化療隨訪記錄表所獲,,包含2009年~2013年所有數(shù)據(jù),。經(jīng)過(guò)與醫(yī)生的共同探討,從眾多數(shù)據(jù)中選取了245名患者隨訪記錄,,其中180個(gè)是具有良好治療效果的記錄,,65個(gè)是治療效果不理想的記錄。在新輔助化療治療下有良好效果的乳腺癌患者被定義為正樣本,,在新輔助化療治療下效果不理想的患者,,則定義為負(fù)樣本。所屬的分類標(biāo)簽分別制定為+1和-1,。每個(gè)樣本對(duì)應(yīng)一個(gè)患者的醫(yī)療特征,,其中每一維的特征都是根據(jù)有經(jīng)驗(yàn)的醫(yī)生從中提取,是能夠表現(xiàn)出其病情的重要特征,。

  考慮到支持向量機(jī)處理的數(shù)據(jù)都是實(shí)數(shù),,本文對(duì)非數(shù)值屬性進(jìn)行了轉(zhuǎn)換。轉(zhuǎn)換后的數(shù)據(jù)同樣適用于本文將要對(duì)比的決策樹算法,。比如患者特征中Echogenic Halo特征包含的特征值為3個(gè),,分別為Yes,No,,Unknown,,則對(duì)應(yīng)的數(shù)值分別為1,2,,3,,但是為了防止較大數(shù)值獲得最大權(quán)重,采取了如下所示的編碼機(jī)制:

  Yes(1,,0,,0)

  No(0,1,,0)

  Unknown(0,,0,1)

  3.2 分類結(jié)果

  為了使分類效果得到更好的評(píng)估,,引入靈敏度(Sen),、特異度(Spe)和準(zhǔn)確率(Q)來(lái)評(píng)價(jià)本文所使用分類器的性能,分別給出評(píng)價(jià)指標(biāo)的公式如式(5)~式(7)[3],。

  5.png

  其中TP是指在工作集中實(shí)際是正樣本,,預(yù)測(cè)結(jié)果為正樣本的數(shù)目;FN是指在工作集中實(shí)際是正樣本,,預(yù)測(cè)結(jié)果為負(fù)樣本的數(shù)目,;TN是指在工作集中實(shí)際是負(fù)樣本,預(yù)測(cè)結(jié)果為負(fù)樣本的數(shù)目,;FP是在工作集中實(shí)際是負(fù)樣本,,預(yù)測(cè)結(jié)果為正樣本的數(shù)目[4]。

  本文中所使用的數(shù)據(jù)均來(lái)自醫(yī)院真實(shí)數(shù)據(jù),,正負(fù)樣本不均衡,,為了更好地評(píng)價(jià)分類器的性能,故而引入Matthews相關(guān)系數(shù)MCC,。計(jì)算公式如下:

 BINY%RW__Y78L8HVF%QOXPU.jpg

  MCC的取值范圍在[-1,,1]之間,,取值越小說(shuō)明該分類器性能越不好,反之則分類效果越好,。

  本文使用決策樹C4.5算法和支持向量機(jī)算法,,并結(jié)合五次交叉驗(yàn)證方法來(lái)進(jìn)行乳腺癌新輔助化療預(yù)后狀態(tài)的預(yù)測(cè)。預(yù)測(cè)效果如表1所示,。由表1得知,,使用支持向量機(jī)比使用C4.5分類效果要好。本文還分別對(duì)比了支持向量機(jī)的三種核函數(shù),,所體現(xiàn)的準(zhǔn)確率均高于決策樹的73.47%,。從中可以看出,對(duì)于本數(shù)據(jù)來(lái)說(shuō),,支持向量機(jī)分類效果要明顯好于決策樹,。據(jù)表中數(shù)據(jù)顯示,靈敏度明顯高于特異度,,說(shuō)明正樣本學(xué)習(xí)效果比負(fù)樣本學(xué)習(xí)效果要好,。

001.jpg

  本文分別對(duì)比了支持向量機(jī)的三種核函數(shù),對(duì)于本實(shí)驗(yàn)中所使用的該乳腺癌患者數(shù)據(jù),,其準(zhǔn)確率均高于75%,。支持向量機(jī)的最佳準(zhǔn)確率為84.08%,是使用徑向基核函數(shù)得到的,,明顯高于其他兩種,。由此得知,對(duì)于同一數(shù)據(jù)集而言,,核函數(shù)不一樣,,其準(zhǔn)確率也不一樣。想要得到高效的分類效果,,必須選擇合適的核函數(shù)[5],。

  本文所使用的數(shù)據(jù)集,數(shù)目有限,,眾多數(shù)據(jù)中能夠起到支持向量的數(shù)據(jù)不夠充分,。通過(guò)增加訓(xùn)練數(shù)據(jù),可找到更多的支持向量,,進(jìn)而提高分類的準(zhǔn)確率,,所以本文所采用的支持向量機(jī)方法有望成為新輔助乳腺癌患者預(yù)后預(yù)測(cè)的有效工具。

4 結(jié)論

  本文使用兩種分類算法,,并對(duì)其結(jié)果進(jìn)行了對(duì)比,,從實(shí)驗(yàn)結(jié)果中可以看到,支持向量機(jī)在處理乳腺癌新輔助化療預(yù)后狀態(tài)預(yù)測(cè)方面的分類效果好于決策樹分類效果,。分別比較了支持向量機(jī)三種核函數(shù),,從結(jié)果數(shù)據(jù)中可以看出,,使用徑向基核函數(shù)可使分類器獲得最佳分類效果。所以在使用支持向量機(jī)進(jìn)行分類的同時(shí),,選擇哪一種核函數(shù)是至關(guān)重要的,。支持向量機(jī)應(yīng)用于乳腺癌治療,會(huì)給乳腺癌患者帶來(lái)很大的幫助,,使乳腺癌的治療越來(lái)越高效,降低死亡率,,增加保乳機(jī)會(huì),,使患者早日脫離疾病的折磨,恢復(fù)健康,。

參考文獻(xiàn)

  [1] 臧丹丹,,崔穎,師建國(guó),,等.中國(guó)西部地區(qū)乳腺癌診斷年齡的抽樣分析及中美對(duì)比研究[J].現(xiàn)代腫瘤醫(yī)學(xué),,2010,18(3):571-573.

  [2] 王平,,王文劍.基于時(shí)序核函數(shù)的支持向量回歸機(jī)[J].計(jì)算機(jī)輔助工程,,2006,15(3):35-38.

  [3] 袁前飛,,蔡從中,,肖漢光,等.基于支持向量機(jī)的乳腺癌預(yù)后狀態(tài)預(yù)測(cè)和療效評(píng)估[J].北京生物醫(yī)學(xué)工程,,2007,,26(4):372-376.

  [4] 馬勝祥,馬建慶,,楊明.基于核函數(shù)擬合的非平衡數(shù)據(jù)分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,,2010,27(4):177-179.

  [5] 崔炳德.支持向量機(jī)分類器遙感圖像分類研究[J].計(jì)算機(jī)工程與應(yīng)用,,2011,,47(27):189-191.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。