在我國,肺癌一直是各種癌癥中致死最多的,。
據(jù)國家癌癥中心統(tǒng)計(jì),,我國每年新發(fā)肺癌約78.7萬人,因肺癌死亡約63.1萬人,,如果這些患者都能早發(fā)現(xiàn),、早治療,那么他們的壽命將會(huì)大大延長,。
谷歌發(fā)表在Nature Medicine上的一項(xiàng)新研究,,讓人類解決肺癌難題前進(jìn)了一大步。在這項(xiàng)研究中,,AI能夠根據(jù)患者的胸部CT圖像,,診斷出早期肺癌,與六位放射科醫(yī)生相比,,AI的準(zhǔn)確度更高,,檢測到的病例增加了5%,假陽性減少了11%,,AUC達(dá)到94.4%,。
換句話說,相比人類醫(yī)生,,谷歌的該AI模型能夠發(fā)現(xiàn)更多沒被發(fā)現(xiàn)的早期肺癌病人,,還能減少很多沒有患肺癌的人被誤診。
無論是和單個(gè)醫(yī)生相比還是和某一科目的醫(yī)生們相比,,這項(xiàng)研究中模型的準(zhǔn)確度都相當(dāng)高,,超越了人類水平
真實(shí)數(shù)據(jù)檢測
研究中用到的數(shù)據(jù)來自美國全國肺癌篩查試驗(yàn)(NLST)的真實(shí)數(shù)據(jù),包括來自14851名患者的42290張CT照片,,其中639人在拍完這些CT照片一年后就經(jīng)過活檢被確診為肺癌,。如果一名患者在一年后的檢測中沒有發(fā)現(xiàn)肺癌,則被視為陰性,。
這14851名患者被隨機(jī)分配到了訓(xùn)練組(占比70%),,調(diào)整組(占比15%)和測試組(占比15%),三個(gè)組的確診患者百分比分別為3.9%,、4.5%和3.7%,。
模型即將開放
整個(gè)模型包含幾個(gè)部分:
肺部分割,用TensorFlow目標(biāo)檢測API訓(xùn)練LUNA45數(shù)據(jù)集,產(chǎn)生肺分割掩模并對(duì)齊,。
癌癥ROI檢測,,構(gòu)建RetinaNet47,找出病灶區(qū)域,。
全量模型,,在1.5立方毫米體積的大小上訓(xùn)練,預(yù)測一年內(nèi)患癌癥的可能性,。
癌癥風(fēng)險(xiǎn)預(yù)測模型,,提取3D特征,生成最終預(yù)測結(jié)果,。
整個(gè)模型將通過谷歌云Healthcare API開放,,進(jìn)一步研究它在臨床實(shí)踐中的效果。有朝一日,,或許這個(gè)模型真的能在各大醫(yī)院中使用,,會(huì)有更多病人受益。
傳送門
最后,,這項(xiàng)研究中用到了3個(gè)肺癌數(shù)據(jù)集,,需要的工具都是TensorFlow中已經(jīng)開源的API。
論文
End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography
Diego Ardila, Atilla P. Kiraly, Sujeeth Bharadwaj, Bokyung Choi, Joshua J. Reicher, Lily Peng, Daniel Tse, Mozziyar Etemadi, Wenxing Ye, Greg Corrado, David P. Naidich, Shravya Shetty
https://www.nature.com/articles/s41591-019-0447-x
數(shù)據(jù)集
LUNA16
https://luna16.grand-challenge.org/data/
LIDC-IDRI
https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI
NLST
https://biometry.nci.nih.gov/cdas/learn/nlst/images/
開源工具
TensorFlow Estimator API
https://www.tensorflow.org/guide/estimators
TensorFlow目標(biāo)檢測API
https://github.com/tensorflow/models/tree/master/research/object_detection
TensorFlow Inflated Inception
https://github.com/deepmind/kinetics-i3d