基于SGCN的化合物致癌性預(yù)測(cè)模型-AET-電子技術(shù)應(yīng)用

基于SGCN的化合物致癌性預(yù)測(cè)模型

2022年電子技術(shù)應(yīng)用第6期

魏若冰，何家峰，邱曉芳，劉旗

廣東工業(yè)大學(xué) 信息工程學(xué)院，廣東廣州 510006

摘要： 癌癥患者的激增引起了全世界的關(guān)注，許多研究者將目光放在了對(duì)化合物致癌性的評(píng)估上，但這是一項(xiàng)極其具有挑戰(zhàn)性的任務(wù)。本實(shí)驗(yàn)獲取了341種實(shí)驗(yàn)數(shù)據(jù)，利用三維圖卷積網(wǎng)絡(luò)(SGCN)，建立了對(duì)化合物致癌性的預(yù)測(cè)模型。結(jié)果表明：對(duì)化合物進(jìn)行致癌性預(yù)測(cè)的SGCN分類模型準(zhǔn)確率高達(dá)96.9%，比其余模型效果更好，這表明SGCN模型能夠準(zhǔn)確地對(duì)化學(xué)品進(jìn)行分類，并且在實(shí)際應(yīng)用中具有相當(dāng)大的潛力。

關(guān)鍵詞： 三維圖卷積網(wǎng)絡(luò) 分類模型致癌化合物

中圖分類號(hào)： TP183
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.212080
中文引用格式： 魏若冰，何家峰，邱曉芳，等. 基于SGCN的化合物致癌性預(yù)測(cè)模型[J].電子技術(shù)應(yīng)用，2022，48(6)：33-35，41.
英文引用格式： Wei Ruobing，He Jiafeng，Qiu Xiaofang，et al. Predict the carcinogenicity of compounds with SGCN[J]. Application of Electronic Technique，2022，48(6)：33-35，41.

Predict the carcinogenicity of compounds with SGCN

Wei Ruobing，He Jiafeng，Qiu Xiaofang，Liu Qi

College of Information Engineering，Guangdong University of Technology，Guangzhou 510006，China

Abstract： The rapid increase of the number of cancer patients has attracted worldwide attention. Researchers are very concerned about the assessment of the carcinogenicity of compounds, but this is extremely challenging. In this paper, 341 kinds of experimental data were obtained, and the spatial atom feature combined with the spatial graph convolutional network(SGCN) was used to establish a model that could predict the carcinogenicity of compounds. The results showed that when compared to other models, the classification model of the SGCN was more suited to predicting the carcinogenicity of compounds and had an overall classification accuracy of 96.9%, which showed that the SGCN model could accurately classify chemicals and had considerable potential in practical applications.

Key words : spatial graph convolutional network；classification model；carcinogenicity of compounds

0 引言

由于技術(shù)的發(fā)展，新化合物的合成速度加快，每年誕生的化合物數(shù)以萬(wàn)計(jì)^[1-2]，傳統(tǒng)的評(píng)價(jià)方法不可能對(duì)所有的化合物進(jìn)行評(píng)估。并且近年來(lái)患癌人數(shù)不斷增多^[3]，目前仍不清楚大多數(shù)的癌癥是由于暴露于何種致癌化合物而導(dǎo)致的。世界衛(wèi)生組織國(guó)際癌癥機(jī)構(gòu)(IARC)致癌清單中只有429種化合物被歸為具有致癌性物質(zhì),但仍有500余種化合物未進(jìn)行判定。傳統(tǒng)的化合物致癌性評(píng)估主要通過(guò)實(shí)驗(yàn)測(cè)試進(jìn)行，試驗(yàn)周期長(zhǎng)且成本昂貴，不確定因素過(guò)多，因此迫切需要開(kāi)發(fā)替代方法和工具來(lái)評(píng)估化合物的致癌性。

利用計(jì)算機(jī)進(jìn)行毒性預(yù)測(cè)^[4]是安全評(píng)價(jià)的重要手段，能夠大幅度節(jié)省非臨床安全評(píng)價(jià)試驗(yàn)成本，提高試驗(yàn)設(shè)計(jì)的科學(xué)性和準(zhǔn)確性。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展，支持向量機(jī)(SVM)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)(Random Forest)和K-最近鄰(KNN)等機(jī)器學(xué)習(xí)算法已被廣泛用于化合物毒性預(yù)測(cè)中^[5-7]。此外，對(duì)致癌性化合物的預(yù)測(cè)也有一些報(bào)道。2004年，張曉昀等人^[8]用人工神經(jīng)網(wǎng)絡(luò)中誤差反向傳播網(wǎng)絡(luò)(BPNN)和徑向基函數(shù)網(wǎng)絡(luò)(RBFNN)對(duì)化合物的致癌性強(qiáng)弱進(jìn)行了分類，模型的分類準(zhǔn)確率達(dá)到了80%以上；2005年，張振山等人^[9]用PCA對(duì)分子描述符降維，利用決策森林的方法預(yù)測(cè)化合物致癌性；在2007年，謝瑩等人^[10]基于gSpan算法，挖掘與已知毒性化合物具有相同字結(jié)構(gòu)的化合物，進(jìn)行未知化合物的毒性預(yù)測(cè)；2017年，梁倩倩等人^[11]基于量化構(gòu)效關(guān)系(QSAR)方法預(yù)測(cè)N-亞硝基化學(xué)物(NOCs)的致癌性，同年，閻愛(ài)俠等人^[12]構(gòu)建化合物的多維描述符，分別采用4種機(jī)器學(xué)習(xí)方法(樸素貝葉斯、隨機(jī)森林、多層感知機(jī)和支持向量機(jī))，模型的平均正確率達(dá)到74%±3%。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://forexkbc.com/resource/share/2000004415。

作者信息：

魏若冰，何家峰，邱曉芳，劉旗

(廣東工業(yè)大學(xué) 信息工程學(xué)院，廣東廣州 510006)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容