融合注意力機(jī)制和Child-Sum Tree-LSTM的二進(jìn)制代碼相似性檢測[模擬設(shè)計][信息安全]

抽象語法樹是一種代碼的樹型表示,,它保留了代碼中定義良好的語句組件,、語句的顯式順序和執(zhí)行邏輯。包含豐富語義信息的抽象語法樹可以在二進(jìn)制分析時通過反編譯生成,,并且已經(jīng)作為代碼特征應(yīng)用于二進(jìn)制代碼相似度檢測,。抽象語法樹中不同類別的節(jié)點承載著不同的語義信息,對整棵樹的語義具有不同的貢獻(xiàn)程度,。然而現(xiàn)有的二進(jìn)制代碼相似度檢測方法所用神經(jīng)網(wǎng)絡(luò)無法對抽象語法樹節(jié)點進(jìn)行重要性區(qū)分,,影響了模型的訓(xùn)練效果,。針對該問題,提出了一種融合注意力機(jī)制和Child-Sum Tree-LSTM神經(jīng)網(wǎng)絡(luò)的跨指令集,、跨代碼混淆二進(jìn)制代碼相似性檢測方法,。首先使用二進(jìn)制分析工具IDA Pro對二進(jìn)制代碼反編譯提取架構(gòu)無關(guān)的抽象語法樹特征,并利用隨機(jī)采樣構(gòu)造訓(xùn)練樣本對,。然后使用抽象語法樹訓(xùn)練樣本對訓(xùn)練融合注意力機(jī)制和Child-Sum Tree-LSTM的神經(jīng)網(wǎng)絡(luò)模型,。在公開數(shù)據(jù)集BINKIT上的實驗表明,所提方法的AUC和Accuracy指標(biāo)分別為94.1%,、66.2%,,優(yōu)于Child-Sum Tree-LSTM算法。

發(fā)表于:2024/1/25 11:01:00