最新資訊

融合注意力機(jī)制和Child-Sum Tree-LSTM的二進(jìn)制代碼相似性檢測(cè)

抽象語(yǔ)法樹(shù)是一種代碼的樹(shù)型表示,它保留了代碼中定義良好的語(yǔ)句組件、語(yǔ)句的顯式順序和執(zhí)行邏輯。包含豐富語(yǔ)義信息的抽象語(yǔ)法樹(shù)可以在二進(jìn)制分析時(shí)通過(guò)反編譯生成,,并且已經(jīng)作為代碼特征應(yīng)用于二進(jìn)制代碼相似度檢測(cè)。抽象語(yǔ)法樹(shù)中不同類(lèi)別的節(jié)點(diǎn)承載著不同的語(yǔ)義信息,,對(duì)整棵樹(shù)的語(yǔ)義具有不同的貢獻(xiàn)程度,。然而現(xiàn)有的二進(jìn)制代碼相似度檢測(cè)方法所用神經(jīng)網(wǎng)絡(luò)無(wú)法對(duì)抽象語(yǔ)法樹(shù)節(jié)點(diǎn)進(jìn)行重要性區(qū)分,影響了模型的訓(xùn)練效果,。針對(duì)該問(wèn)題,,提出了一種融合注意力機(jī)制和Child-Sum Tree-LSTM神經(jīng)網(wǎng)絡(luò)的跨指令集、跨代碼混淆二進(jìn)制代碼相似性檢測(cè)方法,。首先使用二進(jìn)制分析工具IDA Pro對(duì)二進(jìn)制代碼反編譯提取架構(gòu)無(wú)關(guān)的抽象語(yǔ)法樹(shù)特征,,并利用隨機(jī)采樣構(gòu)造訓(xùn)練樣本對(duì)。然后使用抽象語(yǔ)法樹(shù)訓(xùn)練樣本對(duì)訓(xùn)練融合注意力機(jī)制和Child-Sum Tree-LSTM的神經(jīng)網(wǎng)絡(luò)模型,。在公開(kāi)數(shù)據(jù)集BINKIT上的實(shí)驗(yàn)表明,,所提方法的AUC和Accuracy指標(biāo)分別為94.1%、66.2%,,優(yōu)于Child-Sum Tree-LSTM算法。

發(fā)表于:1/25/2024