基于梯度優(yōu)化的大語(yǔ)言模型后門(mén)識(shí)別探究
所屬分類:技術(shù)論文
上傳者:wwei
文檔大?。?span>1222 K
標(biāo)簽: 大語(yǔ)言模型 后門(mén)攻擊 基于梯度的后門(mén)識(shí)別
所需積分:0分積分不夠怎么辦?
文檔介紹:隨著大語(yǔ)言模型的流行并且應(yīng)用在越來(lái)越多的領(lǐng)域,,大語(yǔ)言模型的安全問(wèn)題也隨之而來(lái),。 通常訓(xùn)練大語(yǔ)言模型對(duì)數(shù)據(jù)集以及計(jì)算資源有著極為苛刻的要求,,所以有使用需求的用戶大部分都直接利用網(wǎng)絡(luò)上開(kāi)源的數(shù)據(jù)集以及模型,,這給后門(mén)攻擊提供了絕佳的溫室,。后門(mén)攻擊是指用戶在模型中輸入正常數(shù)據(jù)時(shí)模型表現(xiàn)像沒(méi)有注入后門(mén)時(shí)一樣正常,但當(dāng)輸入帶有后門(mén)觸發(fā)器的數(shù)據(jù)時(shí)模型輸出異常,。防止后門(mén)攻擊的有效方法就是進(jìn)行后門(mén)識(shí)別,。目前基于梯度的優(yōu)化方法是比較常用的,但使用這些方法時(shí)內(nèi)部影響因子的設(shè)定對(duì)識(shí)別效果具有一定影響,。文章就詞令牌數(shù)量,、最鄰近數(shù)量、噪聲大小進(jìn)行了實(shí)驗(yàn)測(cè)量和作用機(jī)制的分析,,以便為后續(xù)使用這些方法的研究者提供參考,。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分,;重復(fù)下載不扣分,,本人上傳資源不扣分。