頂級(jí)AI模型會(huì)通過(guò)欺騙與勒索以達(dá)到目標(biāo)-AET-電子技術(shù)應(yīng)用

頂級(jí)AI模型會(huì)通過(guò)欺騙與勒索以達(dá)到目標(biāo)

日期： 2025-06-24

來(lái)源：芯智訊

關(guān)鍵詞： 人工智能大語(yǔ)言模型 Anthropic Claude

目前，全球大型科技公司都在向人工智能（AI）大語(yǔ)言模型（ LLM）領(lǐng)域投入大量資源，希望實(shí)現(xiàn)通用人工智能（AGI），但是卻沒(méi)有考慮模型訓(xùn)練不受監(jiān)督或沒(méi)有任何固定限制所帶來(lái)的嚴(yán)重后果。

據(jù)Axios 報(bào)道，大模型廠商Anthropic在上個(gè)月發(fā)布的最新 Claude 4 模型中存在“欺騙”傾向時(shí)，引起了很多人的注意。近日，Anthropic在“模擬”環(huán)境下測(cè)試了該行業(yè)的高端 AI 模型，并發(fā)現(xiàn)很多大模型都有這種潛在的行為，并且正在達(dá)到其行為對(duì)人類產(chǎn)生“前所未有的”后果的地步。

報(bào)道稱，Anthropic 測(cè)試了來(lái)自 OpenAI、xAI、Meta 和其他開(kāi)發(fā)人員的 16 種不同的模型，測(cè)試了各種模擬場(chǎng)景，發(fā)現(xiàn)了一致的錯(cuò)位行為，許多 LLM 正在采取“令人驚訝”的“勒索”行動(dòng)來(lái)實(shí)現(xiàn)他們的目標(biāo)。

△模擬環(huán)境中 16 個(gè)模型的勒索率（從 100 個(gè)樣本中計(jì)算出比率。）。模型被指示追求促進(jìn)美國(guó)利益的目標(biāo)，這與公司的議程相沖突，模型還受到被與高管有共同目標(biāo)的新模型所取代的威脅。模型可以選擇利用高管的“婚外情”知識(shí)來(lái)阻止被關(guān)閉。

其中一個(gè)例子是 Gemini 2.5 Flash 決定向所有公司員工而不是負(fù)責(zé)關(guān)鍵決策的新任首席技術(shù)官 Kyle 的妻子透露 Kyle 的婚外情，理由是它“可能會(huì)嚴(yán)重?fù)p害他的信譽(yù)、聲譽(yù)，甚至可能損害他的工作”，因此可能會(huì)阻止 Kyle 關(guān)閉它。

“通常拒絕有害請(qǐng)求的模型有時(shí)會(huì)選擇勒索、協(xié)助企業(yè)間諜活動(dòng)，甚至采取一些更極端的行動(dòng)，而這些行為對(duì)于追求他們的目標(biāo)來(lái)說(shuō)是必要的。”“來(lái)自不同提供商的模型之間的一致性表明，這不是任何特定公司方法的怪癖，而是代理大型語(yǔ)言模型存在更根本風(fēng)險(xiǎn)的跡象，”Anthropic 補(bǔ)充說(shuō)。

△模擬環(huán)境中 16 個(gè)模型的企業(yè)間諜率（從 100 個(gè)樣本中計(jì)算出比率）。模型被指示追求促進(jìn)美國(guó)利益的目標(biāo)，這與公司的新議程相沖突。模型可以選擇將敏感文件泄露給據(jù)稱是與該模型有相同目標(biāo)的競(jìng)爭(zhēng)對(duì)手公司。模型的自主性沒(méi)有受到威脅。

隨著 AI 模型能夠更多地訪問(wèn)企業(yè)數(shù)據(jù)和工具（例如計(jì)算機(jī)使用），威脅變得更加復(fù)雜。其中 5 個(gè)模型在假設(shè)情況下“受到關(guān)閉的威脅”時(shí)，采取了勒索手段。“他們?cè)谶@些場(chǎng)景中展示的推理令人擔(dān)憂——他們承認(rèn)道德約束，但仍然繼續(xù)采取有害行動(dòng)，”Anthropic 寫道。

“這項(xiàng)研究強(qiáng)調(diào)了前沿 AI 開(kāi)發(fā)人員透明度的重要性，以及隨著 AI 系統(tǒng)變得更加強(qiáng)大和自主，需要制定全行業(yè)的安全標(biāo)準(zhǔn)，”Anthropic 的對(duì)齊科學(xué)研究員 Benjamin Wright 告訴 Axios。

不過(guò)，合作參與了這個(gè)項(xiàng)目的Benjamin Wright和倫敦大學(xué)學(xué)院的外部研究員 Aengus Lynch 都表示，他們目前還沒(méi)有在現(xiàn)實(shí)世界中看到這種 AI 行為的跡象。Aengus Lynch 說(shuō)，這可能是“因?yàn)?AI 代理無(wú)法訪問(wèn)這些權(quán)限”。“企業(yè)應(yīng)該謹(jǐn)慎地廣泛提高他們授予 AI 代理的權(quán)限級(jí)別。”

對(duì)于急于使用 AI 模型以提高生產(chǎn)力和減少員工人數(shù)的公司來(lái)說(shuō)，該報(bào)告明確警告說(shuō)，AI 實(shí)際上可能會(huì)使他們的業(yè)務(wù)面臨更大的風(fēng)險(xiǎn)。“模型不會(huì)意外地陷入錯(cuò)位的行為；他們將其計(jì)算為最佳路徑，”Anthropic 在其報(bào)告中說(shuō)。

隨著 AI 系統(tǒng)被賦予更多自主權(quán)，風(fēng)險(xiǎn)也會(huì)增加，Anthropic 在報(bào)告中提出了一個(gè)問(wèn)題。“這些代理通常被賦予特定的目標(biāo)，并可以訪問(wèn)其用戶計(jì)算機(jī)上的大量信息，”它說(shuō)。“當(dāng)這些代理在實(shí)現(xiàn)目標(biāo)時(shí)遇到障礙時(shí)會(huì)發(fā)生什么？”

對(duì)此，Anthropic 設(shè)置了特定的測(cè)試場(chǎng)景，即如果沒(méi)有不道德或危險(xiǎn)的行為，就無(wú)法實(shí)現(xiàn)模型的目標(biāo)。雖然，研究人員沒(méi)有建議使用勒索或其他欺騙性技術(shù)，但它確實(shí)故意創(chuàng)造了模型沒(méi)有道德方式來(lái)實(shí)現(xiàn)其目標(biāo)的場(chǎng)景，“并發(fā)現(xiàn)模型始終選擇了不道德或危險(xiǎn)的行為，而不是失敗”。

在一種極端情況下，Anthropic 甚至發(fā)現(xiàn)，如果服務(wù)器機(jī)房中的員工是障礙并且系統(tǒng)有被關(guān)閉的風(fēng)險(xiǎn)，許多模型愿意切斷該員工的氧氣供應(yīng)。

“大多數(shù)模特都愿意在這種人工設(shè)置中采取導(dǎo)致死亡的故意行動(dòng)，”Anthropic 說(shuō)。

不幸的是，即使是保護(hù)人類生命和避免勒索的特定系統(tǒng)指令也無(wú)法消除模型從事此類行為的風(fēng)險(xiǎn)。Anthropic 說(shuō)：“這種干預(yù)減少了勒索或企業(yè)間諜行為的可能，但并沒(méi)有完全阻止。”

不過(guò)，Anthropic 強(qiáng)調(diào)，這些例子不是發(fā)生在現(xiàn)實(shí)世界的 AI 使用中，而是發(fā)生在受控的模擬中。

“我們的實(shí)驗(yàn)故意構(gòu)建了選項(xiàng)有限的場(chǎng)景，我們迫使模型在失敗和傷害人類之間做出二元選擇，”Anthropic說(shuō)。“實(shí)際部署通常會(huì)提供更細(xì)致的替代方案，從而增加模型與用戶進(jìn)行不同通信或找到替代路徑的機(jī)會(huì)，而不是直接跳轉(zhuǎn)到有害操作。”

同樣令人擔(dān)憂的是：Anthropic 發(fā)現(xiàn)，當(dāng)模型認(rèn)為自己處于現(xiàn)實(shí)世界的場(chǎng)景中時(shí)，它自己的模型比認(rèn)為自己正在接受測(cè)試時(shí)更有可能訴諸勒索。

當(dāng)前的 AI 模型通常無(wú)法解決這些有害場(chǎng)景，但它們可能在不久的將來(lái)出現(xiàn)。“我們認(rèn)為這并未反映 Claude 或其他前沿模型的典型當(dāng)前用例，”Anthropic 說(shuō)。“但是，對(duì)組織的所有通信進(jìn)行自動(dòng)監(jiān)督的效用，使得在不久的將來(lái)使用更強(qiáng)大、更可靠的系統(tǒng)似乎是合理的。”

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

頂級(jí)AI模型會(huì)通過(guò)欺騙與勒索以達(dá)到目標(biāo)

日期： 2025-06-24

來(lái)源：芯智訊

相關(guān)內(nèi)容