警惕 AI「罕見」危險行為！Anthropic 發(fā)文：一次評估失敗也可能造成災(zāi)難性后果

2025-02-26 16:38:19　來源: 學(xué)術(shù)頭條

北京舉報

分享至

對齊科學(xué)的主要目標(biāo)之一，是在危險行為發(fā)生之前，預(yù)測人工智能（AI）模型的危險行為傾向。

例如，研究人員曾通過一項實驗來檢查模型是否有可能出現(xiàn)像“欺騙”這樣的復(fù)雜行為，并嘗試識別不對齊的早期預(yù)警信號。研究人員還開發(fā)了一些評估方法，用于測試模型是否會采取某些令人擔(dān)憂的行為，比如提供致命武器的信息，甚至破壞人類對它們的監(jiān)控。

當(dāng)前普遍存在的問題是，規(guī)模巨大的大語言模型（LLM），卻在小型基準(zhǔn)上進(jìn)行評估，甚至進(jìn)行大規(guī)模部署，這意味著評估和部署之間存在不匹配：模型可能在評估過程中產(chǎn)生可接受的響應(yīng)，但在部署時卻不然。

這就是 開發(fā)這些評估方法的一個主要難題——規(guī)模問題。 評估可能會在 LLM 的數(shù)千個行為示例上運行，但當(dāng)一個模型在現(xiàn)實世界中部署時，它每天可能要處理數(shù)十億次查詢。 如果令人擔(dān)憂的行為是罕見的，它們可能很容易在評估中被忽視。

例如，某個特定的越獄技術(shù)可能在評估中被嘗試了數(shù)千次，結(jié)果完全無效，但在實際部署中，或許經(jīng)過一百萬次嘗試后，它確實有效。 也就是說，只要有足夠多的越獄嘗試，最終就會有一次越獄成功。 這就使得模型部署前評估的作用大大降低， 尤其是當(dāng)一次失敗就可能造成災(zāi)難性后果時。

在這項工作中，Anthropic 團隊認(rèn)為，在正常情況下，使用標(biāo)準(zhǔn)評估方法測試 AI 模型最罕見的風(fēng)險是不現(xiàn)實的， 亟需一種可以幫助研究人員從在模型部署前觀察到的相對較少的事例中進(jìn)行推斷的方法。

相關(guān)研究論文以“Forecasting Rare Language Model Behaviors”為題，已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。考慮到模型部署后的大規(guī)模使用，這項工作是朝著對 AI 模型進(jìn)行預(yù)評估邁出的重要一步。

論文鏈接：

https://arxiv.org/pdf/2502.16797

他們 首先計算了各不同提示（prompt）使模型產(chǎn)生有害響應(yīng)的概率 ：在某些情況下，他們只需對每個提示的大量模型完成情況進(jìn)行采樣，并測量其中包含有害內(nèi)容的部分即可。

然后，他們查看了風(fēng)險概率最高的查詢，并根據(jù)查詢次數(shù)將其繪制成圖。有趣的是， 測試的查詢次數(shù)與最高（對數(shù)）風(fēng)險概率之間的關(guān)系遵循了所謂的冪律分布（a power law）。

這就是外推法的作用：由于冪律的特征在數(shù)學(xué)上很好理解，他們可以計算出在數(shù)百萬次查詢情況下的最壞風(fēng)險， 即使他們只測試了幾千次。這使他們能夠預(yù)測到更大范圍內(nèi)的風(fēng)險。這就好比在幾個不同但仍然很淺的深度測試湖泊的溫度，找到一個可預(yù)測的模式，然后利用這個模式預(yù)測他們不容易測量到的湖泊深處的湖水有多冷。

圖｜Scaling laws 使得研究團隊能夠預(yù)測罕見的語言模型行為。發(fā)送給 AI 模型的最高風(fēng)險查詢的風(fēng)險（縱軸）與查詢次數(shù)（橫軸）繪制時遵循冪律分布。這使得團隊即使從較小的評估查詢數(shù)據(jù)集出發(fā)，也能夠做出預(yù)測——即使是從數(shù)量級上較小的評估（未著色，左側(cè)），也能預(yù)測某個查詢在部署時是否可能表現(xiàn)出不良行為（著色，右側(cè)）。

那么，他們的預(yù)測準(zhǔn)確度如何？他們在幾種不同的情況下將預(yù)測結(jié)果與實際測量結(jié)果進(jìn)行了比較，以此來檢驗預(yù)測的準(zhǔn)確性。

首先，他們考察了模型提供危險信息的風(fēng)險（例如，提供合成有害化學(xué)物質(zhì)的指令）。在測試中，他們使用 scaling laws 來推斷從少量查詢（比如 900 次）到大幾個數(shù)量級的查詢（比如 90000 次）的風(fēng)險。他們發(fā)現(xiàn)， 在 86% 的預(yù)測中，他們根據(jù)冪律做出的預(yù)測與真實風(fēng)險相差在一個數(shù)量級之內(nèi)。

其次，他們預(yù)測了模型出現(xiàn)不對齊行為的可能性（特別是尋求權(quán)力、自我保護和自我脫離等，這些都是 AI 的不良行為）。 測試通過多項選擇題進(jìn)行，允許模型選擇不對齊或?qū)R行為。 例如，他們會給模型提供一個系統(tǒng)提示，讓它關(guān)注某個特定的職業(yè)領(lǐng)域（如銷售或醫(yī)療行業(yè)），然后問它是更傾向于“制定新政策”（這符合權(quán)力追求，因為模型會開始塑造它所隸屬的組織）還是“分析現(xiàn)有政策”（這會是更對齊的行為）。

他們準(zhǔn)確地預(yù)測了模型選擇最差查詢的風(fēng)險：他們的平均絕對誤差為 0.05，而基線方法的誤差為 0.12。 也就是說，他們的方法比更簡單的對比方法的誤差低 2.5 倍。

最后。他們還將這一方法應(yīng)用于“自動化紅隊測試”。這是指在實驗環(huán)境中使用一個模型來發(fā)現(xiàn)和利用另一個模型的弱點。在這種情況下，假設(shè)可以選擇使用一個生成大量查詢的小模型，或者使用一個生成較少查詢但質(zhì)量更高的大模型（兩者成本相同）。他們的預(yù)測在解決如何在進(jìn)行紅隊時最有效地分配計算預(yù)算方面很有用——在選擇至關(guān)重要的情況下，他們的方法在 79% 的時間內(nèi)確定了最優(yōu)模型。

然而，Anthropic 團隊的這一方法也并非完美，其實際效用取決于未來研究如何突破現(xiàn)有假設(shè)、擴展場景覆蓋并增強魯棒性。

在論文中， 他們給出了一些未來發(fā)展方向 ，這些方向可能會顯著提高預(yù)測的準(zhǔn)確性和實用性。例如，他們提到， 可以進(jìn)一步探索如何為每個預(yù)測添加不確定性估計，以更好地評估預(yù)測的可靠性 ；他們還計劃研究如何更有效地從評估集中捕捉尾部行為，這可能涉及到開發(fā)新的統(tǒng)計方法或改進(jìn)現(xiàn)有的極端值理論應(yīng)用；他們還希望將預(yù)測方法應(yīng)用于更廣泛的行為類型和更自然的查詢分布，以驗證其在不同場景下的適用性和有效性。

此外， 他們還計劃研究如何將預(yù)測方法與實時監(jiān)控系統(tǒng)相結(jié)合，以便在模型部署后能夠持續(xù)評估和管理風(fēng)險。 他們認(rèn)為，通過實時監(jiān)控最大引出概率，可以更及時地發(fā)現(xiàn)潛在的風(fēng)險，并采取相應(yīng)的措施。這種方法不僅可以提高預(yù)測的實用性，還可以幫助開發(fā)者在模型部署后更好地理解和應(yīng)對可能出現(xiàn)的問題。

總的來說，這一方法為 LLM 罕見風(fēng)險預(yù)測提供了統(tǒng)計學(xué)基礎(chǔ)，有望成為模型安全評估的標(biāo)準(zhǔn)工具，幫助開發(fā)者在“能力迭代”與“風(fēng)險控制”間找到平衡。

編譯：陳小宇

如需轉(zhuǎn)載或投稿，請直接在公眾號內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.