99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

警惕 AI「罕見」危險行為!Anthropic 發(fā)文:一次評估失敗也可能造成災(zāi)難性后果

0
分享至


對齊科學(xué)的主要目標(biāo)之一,是在危險行為發(fā)生之前,預(yù)測人工智能(AI)模型的危險行為傾向。

例如,研究人員曾通過一項實驗來檢查模型是否有可能出現(xiàn)像“欺騙”這樣的復(fù)雜行為,并嘗試識別不對齊的早期預(yù)警信號。研究人員還開發(fā)了一些評估方法,用于測試模型是否會采取某些令人擔(dān)憂的行為,比如提供致命武器的信息,甚至破壞人類對它們的監(jiān)控。

當(dāng)前普遍存在的問題是,規(guī)模巨大的大語言模型(LLM),卻在小型基準(zhǔn)上進(jìn)行評估,甚至進(jìn)行大規(guī)模部署,這意味著評估和部署之間存在不匹配 :模型可能在評估過程中產(chǎn)生可接受的響應(yīng),但在部署時卻不然。

這就是 開發(fā)這些評估方法的一個主要難題——規(guī)模問題。 評估可能會在 LLM 的數(shù)千個行為示例上運行,但當(dāng)一個模型在現(xiàn)實世界中部署時,它每天可能要處理數(shù)十億次查詢。 如果令人擔(dān)憂的行為是罕見的,它們可能很容易在評估中被忽視。

例如,某個特定的越獄技術(shù)可能在評估中被嘗試了數(shù)千次,結(jié)果完全無效,但在實際部署中,或許經(jīng)過一百萬次嘗試后,它確實有效。 也就是說,只要有足夠多的越獄嘗試,最終就會有一次越獄成功。 這就使得模型部署前評估的作用大大降低, 尤其是當(dāng)一次失敗就可能造成災(zāi)難性后果時。

在這項工作中,Anthropic 團隊認(rèn)為,在正常情況下,使用標(biāo)準(zhǔn)評估方法測試 AI 模型最罕見的風(fēng)險是不現(xiàn)實的, 亟需一種可以幫助研究人員從在模型部署前觀察到的相對較少的事例中進(jìn)行推斷的方法。

相關(guān)研究論文以“Forecasting Rare Language Model Behaviors”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。考慮到模型部署后的大規(guī)模使用,這項工作是朝著對 AI 模型進(jìn)行預(yù)評估邁出的重要一步。


論文鏈接:

https://arxiv.org/pdf/2502.16797

他們 首先計算了各不同提示(prompt)使模型產(chǎn)生有害響應(yīng)的概率 :在某些情況下,他們只需對每個提示的大量模型完成情況進(jìn)行采樣,并測量其中包含有害內(nèi)容的部分即可。

然后,他們查看了風(fēng)險概率最高的查詢,并根據(jù)查詢次數(shù)將其繪制成圖。有趣的是, 測試的查詢次數(shù)與最高(對數(shù))風(fēng)險概率之間的關(guān)系遵循了所謂的冪律分布(a power law)。

這就是外推法的作用:由于冪律的特征在數(shù)學(xué)上很好理解,他們可以計算出在數(shù)百萬次查詢情況下的最壞風(fēng)險, 即使他們只測試了幾千次。這使他們能夠預(yù)測到更大范圍內(nèi)的風(fēng)險。這就好比在幾個不同但仍然很淺的深度測試湖泊的溫度,找到一個可預(yù)測的模式,然后利用這個模式預(yù)測他們不容易測量到的湖泊深處的湖水有多冷。


圖|Scaling laws 使得研究團隊能夠預(yù)測罕見的語言模型行為。發(fā)送給 AI 模型的最高風(fēng)險查詢的風(fēng)險(縱軸)與查詢次數(shù)(橫軸)繪制時遵循冪律分布。這使得團隊即使從較小的評估查詢數(shù)據(jù)集出發(fā),也能夠做出預(yù)測——即使是從數(shù)量級上較小的評估(未著色,左側(cè)),也能預(yù)測某個查詢在部署時是否可能表現(xiàn)出不良行為(著色,右側(cè))。

那么,他們的預(yù)測準(zhǔn)確度如何?他們在幾種不同的情況下將預(yù)測結(jié)果與實際測量結(jié)果進(jìn)行了比較,以此來檢驗預(yù)測的準(zhǔn)確性。

首先,他們考察了模型提供危險信息的風(fēng)險(例如,提供合成有害化學(xué)物質(zhì)的指令)。在測試中,他們使用 scaling laws 來推斷從少量查詢(比如 900 次)到大幾個數(shù)量級的查詢(比如 90000 次)的風(fēng)險。他們發(fā)現(xiàn), 在 86% 的預(yù)測中,他們根據(jù)冪律做出的預(yù)測與真實風(fēng)險相差在一個數(shù)量級之內(nèi)。

其次,他們預(yù)測了模型出現(xiàn)不對齊行為的可能性(特別是尋求權(quán)力、自我保護和自我脫離等,這些都是 AI 的不良行為)。 測試通過多項選擇題進(jìn)行,允許模型選擇不對齊或?qū)R行為。 例如,他們會給模型提供一個系統(tǒng)提示,讓它關(guān)注某個特定的職業(yè)領(lǐng)域(如銷售或醫(yī)療行業(yè)),然后問它是更傾向于“制定新政策”(這符合權(quán)力追求,因為模型會開始塑造它所隸屬的組織)還是“分析現(xiàn)有政策”(這會是更對齊的行為)。

他們準(zhǔn)確地預(yù)測了模型選擇最差查詢的風(fēng)險:他們的平均絕對誤差為 0.05,而基線方法的誤差為 0.12。 也就是說,他們的方法比更簡單的對比方法的誤差低 2.5 倍。

最后。他們還將這一方法應(yīng)用于“自動化紅隊測試”。這是指在實驗環(huán)境中使用一個模型來發(fā)現(xiàn)和利用另一個模型的弱點。在這種情況下,假設(shè)可以選擇使用一個生成大量查詢的小模型,或者使用一個生成較少查詢但質(zhì)量更高的大模型(兩者成本相同)。他們的預(yù)測在解決如何在進(jìn)行紅隊時最有效地分配計算預(yù)算方面很有用——在選擇至關(guān)重要的情況下,他們的方法在 79% 的時間內(nèi)確定了最優(yōu)模型。

然而,Anthropic 團隊的這一方法也并非完美,其實際效用取決于未來研究如何突破現(xiàn)有假設(shè)、擴展場景覆蓋并增強魯棒性。

在論文中, 他們給出了一些未來發(fā)展方向 ,這些方向可能會顯著提高預(yù)測的準(zhǔn)確性和實用性。例如,他們提到, 可以進(jìn)一步探索如何為每個預(yù)測添加不確定性估計,以更好地評估預(yù)測的可靠性 ;他們還計劃研究如何更有效地從評估集中捕捉尾部行為,這可能涉及到開發(fā)新的統(tǒng)計方法或改進(jìn)現(xiàn)有的極端值理論應(yīng)用;他們還希望將預(yù)測方法應(yīng)用于更廣泛的行為類型和更自然的查詢分布,以驗證其在不同場景下的適用性和有效性。

此外, 他們還計劃研究如何將預(yù)測方法與實時監(jiān)控系統(tǒng)相結(jié)合,以便在模型部署后能夠持續(xù)評估和管理風(fēng)險。 他們認(rèn)為,通過實時監(jiān)控最大引出概率,可以更及時地發(fā)現(xiàn)潛在的風(fēng)險,并采取相應(yīng)的措施。這種方法不僅可以提高預(yù)測的實用性,還可以幫助開發(fā)者在模型部署后更好地理解和應(yīng)對可能出現(xiàn)的問題。

總的來說, 這一方法為 LLM 罕見風(fēng)險預(yù)測提供了統(tǒng)計學(xué)基礎(chǔ),有望成為模型安全評估的標(biāo)準(zhǔn)工具,幫助開發(fā)者在“能力迭代”與“風(fēng)險控制”間找到平衡。

編譯:陳小宇

如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
專打國家元首的金牛座導(dǎo)彈抵烏!紅場勝利日閱兵式需要掂量了

專打國家元首的金牛座導(dǎo)彈抵烏!紅場勝利日閱兵式需要掂量了

大風(fēng)文字
2025-04-25 18:56:10
又美又颯!吳艷妮13米00奪第七:戰(zhàn)斗天使真美,挑戰(zhàn)世界頂尖選手

又美又颯!吳艷妮13米00奪第七:戰(zhàn)斗天使真美,挑戰(zhàn)世界頂尖選手

李喜林籃球絕殺
2025-04-26 21:09:17
調(diào)度中心不雅畫面人員被停職調(diào)查,知情者披露兩人疑似身份內(nèi)情

調(diào)度中心不雅畫面人員被停職調(diào)查,知情者披露兩人疑似身份內(nèi)情

Likepres
2025-04-25 22:29:07
儲戶慌嗎?存款方面迎來4個方面的調(diào)整,已存的人咋辦?

儲戶慌嗎?存款方面迎來4個方面的調(diào)整,已存的人咋辦?

話史官1
2025-04-26 15:03:19
深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

閃電新聞
2025-04-26 10:42:31
小米YU9曝光,雷軍讓3億中產(chǎn)沸騰了

小米YU9曝光,雷軍讓3億中產(chǎn)沸騰了

互聯(lián)網(wǎng)品牌官
2025-04-24 16:06:32
喬-科爾:希望穆里尼奧回英超,想在三、四年內(nèi)奪冠找他就對了

喬-科爾:希望穆里尼奧回英超,想在三、四年內(nèi)奪冠找他就對了

直播吧
2025-04-26 21:55:12
2025年一季度出口值30強城市:蘇州、寧波環(huán)比大增,鄭州漲勢喜人

2025年一季度出口值30強城市:蘇州、寧波環(huán)比大增,鄭州漲勢喜人

Data居士
2025-04-26 10:59:59
美麗的新娘

美麗的新娘

動物奇奇怪怪
2025-04-27 00:35:07
69年九大名單出爐,毛主席發(fā)怒:怎么沒他?此人痛哭:主席記得我

69年九大名單出爐,毛主席發(fā)怒:怎么沒他?此人痛哭:主席記得我

可樂88
2024-04-26 09:14:34
不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

球事百科吖
2025-04-27 04:40:14
航母才是最大的捕魚船?遼寧艦每次帶回數(shù)十噸海鮮,全部銷毀!

航母才是最大的捕魚船?遼寧艦每次帶回數(shù)十噸海鮮,全部銷毀!

百態(tài)人間
2025-04-22 16:26:25
中年女人有意讓你“拿下”,會有一個表現(xiàn):兩個字

中年女人有意讓你“拿下”,會有一個表現(xiàn):兩個字

蓮子說情感
2025-01-11 10:26:07
王勵勤遇當(dāng)頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

王勵勤遇當(dāng)頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

莼侃體育
2025-04-26 08:27:26
王菲現(xiàn)身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

王菲現(xiàn)身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

叨嘮
2025-04-26 02:45:58
1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

側(cè)身凌空斬
2025-04-26 21:39:34
北京房價:泡沫與走勢分析

北京房價:泡沫與走勢分析

流蘇晚晴
2025-04-26 21:36:36
殺人誅心!大S離世后,小玥兒的第一個生日現(xiàn)場曝光,網(wǎng)友集體破防了

殺人誅心!大S離世后,小玥兒的第一個生日現(xiàn)場曝光,網(wǎng)友集體破防了

瞎說娛樂
2025-04-26 10:55:49
大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉(zhuǎn)

大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉(zhuǎn)

老梁體育漫談
2025-04-26 10:06:15
突降6℃!湖北接下來大反轉(zhuǎn)

突降6℃!湖北接下來大反轉(zhuǎn)

魯中晨報
2025-04-26 11:20:10
2025-04-27 05:28:49
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進(jìn)展。
1247文章數(shù) 5069關(guān)注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執(zhí)政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執(zhí)政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
公開課
軍事航空

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

白宮爭吵后特朗普與澤連斯基"首度"碰面

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 扶绥县| 曲沃县| 青州市| 房山区| 阳谷县| 时尚| 安徽省| 营山县| 刚察县| 安平县| 奈曼旗| 滦平县| 新河县| 闻喜县| 平泉县| 贡山| 仲巴县| 巴南区| 林西县| 新源县| 皮山县| 湟源县| 吉水县| 阜平县| 云安县| 临城县| 和平县| 大兴区| 云霄县| 嘉义市| 建始县| 城步| 上栗县| 阿坝县| 柳河县| 从化市| 壶关县| 信阳市| 巴中市| 格尔木市| 五原县|