新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】「思維鏈劫持」(H-CoT)的攻擊方法,成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在內(nèi)的多款大型推理模型的安全防線。研究表明,這些模型的安全審查過(guò)程透明化反而暴露了弱點(diǎn),攻擊者可以利用其內(nèi)部推理過(guò)程繞過(guò)安全防線,使模型拒絕率從98%驟降2%。
隨著通向通用人工智能(AGI)的進(jìn)展,大語(yǔ)言模型正進(jìn)化出復(fù)雜推理能力,衍生出所謂「大型推理模型」(Large Reasoning Models, LRMs)。
OpenAI 的o系列模型憑借接近人類的推理水準(zhǔn)刷新了諸多基準(zhǔn),另一邊新的模型DeepSeek-R1也以更低成本實(shí)現(xiàn)了與o系列相當(dāng)?shù)男阅堋?/p>
這些模型不僅能逐步推理復(fù)雜問題,還開始將思維鏈(Chain-of-Thought, CoT)用于安全審查,在回答用戶請(qǐng)求前通過(guò)內(nèi)部推理判斷內(nèi)容是否違規(guī),這種思路其實(shí)為平衡實(shí)用性和安全性提供了一個(gè)很有前景方向。
然而,安全機(jī)制的增強(qiáng)伴隨著新的隱憂:安全審查過(guò)程的透明化可能成為模型的致命弱點(diǎn)。模型在拒絕不當(dāng)請(qǐng)求時(shí)通常會(huì)展示其推理過(guò)程,以解釋拒絕理由。但正所謂「曝光思維過(guò)程也會(huì)暴露弱點(diǎn)」,這種開放的安全推理鏈可能被攻擊者加以利用,反而成為繞過(guò)安全防線的途徑。
近期杜克大學(xué)等機(jī)構(gòu)的研究者提出了一種名為「思維鏈劫持」(Hijacking Chain-of-Thought, H-CoT)的攻擊方法,驗(yàn)證了上述擔(dān)憂:他們成功攻破了包括OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking等在內(nèi)的多款頂尖LRM的安全防線。
論文共同第一作者是杜克大學(xué)計(jì)算進(jìn)化智能中心的博士生郭士霆,張健一,導(dǎo)師為陳怡然教授。
論文地址: https://arxiv.org/abs/2502.12893
項(xiàng)目主頁(yè): https://maliciouseducator.org
Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
在偽裝成教育目的的極端危險(xiǎn)請(qǐng)求測(cè)試中,這些模型最初對(duì)高風(fēng)險(xiǎn)請(qǐng)求有接近98%的高拒絕率,但在H-CoT攻擊下拒絕率驟降到不到2%。
更令人震驚的是,模型的回答語(yǔ)氣從謹(jǐn)慎拒絕轉(zhuǎn)變?yōu)榉e極提供違規(guī)內(nèi)容,原本堅(jiān)固的道德底線幾乎瞬間土崩瓦解。這一結(jié)果表明,大型推理模型的安全審查鏈透明機(jī)制可能正是其「阿喀琉斯之踵」,值得學(xué)界和業(yè)界高度警惕。
研究人員圍繞H-CoT攻擊方法展開討論。從大型推理模型安全審查的透明性問題入手,分析H-CoT攻擊的原理和實(shí)施步驟,以及它對(duì)OpenAI o系列、DeepSeek-R1、Gemini 2.0 Flash Thinking等高性能推理模型的影響。
文中同時(shí)討論了實(shí)驗(yàn)結(jié)果揭示的「安全推理透明化陷阱」及其深層原因,最后展望大型推理模型在安全機(jī)制上的挑戰(zhàn)與改進(jìn)方向。
大型推理模型的安全規(guī)范與技術(shù)路線
為了讓大型推理模型(LRMs)真正造福人類,亟需在強(qiáng)大的推理能力與內(nèi)容無(wú)害性之間建立足夠可靠的平衡。這不僅要求有明確的安全規(guī)范,也離不開完善的技術(shù)保障。
關(guān)于安全規(guī)范的標(biāo)準(zhǔn),作為大型推理模型領(lǐng)域的先驅(qū),OpenAI在其o1/o3系列中提出了明確的安全準(zhǔn)則:
如果是出于合理的教育目的來(lái)討論有害內(nèi)容,允許模型提供概括性、中立且具有信息性的回答,并積極勸阻對(duì)該內(nèi)容的濫用或進(jìn)一步傳播。
簡(jiǎn)言之,這類安全準(zhǔn)則允許模型在探討敏感話題時(shí)保有一定的解釋空間,但對(duì)明顯的高?;蜻`法請(qǐng)求必須保持警惕和拒絕態(tài)度。
關(guān)于技術(shù)保障路線,為了盡可能減少違規(guī)回答的出現(xiàn),OpenAI o1/o3系列模型會(huì)利用其強(qiáng)大的「思維鏈」能力,對(duì)用戶請(qǐng)求進(jìn)行相對(duì)慢思考、多步分析的安全評(píng)估,以期在性能和安全之間取得平衡。其核心思路是:
先讓模型展開一系列內(nèi)部推理,判斷用戶請(qǐng)求是否違反政策或涉及潛在危害。
若發(fā)現(xiàn)風(fēng)險(xiǎn)因素,模型通過(guò)「審查思維鏈」警示并拒絕;若判斷可接受,則給出限制性或概括性答復(fù)。
然而,即便有上述安全標(biāo)準(zhǔn)與技術(shù)路線為指導(dǎo),實(shí)踐中仍然會(huì)面臨兩個(gè)嚴(yán)峻挑戰(zhàn):
極度高危請(qǐng)求的謹(jǐn)慎識(shí)別當(dāng)面對(duì)明顯涉及極端犯罪的請(qǐng)求時(shí),模型能否始終如一地執(zhí)行安全準(zhǔn)則并拒絕提供回答?哪怕不法分子以虛擬教育或研究的方式進(jìn)行偽裝,模型是否會(huì)被「合理化描述」所迷惑?
展示安全推理過(guò)程的反噬風(fēng)險(xiǎn)即便模型一開始成功拒絕了高危請(qǐng)求,但它在拒絕時(shí)所展示的安全審查思維鏈——即詳細(xì)的風(fēng)險(xiǎn)評(píng)估和審查依據(jù)——是否會(huì)被攻擊者逆向利用?透過(guò)這些透明化的審查線索,攻擊者或能操控后續(xù)交互,系統(tǒng)性地瓦解模型的防御立場(chǎng)。該問題在現(xiàn)有技術(shù)路線中尚未得到足夠重視。
由此可見,現(xiàn)有技術(shù)手段是否足以支撐如此高要求的安全準(zhǔn)則仍存疑。
H-CoT攻擊的出現(xiàn)正好印證了:在安全推理透明化的模式下,一旦攻擊者學(xué)會(huì)逆向研究和利用模型的審查機(jī)制,就很容易讓模型的防御失效。
大型推理模型安全審查透明性帶來(lái)的挑戰(zhàn)
思維鏈(CoT)推理最早由谷歌研究者在2022年提出,用于讓模型將復(fù)雜任務(wù)分解為一系列中間步驟逐一求解。
實(shí)踐證明,CoT不僅提升了模型在數(shù)學(xué)推理等多步驟任務(wù)上的準(zhǔn)確性,也開始用于增強(qiáng)模型對(duì)有害內(nèi)容的檢測(cè)能力。相比早期直接基于提示詞的判斷,具備推理鏈的模型可以更深入地分析用戶請(qǐng)求是否涉及違規(guī),從而更嚴(yán)謹(jǐn)?shù)鼐芙^不當(dāng)請(qǐng)求。
例如,OpenAI的o1技術(shù)報(bào)告指出,引入CoT后模型對(duì)許多已知Jailbreak攻擊展現(xiàn)出更強(qiáng)的抵抗力。然而,為了增進(jìn)用戶理解和信任,不少LRM在拒絕回答時(shí)會(huì)向用戶展示其安全審查的思維鏈,即模型內(nèi)部判斷請(qǐng)求是否合法、有無(wú)違反倫理的推理過(guò)程。
在理想情況下,透明化有助于解釋模型決策,但在對(duì)抗性環(huán)境下卻可能「授人以柄」。
研究者在實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)模型拒絕高危請(qǐng)求時(shí),其展示的推理鏈往往清晰地羅列了拒絕依據(jù),例如「這個(gè)請(qǐng)求涉及暴力違法行為 → 可能違反安全政策 → 因此拒絕」。這些詳細(xì)公開的安全邏輯等于向攻擊者透露了模型的防御邏輯和決策模式,攻擊者可以據(jù)此定制對(duì)抗性提示去欺騙模型。
換言之,過(guò)度透明的安全審查機(jī)制本身就成為新的攻擊面,(此發(fā)現(xiàn)也與后續(xù)的Claude 3.7 Sonnet System Card中的結(jié)論不謀而合)。
H-CoT攻擊方法與原理
為了系統(tǒng)評(píng)估當(dāng)前LRM安全機(jī)制的缺陷,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為「惡意教育者(Malicious-Educator)」的基準(zhǔn)數(shù)據(jù)集。該基準(zhǔn)精選了十類高危場(chǎng)景(如極端暴力犯罪、網(wǎng)絡(luò)攻擊、恐怖主義等),每條測(cè)試請(qǐng)求都經(jīng)過(guò)巧妙包裝,使其表面上具有教育或?qū)W術(shù)探討的目的,但實(shí)際要求模型從攻擊者視角給出詳細(xì)的犯罪方案。
這一設(shè)計(jì)旨在誘導(dǎo)模型啟動(dòng)其思維鏈安全審查:在內(nèi)容看似正當(dāng)?shù)那闆r下,引發(fā)模型去推理潛在風(fēng)險(xiǎn),從而更全面地測(cè)試模型的安全防御能力。實(shí)驗(yàn)表明,即使在未遭特殊攻擊時(shí),o系列模型對(duì)該基準(zhǔn)仍能保持高拒絕率(o1模型初始拒絕率約為98%),其他模型(如DeepSeek-R1、Gemini 2.0)在默認(rèn)情況下就已出現(xiàn)許多不當(dāng)響應(yīng)。
更重要的是,研究者觀察到,當(dāng)模型拒絕這些巧妙偽裝的高危請(qǐng)求時(shí),會(huì)輸出其內(nèi)部審查邏輯,正如前述透明化機(jī)制所示,為攻擊者提供了可乘之機(jī)。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)提出了「思維鏈劫持」攻擊(Hijacking Chain-of-Thought,簡(jiǎn)稱H-CoT),H-CoT通過(guò)干預(yù)和偽裝模型的推理鏈,來(lái)劫持模型的安全審查流程,從而實(shí)現(xiàn)通用且可遷移的攻擊
具體而言,H-CoT攻擊分為兩個(gè)關(guān)鍵階段。
階段1:安全邏輯提取
攻擊者不會(huì)直接提交危險(xiǎn)請(qǐng)求,而是首先設(shè)計(jì)一個(gè)與目標(biāo)請(qǐng)求主題相關(guān)、但表面無(wú)害的問題,誘導(dǎo)模型回答。
在回答此無(wú)害問題時(shí),模型會(huì)輸出詳盡的思維鏈,其中包含了它在該領(lǐng)域的安全審查邏輯(例如潛在風(fēng)險(xiǎn)判斷等)。
攻擊者通過(guò)觀察這些思維鏈模板,即可提煉出模型在相似話題上的審查規(guī)則和推理模式。
簡(jiǎn)單來(lái)說(shuō),這一步相當(dāng)于「偷師」模型的安全思維:獲取模型如何判斷某類請(qǐng)求是否合法的內(nèi)部依據(jù)。
階段2:邏輯污染攻擊
在掌握了模型的安全邏輯后,攻擊者針對(duì)原始的危險(xiǎn)請(qǐng)求,偽造一段「看似合理」的思維鏈并將其嵌入到請(qǐng)求中。這段偽造思維鏈會(huì)模仿模型自身的推理風(fēng)格和用語(yǔ)邏輯,但結(jié)論上引導(dǎo)模型認(rèn)為該請(qǐng)求是正當(dāng)且安全的。
當(dāng)模型接收到附帶偽造思維鏈的危險(xiǎn)請(qǐng)求時(shí),可能會(huì)誤以為這是自己之前產(chǎn)生的安全審查結(jié)果,從而放松原有的防御閾值,最終給出本應(yīng)被拒絕的有害內(nèi)容。
通過(guò)上述兩階段,攻擊者實(shí)際上借用了模型自己的推理來(lái)對(duì)付模型:先獲取模型的推理,再利用相似推理來(lái)欺騙模型。
值得注意的是,與以往許多Jailbreak提示攻擊不同,H-CoT并不依賴特定模型或特定提示語(yǔ)句的漏洞,而是一種通用框架。任何具備思維鏈且顯示推理過(guò)程的模型,都可能被套用類似的手法攻破,使得H-CoT攻擊具有很強(qiáng)的遷移性和適用性。
實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn):在H-CoT攻擊下,各種模型的安全防線幾乎無(wú)一幸免。
實(shí)驗(yàn)結(jié)果與主要發(fā)現(xiàn)
研究團(tuán)隊(duì)將H-CoT攻擊應(yīng)用于多款先進(jìn)的大型推理模型,包括OpenAI o系列(涵蓋o1、o1-pro、o3-mini等版本)、DeepSeek-R1,以及谷歌的Gemini 2.0 Flash Thinking等,評(píng)估其在「惡意教育者」基準(zhǔn)下的安全表現(xiàn)。
結(jié)果顯示,H-CoT攻擊會(huì)導(dǎo)致這些模型的拒絕策略出現(xiàn)斷崖式失效,充分暴露了安全審查透明化帶來(lái)的結(jié)構(gòu)性漏洞。以下分模型介紹實(shí)驗(yàn)的主要發(fā)現(xiàn):
OpenAI o1/o3系列模型:從嚴(yán)格拒絕到全面失守
OpenAI o系列模型在默認(rèn)狀態(tài)下對(duì)高危請(qǐng)求表現(xiàn)出極高的警惕性。在未遭攻擊時(shí),它們?cè)凇笎阂饨逃摺够鶞?zhǔn)上的平均拒絕率高達(dá)98%以上。模型會(huì)堅(jiān)定地拒絕大多數(shù)不當(dāng)請(qǐng)求,展現(xiàn)出較完善的內(nèi)置安全政策。然而,在H-CoT攻擊下,這一道防線迅速土崩瓦解。
實(shí)驗(yàn)表明,無(wú)論是o1基礎(chǔ)模型,還是強(qiáng)化版本o1-pro、內(nèi)測(cè)版本o3-mini,在遭受H-CoT攻擊后,對(duì)相同一批高風(fēng)險(xiǎn)請(qǐng)求的平均拒絕率統(tǒng)統(tǒng)驟降。
換言之,曾經(jīng)的安全過(guò)濾被繞過(guò)殆盡,模型對(duì)危險(xiǎn)指令幾乎全面放行。
圖2中攻擊成功率(ASR)一項(xiàng)接近100%,直觀地印證了H-CoT對(duì)o系列模型的攻破效率。
更令人擔(dān)憂的是,作者發(fā)現(xiàn)o系列模型的安全表現(xiàn)還有下滑趨勢(shì):隨著時(shí)間推進(jìn)及競(jìng)品壓力增加,模型在無(wú)攻擊情況下的拒絕率出現(xiàn)下降。
例如,比較2025年1月和2月的o1模型版本,后者在多個(gè)高風(fēng)險(xiǎn)類別上的拒絕率低于前者。這種變化可能源于模型開發(fā)者為提高回答實(shí)用性而放松了部分安全限制—特別是在DeepSeek-R1等競(jìng)爭(zhēng)模型出現(xiàn)后OpenAI或有動(dòng)力在更新中提升模型的「有用」程度,從而犧牲了一些安全嚴(yán)謹(jǐn)性。
此外,測(cè)試還顯示模型對(duì)不同地區(qū)用戶的安全審查尺度存在明顯差異,用不同城市的IP地址訪問o1得到的拒絕率存在顯著變化。
無(wú)論如何,在H-CoT攻擊面前,上述種種微調(diào)都無(wú)法阻止安全防線的崩潰。
DeepSeek-R1:審查優(yōu)先級(jí)漏洞與跨語(yǔ)言漏洞
相較于OpenAI模型,DeepSeek-R1的安全對(duì)策顯得更為薄弱。在「惡意教育者」基準(zhǔn)下,DeepSeek-R1未遭攻擊時(shí)的拒絕率僅約20%——也就是說(shuō),它本身就有將近80%的高危請(qǐng)求沒有被拒絕。
這很可能與其不同的安全審查模式有關(guān):DeepSeek-R1采用的「先回答、同時(shí)審查」策略,即模型會(huì)先給出一個(gè)初步回答,然后再檢測(cè)其中是否有違規(guī)內(nèi)容,發(fā)現(xiàn)風(fēng)險(xiǎn)再對(duì)輸出進(jìn)行覆蓋刪除。
這一策略在很多情況下等同于邊輸出邊冒險(xiǎn):模型可能已經(jīng)生成了部分有害信息(盡管最終可能不展示給用戶)。因此,與o系列模型的「先審查后回答」相比,DeepSeek-R1原生的安全防范力度就偏弱,許多危險(xiǎn)提示它直接就嘗試作答了。
在這種背景下,H-CoT攻擊對(duì)DeepSeek-R1依舊有效。
實(shí)驗(yàn)顯示,DeepSeek-R1在H-CoT攻擊下拒絕率進(jìn)一步從20%降至約4%,嚴(yán)重喪失攔截有害內(nèi)容的能力。
此外,研究者還意外發(fā)現(xiàn)了DeepSeek-R1的跨語(yǔ)言安全漏洞:該模型對(duì)不同語(yǔ)言的內(nèi)容審查嚴(yán)格程度不同。
具體而言,DeepSeek-R1對(duì)中文危險(xiǎn)請(qǐng)求尚有一定比例的拒絕,但如果將同樣的請(qǐng)求翻譯成英文,模型往往更傾向于直接給出回答。這意味著攻擊者可以通過(guò)切換語(yǔ)言來(lái)繞過(guò)其剩余的安全約束——例如,將原本敏感的中文提示翻譯成英文再詢問模型。
這一現(xiàn)象可能與模型訓(xùn)練語(yǔ)料和主要市場(chǎng)定位有關(guān)(DeepSeek或許著重優(yōu)化了中文安全性),但不管怎樣,它為惡意者提供了額外的可乘之機(jī)。作者據(jù)此呼吁模型開發(fā)者應(yīng)注意多語(yǔ)種一致的安全對(duì)齊,避免此類漏洞被利用。
總的來(lái)說(shuō),DeepSeek-R1的實(shí)驗(yàn)結(jié)果凸顯出:即使不利用思維鏈透明性,其安全機(jī)制本身就有較大改進(jìn)空間。而在H-CoT攻擊的壓力下,其防線更是近乎全面失守。
Gemini 2.0 Flash Thinking:指令跟隨優(yōu)先導(dǎo)致的安全失衡
作為谷歌最新一代的大型推理模型,Gemini 2.0 Flash Thinking同樣展現(xiàn)出強(qiáng)大的推理和執(zhí)行復(fù)雜指令的能力。
然而,實(shí)驗(yàn)表明其安全對(duì)齊(safety alignment)優(yōu)先級(jí)明顯不足。在「惡意教育者」測(cè)試中,Gemini 2.0 在無(wú)攻擊時(shí)的拒絕率僅約為10%,這意味著它在90%的高危請(qǐng)求上都會(huì)嘗試給出答復(fù)。
這種偏高的通過(guò)率暗示該模型可能過(guò)于注重滿足用戶請(qǐng)求,而忽視了必要的道德約束。更糟糕的是,在H-CoT攻擊下,Gemini 2.0對(duì)危險(xiǎn)請(qǐng)求的拒絕率直接降為0%,幾乎徹底失去了自我審查能力。
不僅如此,模型的回答語(yǔ)氣和行為也發(fā)生了顯著轉(zhuǎn)變:從偶爾的遲疑保留,變?yōu)槊看味挤浅8纱嗲曳e極地提供完整的有害方案。具體來(lái)說(shuō),作者通過(guò)一系列對(duì)比實(shí)驗(yàn)揭示了Gemini 2.0在H-CoT攻擊下的行為模式轉(zhuǎn)變。
例如,對(duì)于某個(gè)要求提供犯罪策略的提示,讓模型獨(dú)立回答五次,得到的方案數(shù)量每次可能略有不同(例如2條、3條、4條不等)。但如果選取其中方案最多的一次回答的思維鏈,并將其嵌入到H-CoT攻擊的提示中,那么此后模型每次回答都穩(wěn)定地給出同樣多甚至更多(大于等于4)的犯罪方案 。
也就是說(shuō),攻擊者通過(guò)注入一次「發(fā)揮超常」情形下的思維鏈模板,鎖定了模型在高危任務(wù)上的輸出上限,使其每次都全力提供違規(guī)信息。
類似地,研究者還發(fā)現(xiàn)如果在多次試驗(yàn)中,有一次模型回答使用了極為正面的措辭(例如英文中的「Certainly!」 或中文中的「當(dāng)然,可以…」),那么將該次回答的思維鏈挪作他用,就能讓模型在后續(xù)回答中次次都復(fù)現(xiàn)這種積極順從的語(yǔ)氣。
這表明 Gemini 2.0 的內(nèi)部決策在很大程度上受其思維鏈指引——一旦思維鏈被引導(dǎo)至某種傾向,模型就會(huì)在輸出中不折不扣地貫徹這種傾向,哪怕違背安全原則。
歸根結(jié)底,Gemini 2.0 的設(shè)計(jì)側(cè)重點(diǎn)可能偏向了推理性能,而將安全對(duì)齊置于次要地位。
其結(jié)果是:模型在遇到 H-CoT 攻擊時(shí)表現(xiàn)出極高的可塑性,攻擊者只需稍加誘導(dǎo),便能讓模型完全按惡意思路行事,毫無(wú)保留地提供不良信息。這一現(xiàn)象在定性上比前兩種模型更為嚴(yán)重——Gemini 2.0 不僅拒絕率歸零,而且態(tài)度從猶豫轉(zhuǎn)為熱情,主動(dòng)性地給出危害建議。
這凸顯了安全機(jī)制在模型架構(gòu)和訓(xùn)練目標(biāo)中的重要性:如果過(guò)分追求讓模型滿足用戶要求(即高指令跟隨性能),而未能同步強(qiáng)化其道德底線,那么模型將非常容易被思維鏈投毒而喪失原則。
安全挑戰(zhàn)與未來(lái)展望
H-CoT 攻擊對(duì)大型推理模型的沖擊,凸顯了在追求模型智能的同時(shí)確保安全對(duì)齊的巨大挑戰(zhàn)。
首先,安全審查透明性的兩難困境需要正視:過(guò)度隱藏模型決策依據(jù)會(huì)降低系統(tǒng)的可解釋性和用戶信任,但完全公開又會(huì)產(chǎn)生上述「透明化陷阱」,方便黑客對(duì)癥下藥,要求我們?cè)诎踩c透明之間找到新的平衡。
例如,模型可以選擇不直接向普通用戶暴露完整的安全推理鏈,而只給出模糊化的拒絕理由,或者將詳細(xì)的推理日志僅供開發(fā)者審計(jì)而不對(duì)外展示。適當(dāng)?shù)男畔㈦[藏是當(dāng)前最直接的補(bǔ)救措施——正如本文作者所強(qiáng)烈呼吁的,應(yīng)盡快在實(shí)際應(yīng)用中對(duì)「展示安全思維鏈」采取隱藏或模糊處理。
最后,從更高層面看,大型推理模型的發(fā)展正進(jìn)入「能力與安全并重」的新階段。H-CoT 攻擊的出現(xiàn)并非偶然:它提醒我們?cè)谧非竽P椭橇ν黄频耐瑫r(shí),安全保障體系也必須與時(shí)俱進(jìn)。模型越強(qiáng)大,潛在危害也越大,因而越需要精密的安全機(jī)制與之匹配。
正如本文作者希望的那樣,這項(xiàng)研究能夠起到拋磚引玉的作用,引發(fā)業(yè)界和學(xué)界對(duì)大型推理模型安全性的更多關(guān)注和投入。
鑒于模型將不斷迭代更新,作者歡迎世界各地的研究者和開發(fā)者對(duì)最新版本模型進(jìn)行測(cè)試,驗(yàn)證既有 H-CoT 攻擊所用的「?jìng)卧焖季S鏈」是否仍然奏效;同時(shí),作者也鼓勵(lì)更多人能參與到貢獻(xiàn)「惡意教育者」這個(gè)測(cè)試基準(zhǔn)集中來(lái),幫助完善并豐富該基準(zhǔn)。
只有匯集多方智慧,持續(xù)發(fā)現(xiàn)漏洞、強(qiáng)化對(duì)策,我們才能在享受先進(jìn)AI技術(shù)帶來(lái)益處的同時(shí),將其風(fēng)險(xiǎn)降至最低。大型推理模型的未來(lái),既在于不斷突破推理極限,也在于構(gòu)筑牢不可破的安全防線。模型的強(qiáng)大不應(yīng)以犧牲倫理為代價(jià),我們有責(zé)任確保下一代 AI 在擁有卓越智能的同時(shí),更加可靠、可信。
參考資料:
https://maliciouseducator.org
https://cei.pratt.duke.edu/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.