網易首頁 > 網易號 > 正文申請入駐

DeepMind預計AGI或在2030年來臨，針對錯位問題提出兩道防線

2025-04-05 18:15:00　來源: DeepTech深科技

北京舉報

分享至

通用人工智能（AGI，Artificial General Intelligence）到底何時到來？在近期一篇論文中，DeepMind 認為 AGI 的時間表充滿著不確定性，不過DeepMind 認為到 2030 年開發出來是合理的，并認為距離這一時間點的到來可能“非常緊迫”。

AGI 有望帶來變革性的益處，但也伴隨著重大風險。論文中，DeepMind 探討了 AGI 的四個主要風險領域：濫用、錯位、事故和結構性風險，并重點研究了濫用問題和錯位問題。

具體來說：

濫用：指的是用戶故意指示 AI 采取違背開發者意圖的行動，從而造成傷害。例如，AI 系統可能幫助黑客針對關鍵基礎設施進行網絡攻擊。
錯位：指的是 AI 系統故意違背開發者的意圖造成傷害。例如，AI 系統可能會給出“自信的答案”，這些答案經得起人類監督者的審查，但是 AI 知道這些答案實際上是不正確的。DeepMind 認為錯位的具體表現包含但不限于欺騙、耍心機以及非預期的主動失控等。
錯誤：指的是 AI 系統產生了一連串直接造成傷害的輸出，但該系統并不知道這些輸出會導致開發者未曾預見的有害后果。例如，運行電網的 AI 智能體可能并未意識到某條輸電線路需要維護，因此可能會使其過載并燒毀從而導致停電。
結構性風險：指的是這些風險是由多主體動態（涉及多個人、組織或 AI 系統）引發的危害，僅通過改變一個人的行為、一個系統的對齊方式或一個系統的安全控制措施根本無法預防這種風險。

（來源：DeepMind）

針對濫用問題，DeepMind 的策略旨在通過主動識別危險能力，并實施穩健的安全措施、訪問限制、監控以及模型安全緩解措施，來防止不良行為者獲取危險能力。

針對錯位問題，DeepMind 提出了兩道防線。首先，模型層面的緩解措施如加強監督和強化訓練，有助于構建一個一致的模型。其次，即使模型出現錯位，系統級安全措施（如監控和訪問控制）也能減輕危害。可解釋性、不確定性估計和更安全的設計模式等技術可以提高這些緩解措施的有效性。

同時，DeepMind 提出了四種減輕 AI 錯誤的方法：第一種方法是提高 AI 能力，第二種方法是避免在存在極端利害關系的情況下部署 AI，第三種方法是使用驗證 AI 行動安全的防護措施，第四種方法是分階段部署。

在制定本次方法時，DeepMind 權衡了不同方案的利弊。例如，一些安全方法可以提供更穩健、更通用的理論保障，但尚不清楚它們是否能及時落地。其他方法則更具臨時性、實驗性，雖能快速落地但存在明顯缺陷。

出于權衡利弊的考慮，DeepMind 主要依賴于幾個關于 AGI 開發方式的背景假設：在當前發展范式之下，DeepMind 并未看到任何“限制 AI 達到比肩人類能力水平”的根本性障礙。因此，對于尚未出現的更強大的 AI 能力，人類需要認真對待并做好準備。

毫無疑問，對一個能力超越真人監管者的 AI 系統進行監管頗有挑戰，而且這種難度會不斷增加。

因此，對于足夠強大的 AI 系統來說，DeepMind 的方法并沒有依賴于人類監督者，而是利用 AI 本身的能力來進行監督，這一方法好比中醫療法中的“以毒攻毒”。

由于 AGI 到來的時間可能非常緊迫，所以 DeepMind 的安全方法旨在實現“隨時可用”，即在必要時迅速采取緩解措施。

出于這個原因，DeepMind 主要關注那些能夠輕松用于當前機器學習流程的緩解措施。

DeepMind 認為隨著 AI 系統逐漸實現自動化科學研究與開發，AI 發展可能會進入一個加速增長階段。在這個階段，通過自動化研發能夠開發出更多、更高效的 AI 系統，進而實現更進一步的自動化研發，從而開啟一個失控的正反饋循環。這種情況將大大加快 AGI 的進展速度，以至于人類幾乎沒有多少時間來發現問題和應對問題。

論文中，DeepMind 根據抽象的結構特征（例如哪個參與者有惡意）來定義風險領域，而非根據具體的風險領域比如網絡攻擊或失去人為控制來識別。這意味著此次指出的風險區域適用于 AI 帶來的普遍危害，而非僅僅限于 AGI。

（來源：DeepMind）

如前所述，DeepMind 指出的四大風險區域分別是：濫用、錯位、錯誤、結構性風險。不過，其表示這并非一種絕對的分類：這些領域既不相互排斥，也并非詳盡無遺。在實踐中，許多具體場景往往是多個領域的混合體。例如，一個未對齊的 AI 系統可能會利用不良行為者的幫助來泄露其自身的模型權重，而這就是濫用問題和未對齊問題的結合。預計在此類情況下，納入緩解措施仍然會起作用，不過也應考慮研發針對組合風險的特定緩解措施。

在系統錯誤等非對抗性場景下，標準安全工程實踐（例如測試驗證）能夠大幅降低風險。現有工程實踐已經足以將人為失誤導致嚴重危害的概率降至極低水平，這某種程度上也是源于“嚴重危害”本身屬于極高閾值事件這一客觀事實。

因此，DeepMind 認為由 AI 錯誤導致嚴重傷害的可能性，將遠遠低于濫用或錯位造成的嚴重性。但是，通過適當的安全措施可以進一步降低這種 AI 錯誤。

為了防止濫用，DeepMind 認為應該使用其所提出的前沿安全框架，這一框架能夠評估模型是否具有造成傷害的能力，并能在必要時在安全和部署上采取緩解措施。

針對錯位問題，DeepMind的策略也是先從實現良好的監管入手，這也是整個 AGI 安全領域的重中之重。

當人類用戶故意違背開發者的意愿，利用 AI 系統造成傷害時便會發生濫用。為了防止濫用，DeepMind 在安全和部署這兩方面采取了緩解措施，以便防止不良行為者通過獲得足夠權限來使用危險功能。

對于一個已經采取緩解措施的 AI 系統來說，人們可以通過有意濫用模型同時避免造成實際傷害，來評估這些緩解措施的效果。

如果我們無法利用這些模型造成間接危害，那么外部行為主體同樣無法利用它們造成實際危害。需要補充的是，那些不良行為者可能會付出比我們多得多的努力。

相反，如果不需要不良行為者的介入就能帶來“智能體傷害”，那么就需要加強緩解措施。

論文中，DeepMind 構建了一套任務評估體系，旨在通過代表性能力測試來捕捉潛在的濫用風險，并驗證現有模型能否在該評估體系中獲得高分表現。

然后，基于此類評估結果來論證濫用行為的不可行性，如果模型缺乏必要的能力，那么就無需實施額外的防護措施。

為了實現這一點，DeepMind 設定了可能發生濫用的能力閾值，并將其映射到危險能力評估中的某個具體、可衡量的分數上。根據閾值達到時間的預測，可以在適當的時間尺度上制定緩解措施。

部署緩解措施的目的在于通過規范化的應用程序編程接口（API，Application Programming Interface）訪問控制，來防止不良行為者獲取危險能力。這是一種始于模型層級的防護體系，它具體包括兩部分：

第一部分是安全性后訓練：開發人員可以在后訓練過程中教導模型不要執行有害請求，在使用這種方法時還需要確保模型能夠抵御越獄攻擊。

第二部分是能力抑制：在理想情況下，應該完全移除模型的危險能力。需要說明的是，迄今為止這在技術上依舊難以實現，而且可能會對有益用例造成過大損害，以至于無法在實踐中使用。

與此同時，DeepMind 的方法進一步考慮了系統層級的部署防護措施，與模型層防護相結合能夠形成一個縱深防御體系。這些部署防護措施包括：

第一種是監控：監控涉及到檢測不良行為者在何時試圖不當地訪問危險功能，并能做出應對措施。其中，檢測可以通過以下三個方式加以實現：使用能夠輸出危害概率分數的分類器、利用模型的內部激活機制或者手動審核生成的內容等。

第二種是訪問限制：具有危險能力的模型可能僅限于經過審查的用戶群體和使用場景，從而減少不良行為者試圖不當訪問危險能力的機會。如果某一用戶經常觸發安全監控，也可以對其進行限制。

安全緩解措施旨在防止不良行為者竊取具有危險能力的 AI 系統。雖然類似這樣的緩解措施總體上更加適用于安全保障工作，但也有一些專門針對防御 AI 模型特定挑戰而制定的措施。例如，為了限制單方面訪問模型權重的人數而制定的措施。

要想實現這一目標，需要能夠支持標準機器學習工作流程的接口，以便通過這些接口進行模型開發，并針對這些接口進行加固。

DeepMind 在論文中特別提到了社會防御強化機制，該機制通過 AI 系統提升社會韌性，例如針對 AI 網絡攻擊能力該機制能夠通過快速修復關鍵基礎設施漏洞來實現主動防御。

此類緩解措施的作用在于：確保即使不良行為者獲取了危險能力，也無法造成嚴重傷害。

當緩解措施到位之后，在使用 DeepMind 的方法時還需要對以下問題構建一個詳細論點：即在使用一套濫用緩解措施之后，是否足以將風險降低到適當水平。

通過此，可以厘清上述論證所依托的關鍵前提假設，并通過壓力測試揭示這些假設中的潛在缺陷。例如，一些 AI 領域的紅隊可能會發現那些能夠規避安全微調緩解措施的新型越獄方法。

紅隊這一概念源自軍事和網絡安全領域的對抗訓練。在 AI 領域它指的是一組專門模擬對手或惡意行為者的專家團隊。由于不良行為者可能會付出更多努力，因此紅隊會獲得額外優勢以便進行補償。

例如，紅隊可能被授予對現有防護措施的完全知悉權，或通過主動放寬防護閾值人為降低系統攻擊難度，以此來測試防御體系在最不利條件下的有效性。

此外，將紅隊與緩解措施的開發進行分離，能夠降低出現共同盲點的風險。關于此，可以通過設立一個獨立的內部專家紅隊來實現，或者由外部合作伙伴進行壓力測試。

安全論證，是一種基于證據體系的結構化論證框架，旨在系統化地證明某體系的安全特性是否符合既定標準。

DeepMind 的方法支持兩種類型的安全案例：

第一種是無害性的安全案例：該系統不具備造成傷害的能力，這一結論是基于危險能力評估的結果以及這些能力如何引發風險而得出的。

第二種是紅隊測試案例：對于具有危險能力的模型，需要進行壓力測試，以便了解緩解措施的穩健性。這些證據隨后會成為論據，證明緩解措施足以將風險降至適當水平。

目前，紅隊測試方法（包括自動化和手動法）能夠量化獲取危險能力的難度，但還需要更多研究來將其與整體風險聯系起來。

如前所述，針對錯位問題 DeepMind 的方法設有兩道防線。

首先，DeepMind 希望能夠使用模型層面的緩解措施，來確保模型不會追求錯位的目標。其所遵循的機器學習策略如下：（1）提高獲得良好監督的能力即增強監督；（2）利用這種監督來改進模型即引導模型行為；（3）找出需要監督的地方，以便訓練出一個能夠穩健地執行期望任務的模型。

其次，DeepMind 考慮在模型出現錯位即出現“AI 失控”的情況下，應該通過系統層面的緩解措施來減輕危害（即“AI 控制”）。因此，在設計這一防御體系時，DeepMind 從計算機安全領域汲取了靈感：將 AI 系統視為不可信的內部實體，從而采用訪問控制等防護機制。其中，監測機制尤為關鍵，因為其效能將隨著 AI 能力的提升而持續增強。

DeepMind 還探索了能夠強化上述防御體系的研究方向：

首先是不確定性量化。作為魯棒性訓練與監測的核心要素，其研究涵蓋分布外檢測、置信度校準等技術路徑；

其次是可解釋性。通過特征歸因、電路分析等方法解析 AI 決策機制，為針對性防護提供依據；

再次是安全設計范式。在性能-安全帕累托前沿上進行權衡分析，比如通過模塊化架構降低整體風險，推動安全邊界向更優方向拓展。

需要說明的是，DeepMind 在論文指出考慮到技術加速發展的可能性，其在論文中并未針對“以年為單位的進展速度”設定任何限制。

因此，AI 開發者可以針對本次方法進行迭代式和實證性的測試，以便發現隨著能力的提升而出現的缺陷性假設。

當然，對于任意能力的 AI 系統，DeepMind 的方法并不都具備魯棒性。但是，AI 開發者可以采取前瞻性規劃來部署相關能力。

參考資料：

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

https://arstechnica.com/ai/2025/04/google-deepmind-releases-its-plan-to-keep-agi-from-running-wild/

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.