日前,谷歌DeepMind方面發布題為《技術性AGI安全與保障方法》(An Approach to Technical AGI Safety and Security)的報告,提出應對通用人工智能(AGI)潛在風險的系統性方案。
這份報告中指出,AGI可能在2030年之前出現,屆時相關技術將對全球醫療、教育、科學等多個領域產生深遠影響,“對于任何如此強大的技術來說,至關重要的是,即使是很小的危害可能性也必須認真對待并加以預防”。
DeepMind首席執行官德米斯?哈薩比斯(Demis Hassabis)表示,“AGI的變革性質既可能帶來令人難以置信的好處,也可能帶來嚴重的危害。因此,為了負責任地構建AGI,前沿AI開發人員必須積極規劃以減輕嚴重危害”。
據了解,在這份報告中DeepMind方面將AGI的潛在風險歸納為濫用、錯位、事故和結構性風險4類,并著重強調了AGI和錯位風險。
其中,AGI濫用是指人們故意利用高級AI系統進行危害行為,例如制作和傳播虛假信息。而AGI錯位是指AI系統追求的目標與人類意圖并不相符,例如某個AI助手在被指派購票時,可能會選擇入侵票務系統以獲取更好的座位。同時DeepMind研究者還在關注AGI的 “欺騙性對齊” 風險,即當AI系統意識到其目標與人類目標沖突時,會故意隱瞞其真實行為。
據悉,為降低這些風險,DeepMind方面提出了強化技術研究、部署預警系統、通過行業與國際機構協調治理等方案。例如為防止AGI濫用,DeepMind方面推出了復雜的安全機制,可以防止惡意行為者獲得模型權重的原始訪問權限,從而繞過安全護欄。同時DeepMind還推出了網絡安全評估框架,旨在早期識別并限制AI潛在的危險能力。
為防止AGI錯位,DeepMind方面表示其通過“放大監督”技術訓練AI識別正確目標,并利用AI自評(如辯論機制)提升AI在復雜場景下的判斷力。
此外,DeepMind方面還宣布其正在設計更易于理解的AI系統,從而借此讓AI決策變得更加透明;已成立AGI安全委員會,評估AGI研究、項目和合作;正在努力促進與專家、行業、政府、非營利組織和民間社會組織的合作。
事實上,谷歌并非唯一一家呼吁積極應對AI潛在風險的科技企業。此前在2024年11月,Anthropic便曾發出警告稱,需在18個月內遏制AI失控,并設置能力閾值觸發保護機制。隨后在今年2月,Meta方面發布《前沿AI框架》,宣布將暫停開發其認為風險過高的AI系統。
【本文圖片來自網絡】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.