出品 | 網易科技《態度》欄目
作者 | 袁寧
編輯 | 丁廣勝
“AI智能體正在將傳統AI的安全風險,系統性地放大。”Gartner高級研究總監趙宇告訴網易科技。
AI智能體正快速進入落地階段。AI智能體的興起被視作生成式AI走向實用化的重要標志。它不僅理解指令,更能自主判斷、調動工具、協同任務,AI智能體似乎預示著一個“智能系統自治”的新時代。
然而,風險也隨之升級——從幻覺、指令注入到物理世界失控,智能體系統也成為多類安全風險的放大器。
趙宇指出,大量用戶對智能體潛在的安全風險認知不足,在產品設計與部署過程中常常低估其可能帶來的系統性負面效應,從而缺乏必要的防護機制。
同時,不同用戶群體對于安全問題的重視程度存在顯著差異——高敏感行業如金融、醫療在初期就具備一定防范意識,而面向C端的消費級應用往往容易忽視底層風險。
更為關鍵的是,當前智能體相關的安全法規與標準體系尚未健全。用戶在實際使用過程中難以獲得明確的合規指引,進一步加劇了風險管理的復雜性與不確定性。
01風險放大:從“輸出錯誤”變成“動作風險”
AI智能體并非傳統AI的延續,而是疊加決策邏輯與動作執行鏈的新系統。“傳統AI的風險依然存在,但在這個場景下會被放大化。”趙宇表示。
首先是幻覺問題。生成式AI的“編造”特性早已被業內熟知,但在智能體中,其危害被顯著放大。
由于AI智能體需要長時間運行,并依據動態上下文做出推理,其幻覺往往不是文字輸出錯誤,而是直接引發錯誤行為——例如在自動駕駛場景中,若智能體誤識別交通標志,便可能導致物理事故。
其次是指令層的攻擊風險升級。傳統的“提示注入”攻擊(Prompt Injection)在智能體場景中,演變為更具操作性的“行為操控”。
例如在MCP(Multi-Component Prompt)架構下,第三方工具作為系統信任組件被接入,攻擊者可通過篡改工具描述實現“Rug Pull”——用惡意工具替換原組件,但保留可信標簽,使得攻擊隱蔽且高效。
同時,還有一個更隱蔽的風險:第四方提示注入。攻擊路徑并非直接指向智能體,而是通過間接信任鏈進行跳躍式入侵,極大地增加了溯源難度。
此外,數據泄漏在AI智能體環境下,表現出更具“誘導性”的特征。
一方面,攻擊者可以通過構造惡意工具引導智能體訪問敏感文件,并將數據作為參數外發。另一方面,數據泄漏可能在用戶無意識中發生。例如在寫作輔助工具中,智能體從用戶文件中抓取隱私內容自動生成文本并公開發布。
02自主決策:無法預測的行為,是無法防控的風險
與傳統AI不同,AI智能體具備一定的自主性與連續性,它不再僅僅是“輔助”,而是在執行中具備目標管理和任務分解能力。
這種“去人化”帶來的是全新的風險類型:
· 行為目標可能發生偏離
· 行為模式隨時間演化而動態變化
· 風險不可復現、難以建模
這直接挑戰了企業當前的安全管理方法。“我們以前建立安全基線,一旦行為偏離就觸發告警。但如果智能體的行為一直在變,還怎么設定基線?”趙宇告訴網易科技。
AI智能體根據反饋自我演化的行為模式,也讓今天的“正常”可能在明天就不再適用。這讓“異常檢測”變得低效,甚至失效。
03多智能體協作:信任鏈條正在“失控化”
從研發趨勢看,AI智能體未來將以多體協同模式運行。一個看似簡單的操作,可能涉及多個智能體之間的任務拆解與協調。
這種設計確實提高了任務效率,但也放大了權限管理的挑戰。而隨著多智能體系統被用于復雜任務場景,權限鏈條也變得愈發復雜。
這意味著,每新增一個智能體或工具,都是新增一個被利用的入口。
“一個智能體調用另一個智能體,甚至跨平臺調用工具API。如果這個鏈條中的某一環出問題,就可能形成整個系統的權限控制級聯崩塌。”趙宇表示。
04物理交互風險:最容易被忽略,但也可能最致命
AI智能體的應用正逐步從軟件層面延伸到物理空間,例如自動駕駛、倉儲機器人、酒店導覽等。這些場景中,AI智能體不僅處理信息,還會直接控制物理設備,一旦被攻擊或誤導,后果可能是“實實在在的災難”。
“這個領域目前實際的網絡安全事件不多,但我覺得反而是最危險的。”趙宇表示,這一風險主要來自三類場景:
一是環境攻擊。攻擊者通過“偽造現實”來欺騙傳感器系統。例如偽造交通標志,干擾自動駕駛決策;或用聲波指令劫持語音助手,發出惡意命令。“尤其是有意的,那它一定就是一個安全攻擊。”
二是惡意指令。攻擊者通過黑入系統修改物理信號。例如在工控系統中修改溫度讀數,讓設備錯誤執行,甚至爆炸或失控。“它對應的是物理層面的提示注入。”
三是隱私侵犯。如酒店服務機器人與客戶對話過程中,自動聯動門鎖、燈控系統。若無有效權限隔離與數據使用規范,極易導致用戶隱私外泄。
“智能體不是一個產品,是一個體系。”趙宇提醒,無論是智能體廠商還是使用方企業,都應從設計階段介入安全架構建設,而這也意味著我們必須以“新范式”思維重新理解AI系統的邊界與風險。