本文來自PRO會員通訊內(nèi)容,文末關(guān)注「機器之心PRO會員」,查看更多專題解讀。
推進自主 AI Agent 的發(fā)展是今年人工智能領(lǐng)域公司最重要的技術(shù)趨勢之一。Gartner 預(yù)測,到 2028 年,至少 15% 的日常工作決策將通過 AI Agent 完成。
微軟、谷歌、Anthropic 等公司近期陸續(xù)推出 AI Agent 及相關(guān)功能,使用 AI Agent 幫助用戶自主操控計算機、手機等智能設(shè)備。
這些 AI 頭部公司在 AI Agent 方面的動作有何異同?使用AI Agent 操控計算機、手機等智能設(shè)備這事可行嗎?
目錄
01.AI Agent 的下一個方向:用 AI 操控計算機,RPA Agent 成為更實際的落地方向
頭部 AI 公司為何都在做 AI 自主計算機操控?這事可行嗎?和 RPA 的區(qū)別是什么?
02.微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作?
微軟、谷歌、Anthropic 在 AI Agent 方面的動作有何異同?
03.AI Agent 能力突破有限:近期研究主要集中在屏幕解析方面
AI Agent自主操控計算機需要具備哪些能力?
04.讓 AI Agent 使用人類所有工具來完成任務(wù)仍是暢想
為什么說 AI Agent 離 實際能用還有一段距離
01AI Agent 的下一個方向:用 AI 操控計算機,RPA Agent 成為更實際的落地方向
1、推進自主 AI Agent 的發(fā)展是今年人工智能領(lǐng)域公司最重要的技術(shù)趨勢之一。Gartner 預(yù)測,到 2028 年,至少 15% 的日常工作決策將通過 AI Agent 完成。
2、微軟、谷歌、Anthropic 等公司近期陸續(xù)推出 AI Agent 及相關(guān)功能,使用 AI Agent 幫助用戶自主操控計算機、手機等智能設(shè)備。[1]
① 微軟近期在 Dynamics 365 業(yè)務(wù)線應(yīng)用程序中推出了 10 款用于銷售、運營和服務(wù)的 AI Agent,可以自動執(zhí)行任務(wù),如篩選潛在客戶、監(jiān)控供應(yīng)商表現(xiàn)、管理客戶意圖和知識庫等;同時,11 月還將在 Copilot Studio 中開啟自主創(chuàng)建 Agent 的功能,客戶可以根據(jù)自己的需求自主構(gòu)建 Agent,用于處理客戶查詢、識別銷售線索和管理庫存等。[2]
② Anthropic 近期推出了升級版的 Claude 3.5 Sonnet,該模型支持計算機使用功能,能夠根據(jù)用戶指令移動光標、點擊相應(yīng)位置以及通過虛擬鍵盤輸入信息,模仿人類與計算機的交互方式。[3]
③ 據(jù) The Information 報道,谷歌也將開發(fā)可控制計算機的 AI 系統(tǒng)「Project Jarvis」,通過截取和解釋屏幕截圖,然后點擊按鈕或輸入文本,幫助人們「自動執(zhí)行日常的基于網(wǎng)絡(luò)的任務(wù)」。[4]
④ 此外,智譜發(fā)布了應(yīng)用 AutoGLM,能讓 AI 像人類一樣操作電腦和手機的成果。用戶可以通過簡單的指令讓 AutoGLM 自動完成多種任務(wù),如閱讀網(wǎng)頁信息、電商購物、點外賣、訂酒店、社交媒體互動。[5]
3、使用 AI Agent 來自主操控計算機等智能設(shè)備正在成為近期科技巨頭、頭部創(chuàng)企們發(fā)力的重點方向。
① 除了上述提到的進展,微軟也推出了 Copilot Vision,可讓用戶與 Agent 討論正在瀏覽的網(wǎng)頁;蘋果推出的 Apple Intelligence 系統(tǒng)將在明年實現(xiàn)用 Agent 了解屏幕內(nèi)容并為用戶跨應(yīng)用程序執(zhí)行操作;OpenAI 被曝正在測試可以使用 Windows 電腦的 Agent。
4、隨著 LLM 等技術(shù)的進一步發(fā)展,AI Agent 的研究方向逐漸從用于處理耗費人類時間和精力的日常任務(wù),轉(zhuǎn)向能夠自主監(jiān)控和管理系統(tǒng)的下一個級別的 AI Agent。
① 微軟研究院負責(zé)人、資深計算機科學(xué)家 Peter Lee 認為,目前自主 AI Agent 的研究發(fā)展方向為能夠規(guī)劃和執(zhí)行復(fù)雜任務(wù)、與其他 AI Agent 協(xié)作并從他們的行為中學(xué)習(xí)。需要解決的核心問題是實現(xiàn) AI Agent 的自主性和協(xié)作性。[6]
② 根據(jù)吳恩達提出的四種 AI Agent 設(shè)計模式,現(xiàn)有的大廠、創(chuàng)企推出的 AI Agent 相關(guān)落地應(yīng)用或功能主要集中在工具使用方面,即 Agent 利用外部工具,如網(wǎng)絡(luò)搜索、代碼執(zhí)行等,來幫助收集信息、采取行動或處理數(shù)據(jù)。[7]
5、但實現(xiàn) AI Agent 的自主性、通用泛化能力的突破仍有距離。受限于現(xiàn)有 AI Agent 執(zhí)行能力的局限,以及各家科技巨頭、大廠的業(yè)務(wù)對于 RPA(機器人流程自動化)的需求,近期微軟、Anthropic 等推出的 AI Agent 更偏向于 RPA Agent。「UI+API 自動化」成為目前階段大幅提升 AI Agent 執(zhí)行能力的重要落地方向。
6、傳統(tǒng)的 RPA 與 AI Agent 的主要區(qū)別:從任務(wù)類型角度來看,傳統(tǒng)的 RPA 用于幫助使用者處理如數(shù)據(jù)輸入、發(fā)票處理等自動化重復(fù)任務(wù),AI Agent 在此基礎(chǔ)之上,能夠處理更加復(fù)雜、不可預(yù)測的認知任務(wù);從靈活性和適應(yīng)性角度來看,RPA 通常涉及預(yù)定義的工作流程,明確定義的程序或步驟,AI Agent 則是通用性,能夠?qū)W習(xí)和適應(yīng)新的任務(wù)或環(huán)境。
7、隨著 AI 技術(shù)的發(fā)展,RPA 與 AI Agent 技術(shù)的融合成為 RPA 廠商或巨頭大廠們的趨勢。據(jù) Gartner 發(fā)布的《2024 機器人流程自動化(RPA)魔力象限》報告,預(yù)計到 2025 年,90%的 RPA 供應(yīng)商將整合生成式 AI 技術(shù),進一步提升自動化的智能化水平。基于 AI Agent 技術(shù),RPA 不是簡單地遵循預(yù)定義的規(guī)則和工作流程,而是可以從數(shù)據(jù)中學(xué)習(xí)、識別模式并做出決策,能夠自動執(zhí)行更復(fù)雜的認知任務(wù)。[8]
02微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作?
不管是微軟、谷歌等科技巨頭,還是 OpenAI、Anthropic 等 AI 創(chuàng)企,各家公司在 AI Agent 方面的相關(guān)研究及布局,均是為其已有或重點業(yè)務(wù)方向所服務(wù)。
表:不完全統(tǒng)計美 AI 頭部公司近期在 AI Agent 方面的相關(guān)動作
1、微軟:面向企業(yè)客戶,服務(wù)于生產(chǎn)力和業(yè)務(wù)流程業(yè)務(wù)板塊[2]
1)微軟推出的 AI Agent 應(yīng)用于其 Dynamics 365 業(yè)務(wù)線應(yīng)用程序,用于銷售、運營和服務(wù),主要為企業(yè)客戶服務(wù)......
關(guān)注「機器之心PRO會員」,前往「收件箱」查看完整解讀
01 微調(diào)失格?持續(xù)反向傳播算法將解鎖新的訓(xùn)練范式嗎?
當前深度學(xué)習(xí)有什么根本缺陷?微調(diào)將來不存在了?Dynamic DL 是什么?反向傳播算法是什么?持續(xù)學(xué)習(xí)在 LLM中有哪些進展?反向傳播算法會解鎖新的訓(xùn)練范式嗎?...
02 從卷文本到卷多模態(tài):國內(nèi)的大模型公司都在忙什么?
MLLM 和 LMM 兩種不同思路,哪種更有可能實現(xiàn)多模態(tài)交互?未來的通用智能是否一定是多模態(tài)智能?在多模態(tài)的競爭中,AI 大模型創(chuàng)企、科技大廠、多模態(tài)大模型服務(wù)廠商推出的產(chǎn)品表現(xiàn)如何?在布局上,有哪些異同?為什么說雖然產(chǎn)品數(shù)據(jù)表現(xiàn)亮眼,但距離實現(xiàn) PMF 還仍有很長的一段路要走?...
03 Scaling 范式變了?Self-Play 還值得 All In 嗎?
OpenAI 的 o1 模型有質(zhì)的突破嗎?Scaling Law 的范式要變了嗎?Self-Play 在新范式中重要嗎?傳統(tǒng) Self-Play 技術(shù)發(fā)展如何?Self-Play+LLM 已經(jīng)能訓(xùn)出更強的模型了嗎?...
04 Machine Psychology,解構(gòu) LLM 還是心理學(xué)更靠譜嗎?
什么是 Machine Psychology?為什么要做 Machine Psychology?做 Machine Psychology 有哪些路線?哪些心理學(xué)理論可以用于 LLMs 研究?Machine Psychology 要如何應(yīng)用?Machine Psychology 下一步要怎么走?...
更多往期專題解讀內(nèi)容,關(guān)注「機器之心PRO會員」服務(wù)號,點擊菜單欄「收件箱」查看。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.