網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從文本到屏幕：「Project Jarvis」們能實現(xiàn) AGI 嗎？

2024-11-02 14:02:39　來源: AI好好用

北京舉報

分享至

本文來自PRO會員通訊內(nèi)容，文末關(guān)注「機器之心PRO會員」，查看更多專題解讀。

推進自主 AI Agent 的發(fā)展是今年人工智能領(lǐng)域公司最重要的技術(shù)趨勢之一。Gartner 預(yù)測，到 2028 年，至少 15% 的日常工作決策將通過 AI Agent 完成。

微軟、谷歌、Anthropic 等公司近期陸續(xù)推出 AI Agent 及相關(guān)功能，使用 AI Agent 幫助用戶自主操控計算機、手機等智能設(shè)備。

這些 AI 頭部公司在 AI Agent 方面的動作有何異同？使用AI Agent 操控計算機、手機等智能設(shè)備這事可行嗎？

01.AI Agent 的下一個方向：用 AI 操控計算機，RPA Agent 成為更實際的落地方向

頭部 AI 公司為何都在做 AI 自主計算機操控？這事可行嗎？和 RPA 的區(qū)別是什么？

02.微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作？

微軟、谷歌、Anthropic 在 AI Agent 方面的動作有何異同？

03.AI Agent 能力突破有限：近期研究主要集中在屏幕解析方面

AI Agent自主操控計算機需要具備哪些能力？

04.讓 AI Agent 使用人類所有工具來完成任務(wù)仍是暢想

為什么說 AI Agent 離實際能用還有一段距離

01AI Agent 的下一個方向：用 AI 操控計算機，RPA Agent 成為更實際的落地方向

1、推進自主 AI Agent 的發(fā)展是今年人工智能領(lǐng)域公司最重要的技術(shù)趨勢之一。Gartner 預(yù)測，到 2028 年，至少 15% 的日常工作決策將通過 AI Agent 完成。

2、微軟、谷歌、Anthropic 等公司近期陸續(xù)推出 AI Agent 及相關(guān)功能，使用 AI Agent 幫助用戶自主操控計算機、手機等智能設(shè)備。[1]

① 微軟近期在 Dynamics 365 業(yè)務(wù)線應(yīng)用程序中推出了 10 款用于銷售、運營和服務(wù)的 AI Agent，可以自動執(zhí)行任務(wù)，如篩選潛在客戶、監(jiān)控供應(yīng)商表現(xiàn)、管理客戶意圖和知識庫等；同時，11 月還將在 Copilot Studio 中開啟自主創(chuàng)建 Agent 的功能，客戶可以根據(jù)自己的需求自主構(gòu)建 Agent，用于處理客戶查詢、識別銷售線索和管理庫存等。[2]

② Anthropic 近期推出了升級版的 Claude 3.5 Sonnet，該模型支持計算機使用功能，能夠根據(jù)用戶指令移動光標、點擊相應(yīng)位置以及通過虛擬鍵盤輸入信息，模仿人類與計算機的交互方式。[3]

③ 據(jù) The Information 報道，谷歌也將開發(fā)可控制計算機的 AI 系統(tǒng)「Project Jarvis」，通過截取和解釋屏幕截圖，然后點擊按鈕或輸入文本，幫助人們「自動執(zhí)行日常的基于網(wǎng)絡(luò)的任務(wù)」。[4]

④ 此外，智譜發(fā)布了應(yīng)用 AutoGLM，能讓 AI 像人類一樣操作電腦和手機的成果。用戶可以通過簡單的指令讓 AutoGLM 自動完成多種任務(wù)，如閱讀網(wǎng)頁信息、電商購物、點外賣、訂酒店、社交媒體互動。[5]

3、使用 AI Agent 來自主操控計算機等智能設(shè)備正在成為近期科技巨頭、頭部創(chuàng)企們發(fā)力的重點方向。

① 除了上述提到的進展，微軟也推出了 Copilot Vision，可讓用戶與 Agent 討論正在瀏覽的網(wǎng)頁；蘋果推出的 Apple Intelligence 系統(tǒng)將在明年實現(xiàn)用 Agent 了解屏幕內(nèi)容并為用戶跨應(yīng)用程序執(zhí)行操作；OpenAI 被曝正在測試可以使用 Windows 電腦的 Agent。

4、隨著 LLM 等技術(shù)的進一步發(fā)展，AI Agent 的研究方向逐漸從用于處理耗費人類時間和精力的日常任務(wù)，轉(zhuǎn)向能夠自主監(jiān)控和管理系統(tǒng)的下一個級別的 AI Agent。

① 微軟研究院負責(zé)人、資深計算機科學(xué)家 Peter Lee 認為，目前自主 AI Agent 的研究發(fā)展方向為能夠規(guī)劃和執(zhí)行復(fù)雜任務(wù)、與其他 AI Agent 協(xié)作并從他們的行為中學(xué)習(xí)。需要解決的核心問題是實現(xiàn) AI Agent 的自主性和協(xié)作性。[6]

② 根據(jù)吳恩達提出的四種 AI Agent 設(shè)計模式，現(xiàn)有的大廠、創(chuàng)企推出的 AI Agent 相關(guān)落地應(yīng)用或功能主要集中在工具使用方面，即 Agent 利用外部工具，如網(wǎng)絡(luò)搜索、代碼執(zhí)行等，來幫助收集信息、采取行動或處理數(shù)據(jù)。[7]

5、但實現(xiàn) AI Agent 的自主性、通用泛化能力的突破仍有距離。受限于現(xiàn)有 AI Agent 執(zhí)行能力的局限，以及各家科技巨頭、大廠的業(yè)務(wù)對于 RPA（機器人流程自動化）的需求，近期微軟、Anthropic 等推出的 AI Agent 更偏向于 RPA Agent。「UI+API 自動化」成為目前階段大幅提升 AI Agent 執(zhí)行能力的重要落地方向。

6、傳統(tǒng)的 RPA 與 AI Agent 的主要區(qū)別：從任務(wù)類型角度來看，傳統(tǒng)的 RPA 用于幫助使用者處理如數(shù)據(jù)輸入、發(fā)票處理等自動化重復(fù)任務(wù)，AI Agent 在此基礎(chǔ)之上，能夠處理更加復(fù)雜、不可預(yù)測的認知任務(wù)；從靈活性和適應(yīng)性角度來看，RPA 通常涉及預(yù)定義的工作流程，明確定義的程序或步驟，AI Agent 則是通用性，能夠?qū)W習(xí)和適應(yīng)新的任務(wù)或環(huán)境。

7、隨著 AI 技術(shù)的發(fā)展，RPA 與 AI Agent 技術(shù)的融合成為 RPA 廠商或巨頭大廠們的趨勢。據(jù) Gartner 發(fā)布的《2024 機器人流程自動化（RPA）魔力象限》報告，預(yù)計到 2025 年，90%的 RPA 供應(yīng)商將整合生成式 AI 技術(shù)，進一步提升自動化的智能化水平。基于 AI Agent 技術(shù)，RPA 不是簡單地遵循預(yù)定義的規(guī)則和工作流程，而是可以從數(shù)據(jù)中學(xué)習(xí)、識別模式并做出決策，能夠自動執(zhí)行更復(fù)雜的認知任務(wù)。[8]

02微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作？

不管是微軟、谷歌等科技巨頭，還是 OpenAI、Anthropic 等 AI 創(chuàng)企，各家公司在 AI Agent 方面的相關(guān)研究及布局，均是為其已有或重點業(yè)務(wù)方向所服務(wù)。

表：不完全統(tǒng)計美 AI 頭部公司近期在 AI Agent 方面的相關(guān)動作

1、微軟：面向企業(yè)客戶，服務(wù)于生產(chǎn)力和業(yè)務(wù)流程業(yè)務(wù)板塊[2]

1）微軟推出的 AI Agent 應(yīng)用于其 Dynamics 365 業(yè)務(wù)線應(yīng)用程序，用于銷售、運營和服務(wù)，主要為企業(yè)客戶服務(wù)......

關(guān)注「機器之心PRO會員」，前往「收件箱」查看完整解讀

01 微調(diào)失格？持續(xù)反向傳播算法將解鎖新的訓(xùn)練范式嗎？

當前深度學(xué)習(xí)有什么根本缺陷？微調(diào)將來不存在了？Dynamic DL 是什么？反向傳播算法是什么？持續(xù)學(xué)習(xí)在 LLM中有哪些進展？反向傳播算法會解鎖新的訓(xùn)練范式嗎？...

02 從卷文本到卷多模態(tài)：國內(nèi)的大模型公司都在忙什么？

MLLM 和 LMM 兩種不同思路，哪種更有可能實現(xiàn)多模態(tài)交互？未來的通用智能是否一定是多模態(tài)智能？在多模態(tài)的競爭中，AI 大模型創(chuàng)企、科技大廠、多模態(tài)大模型服務(wù)廠商推出的產(chǎn)品表現(xiàn)如何？在布局上，有哪些異同？為什么說雖然產(chǎn)品數(shù)據(jù)表現(xiàn)亮眼，但距離實現(xiàn) PMF 還仍有很長的一段路要走？...

03 Scaling 范式變了？Self-Play 還值得 All In 嗎？

OpenAI 的 o1 模型有質(zhì)的突破嗎？Scaling Law 的范式要變了嗎？Self-Play 在新范式中重要嗎？傳統(tǒng) Self-Play 技術(shù)發(fā)展如何？Self-Play+LLM 已經(jīng)能訓(xùn)出更強的模型了嗎？...

04 Machine Psychology，解構(gòu) LLM 還是心理學(xué)更靠譜嗎？

什么是 Machine Psychology？為什么要做 Machine Psychology？做 Machine Psychology 有哪些路線？哪些心理學(xué)理論可以用于 LLMs 研究？Machine Psychology 要如何應(yīng)用？Machine Psychology 下一步要怎么走？...

更多往期專題解讀內(nèi)容，關(guān)注「機器之心PRO會員」服務(wù)號，點擊菜單欄「收件箱」查看。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.