(關注公眾號設為標,獲取AI深度洞察)
全文 2,000字 | 閱讀約5分鐘
(Operator發布會完整視頻)
AI自主上網購物真的要來了嗎?是的。
OpenAI CEO Sam Altman早前博客預測:2025年將是AI Agent取得重大突破的一年。而在周四1月23日,這一預測已現端倪—— OpenAI發布了其具備“博士”能力的AI Agent產品預覽版Operator。
這款重磅工具不僅能模擬人類操作網頁瀏覽器,更能自主完成從網上購物到旅行預訂等復雜任務。它標志著AI正從簡單的對話助手,向真正能夠'替人辦事'的智能助手跨進。從此,AI不再局限于回答問題,而是能實際代表用戶在互聯網上行動。
作為戰略性推廣的第一步,Operator 目前僅向美國地區的 ChatGPT Pro 訂閱用戶(月費 200 美元)開放。在產品發布直播中,Altman 表示將逐步擴展至其他訂閱層級,但歐洲等地區的上線時間可能較晚,這或與當地的 AI 監管政策有關。
OpenAI的Agent計劃
目前,該研究預覽版可通過 operator.chatgpt.com 訪問,但 OpenAI 計劃未來將 Operator 集成到所有 ChatGPT 客戶端中。根據 OpenAI 的現場直播,Operator 承諾可自動執行預訂旅行住宿、餐廳訂位和在線購物等任務。用戶可以在 Operator 界面中選擇不同類別的任務,包括購物、外賣、餐飲和旅行,每個類別都對應不同類型的自動化功能。
Operator 似乎是 OpenAI 在 AI 代理領域迄今最為大膽的嘗試。就在上周,OpenAI 推出了 Tasks,為 ChatGPT 提供了簡單的自動化功能,比如設置提醒和安排每日定時執行的提示詞。Tasks 賦予了 ChatGPT 一些類似 Siri 或 Alexa 的基礎功能,使其更具實用性。然而,Operator 展示了前幾代虛擬助手從未具備的能力。
AI 代理被認為是 ChatGPT 之后 AI 發展的下一件大事——這項新技術可能會改變人們使用互聯網和個人電腦的方式。與僅限于提供和處理信息的傳統 AI 不同,理論上,AI 代理可以主動采取行動、執行任務。
二、Operator 工作原理
OpenAI 表示,Operator 由一款計算機使用代理(Computer-Using Agent,簡稱 CUA)驅動,該代理結合了公司 GPT-4o 模型的視覺能力以及 OpenAI 更先進模型的推理能力。CUA 經過訓練,可與網站的前端界面交互,這意味著它無需依賴面向開發者的 API,即可訪問不同的服務。
換句話說,CUA 能夠像人類一樣使用按鈕、導航菜單,并在網頁上填寫表單。CUA 模型經過訓練,在執行可能產生外部影響的任務之前,會先請求用戶確認。例如,在提交訂單或發送電子郵件之前,用戶可以進行最終檢查,以確保模型的操作符合預期。”OpenAI 表示:“CUA已在多種場景中展現出實用價值,我們的目標是讓其在更廣泛的任務范圍內保持高可靠性。
然而,OpenAI 也警告稱,CUA 并不完美。公司表示,目前CUA還無法在所有場景下都能穩定可靠地運行。”出于謹慎考慮,OpenAI 還要求對某些任務進行監督,比如涉及銀行交易的操作,即便 CUA 和 Operator 技術上能夠獨立完成這些任務。
OpenAI 在其支持文檔中提到:“在一些特別敏感的網站上,比如電子郵件,Operator 需要用戶進行主動監督,確保用戶可以直接發現并糾正模型可能犯的任何錯誤。”
三、Operator 使用指南操作過程
當 ChatGPT 用戶啟用 Operator 時,將彈出一個小窗口,顯示該代理所使用的專屬網頁瀏覽器,以執行任務,并提供其正在執行的具體操作的說明。用戶在 Operator 運行時仍可自行控制屏幕,因為 Operator 使用的是獨立的瀏覽器。
要開始使用,只需描述你想要執行的任務,Operator 便可自動處理。用戶可以隨時接管 遠程瀏覽器 的控制權,而在涉及登錄、支付信息輸入或 CAPTCHA 識別等任務時,Operator 也會主動提示用戶接管。
功能定制
用戶可以在 Operator 中 個性化工作流,添加自定義指令,適用于所有網站或特定網站,例如在 Booking.com 預設航空公司偏好。Operator 還允許用戶 保存提示詞,方便主頁快捷訪問,適用于 Instacart 等平臺上的重復性任務,如定期補充食品雜貨。
應用實例
智能采購:根據圖片和菜譜訂購晚餐食材
Operator 能識別菜譜圖片中的食材清單,并自動在指定電商平臺匹配相應商品。系統會基于價格、新鮮度和配送時效進行智能篩選,確保食材及時送達。
旅行規劃:根據預算及個人偏好自動生成方案
根據我的預算和興趣規劃周末旅行,請注意,在 0:06 時,ChatGPT Operator 被“Reddit”網站屏蔽,系統展現了類人化的決策能力:當遭遇"Reddit"網站屏蔽時,Operator 迅速轉向 Bing 搜索引擎獲取相關信息,保證了旅行規劃的連續性和完整性。"
投資分析:需要人工驗證的證券研究
注意 ChatGPT Operator 在收集投資數據過程中遇到人機驗證碼時,會主動向用戶發送驗證請求。這種人機協作模式既確保了數據收集的連續性,也保障了投資研究的安全性。"
航班預訂:全程對話式確認,實時調整方案
使用 Booking 集成預訂從 蘇黎世 飛往 維也納 的單程航班。這個過程需要反復溝通,ChatGPT Operator 會向我發送消息,詢問我的航班偏好,并讓我輸入付款詳細信息
四、Operator 實踐評測
實踐體驗顯示,Operator 在任務自動化方面表現出色。其后臺自主運行的特性極大減少了人工干預,智能任務保存和個性化配置功能也大幅提升了使用效率。人機協作機制設計合理,在關鍵節點的交互提示恰到好合。
然而,作為研究預覽版本,Operator 也面臨一些現實挑戰。部分網站對 AI 訪問的封禁以及有限的合作平臺覆蓋范圍,在一定程度上制約了其應用場景。值得注意的是,Operator 的功能定位專注于網頁交互自動化,這與 ChatGPT 的內容創作能力形成了鮮明對比。
從使用方法來看,Operator 作為獨立于 ChatGPT 的創新工具,需要探索獨特的最優使用模式。這種探索過程與 GPT-4 思維鏈提示或 GPT-4o 視覺理解的發展軌跡頗為相似。目前的應用實踐僅展現了 Operator 潛力的一小部分,其未來發展值得期待。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.youtube.com/watch?v=CSE77wAdDLg&t=5s&ab_channel=OpenAI
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.