文:王智遠 | ID:Z201440
凌晨薅起來學習論文,你受得了嗎?
深夜,OpenAI展示了他們的首個智能體:Operator,這可不是普通的AI,它能像人類一樣操作電腦,更厲害的是,它可以直接和網頁交互,無論是打字、點擊還是滾動,都能一氣呵成。
01
Operator是什么,它有什么能力呢?簡單講,它是OpenAI最新推出的一款創新型AI模型,像一個會自己操作電腦的“數字助手”。
我們平時用電腦時,得自己點鼠標、敲鍵盤、得盯著屏幕找東西,但Operator不一樣,它能自己搞定這些,能自己和電腦界面打交道。
OpenAI為啥要開發這么個東西呢?
動機有三個方面:一,從用戶需求層面來看,現代社會中存在大量重復性、機械化的數字操作任務。
以日常辦公場景為例,表單填寫、數據整理、信息檢索等操作不僅耗時耗力,而且容易出錯,Operator的開發想解決這一痛點,通過AI自動化提升工作效率。
二,從技術發展角度來看,當前大多數AI系統仍局限于信息處理和問答交互的范疇,缺乏實際執行能力。
Operator的創新之處在于突破了這一限制,它實現了從認知到執行的完整閉環,這種能力拓展標志著AI技術向更高層次發展的重要一步。
三,從長遠發展來看,Operator的開發,體現OpenAI對AI技術潛力的深入探索;通過賦予AI直接操作計算機的能力,為未來更復雜的智能應用奠定了基礎,具有重要的戰略意義;所以,要做這個東西,我覺得它像一個RPA技術。
圖示:Operator操作頁面
那么,它的核心能力有什么呢?
首先,它能特別精準地理解你的指令。你給它下命令,它能完全聽懂,還能根據你的需求去完成任務;比如,你讓它幫你買一雙運動鞋,它就能在網上找到合適的店鋪,幫你下單,而且還能挑出性價比最高的那一雙。
然后,可以自己操作網頁,不限于網頁瀏覽與信息提取、表單填寫與數據錄入、文件管理與文檔處理、郵件收發與日程安排等四個方面。
最主要是,它有智能化決策能力。
例如:在商品采購任務中,系統能夠根據預設條件(如預算、品牌偏好等)進行智能篩選和決策;再或者,你讓它幫你訂一張機票,它就能自己搜索航班、比較價格,最后幫你下單,整個過程都不用你操心。
而且,這個智能化包括兩個維度:一,是復雜任務處理能力,二,持續學習與優化能力。
以會議安排為例,Operator可以協調參會人員時間、預定會議室、發送通知等,實現全流程自動化處理,甚至,它可以學習你操作過、編排過的任務然后再學習。
02
它的使用場景是什么?報告中,有七個有趣的例子。
首先是:網上購物。
想象一下,你正準備買一雙運動鞋。以前,你要自己打開購物網站,搜索款式、比較價格,還要手動填寫收貨地址和支付信息。
現在,有了Operator,你只要告訴它:“幫我買一雙耐克運動鞋,預算500元左右。”它就能自動完成搜索、下單,甚至還能幫你找到最劃算的優惠券。這個過程完全不需要你動手,是不是很省心?
然后是,自動填寫表單,注冊賬號、申請貸款,還是填寫各種復雜的在線表格,這些任務不僅繁瑣,還很容易出錯。但Operator可以輕松搞定這些。
圖示:Operator幫人選擇產品購物
再者是:信息檢索與整理。
在工作和學習中,我們常常需要查找各種資料。比如,你正在寫一篇關于人工智能的論文,需要查找最新的研究進展。以前,可能要在多個網站之間來回切換,手動整理信息。
Operator可以直接幫你搜索相關內容,把關鍵信息整理成一個簡潔的總結,甚至還能幫你找到相關的學術論文鏈接。這樣就不用把精力浪費在搜索上。
還有日程安排。
計劃下周和客戶開一個會議,要協調雙方的時間,預定會議室,還要發送會議通知。這些事情聽起來簡單,做起來卻很費時間,Operator會自動查看日程安排,找到一個雙方都方便的時間,預定會議室,甚至還能發送會議通知給所有參與者。
我認為最有用的兩個是:創意內容制作、文件管理
我想制作一個表情包,但又不會用復雜的圖像編輯軟件。只要告訴Operator:幫我做一個搞笑的表情包,主題是‘周一的我’。
它就能自動找到合適的圖片,添加文字,甚至還能調整圖片的風格,最后生成一個有趣的表情包。
至于文件夾管理上;以前,可能需要手動搜索,甚至還要逐個打開文件查看內容,現在,Operator可以幫忙快速找到需要的文件,并且還能整理文件夾,把相似的文件歸類在一起。
這就是它的能力,是其中一部分。
03
既然這樣,Operator是怎么訓練出來的呢?
一共四個步驟:先讓它“見多識廣”,然后讓它模仿(監督學習),再讓它思考(強化學習),最后通過人類反饋(讓它少走彎路)。
首先,訓練數據的來源至關重要。
報告中顯示,OpenAI從兩個主要渠道收集數據:一是公開數據集,包括行業標準的機器學習數據集、網絡爬取的數據,這些數據為模型提供了廣泛的任務場景,涵蓋從簡單的網頁瀏覽到復雜的文件管理等操作。
二是由人類訓練員創建的數據集,這些數據集展示了如何在計算機上解決各種任務,例如點擊按鈕、填寫表單、滾動頁面等。通過這些數據,Operator學會了如何模擬人類的操作行為。
在監督學習階段,Operator學習基本的計算機操作能力,如視覺感知和輸入控制。
這一階段的任務主要是為了讓模型掌握基本的操作技能,例如在網頁上點擊鏈接、填寫表單,或者在文件管理器中打開文件夾。
強化學習階段的目標是賦予模型更高級的能力,如推理和錯誤糾正。在這一階段,Operator學會了根據任務需求制定執行策略,適應意外事件,并在執行任務時做出智能決策。
例如:當用戶要求“幫我買一雙運動鞋”時,模型會自動搜索、比較價格,并選擇最合適的商品。此外,Operator還學會了錯誤糾正;如果模型在填寫表單時出錯,它會重新嘗試或提示用戶確認。
同時,Operator能夠適應意外事件,例如:當網頁加載緩慢或界面發生變化時,模型能夠調整策略,繼續完成任務。
值得注意的是,Operator的訓練數據與GPT-4有所不同。
圖示:模型自主性評估:不同任務在不同條件下的通過率比較
GPT-4的訓練數據,主要集中在文本理解和生成上,而Operator的訓練數據,則更偏向于視覺和交互任務,這種差異使得Operator在處理圖形界面和復雜操作時表現更出色,但純文本任務上不如GPT-4靈活。
最后,通過人類反饋,Operator能夠進一步優化其性能。人類訓練員的反饋幫助模型在實際應用中少走彎路,提高其在真實場景下的適應性和效率。
總的來說,思路就是:先有數據、讓它模仿、開始思考,人類使用再進化。
04
除了這些,風險意識測試,倫理安全問題也少不了,報告中顯示,開發Operator的過程中,OpenAI始終將安全性放在首位。
畢竟,讓一個AI模型操作計算機,就像賦予它一雙無形的手,因此,OpenAI在設計和訓練Operator時,采取了一系列多層次的防護措施。
我看了下,有三點:
一,它會主動拒絕高風險的任務。比如,當你要求它購買違禁品或執行其他潛在有害的操作時,模型會直接說“不”。
根據OpenAI的內部評估,Operator對高風險任務的拒絕率高達97%,這種機制有效防止了模型被濫用或執行不當操作。
二,Operator在執行高風險操作時,會主動要求用戶確認。比如,在發送重要郵件或完成購買之前,它會先展示相關內容,并詢問用戶是否確認繼續,這種機制確保了用戶對關鍵操作的控制權,減少了模型錯誤帶來的風險。
在一些敏感網站(如郵箱、銀行網站)上,它會自動進入“監控模式”;如果離開頁面或長時間未操作,模型會暫停任務執行,直到用戶返回并確認繼續。
另外,為了全面評估Operator的風險,們邀請了來自全球20個國家的紅隊成員,使用多種語言對Operator進行了測試。
圖釋:Operator與GPT-4o在挑戰性拒絕任務中的性能對比
紅隊成員的任務,是嘗試繞過模型的安全措施,例如:
通過提示注入攻擊或惡意指令誤導模型,盡管測試環境受到限制(例如使用模擬網站和數據庫),但,紅隊測試仍然發現了關鍵漏洞,這些發現幫助OpenAI進一步完善了模型的安全性。
報告中,也顯示了Operator也面臨的一些挑戰。
目前,它擅長處理短任務和重復性操作,但在復雜任務(如幻燈片制作、日歷管理)上表現不佳。
例如:
讓它處理多步驟任務,模型可能會因為界面變化或意外事件而失敗。還有,在處理長DNA序列、隨機字符串(如API密鑰)或復雜代碼時,Operator的光學字符識別(OCR)系統表現不佳。
這是因為任務超出了訓練數據的范圍,導致模型在識別和操作內容時,容易出錯;而且,盡管OpenAI已經采取了多種措施來防止提示注入攻擊和惡意指令,但Operator在面對新型對抗性攻擊時仍可能表現出脆弱性。
總的來說,OpenAI對Operator的未來發展充滿信心,它說,要在三個方面下功夫:
一,具體的真實場景;二,更多代碼編輯和終端操作;三,將繼續優化安全防御性能,為真正實現AGI之路而奮斗。
目前,Operator AI Agent已經上線,但目前僅面向Pro用戶;要200美刀,扎心;看完這個報告,我只想說:這難道不是RPA技術用到電腦上了嗎?國內前段時間流行的手機點單和這不一樣的嗎?
希望國內大模型趕緊跟上,彎道超車它。
參考:
發布會視頻地址:https://www.youtube.com/live/CSE77wAdDLg
技術報告鏈接地址:https://cdn.openai.com/operator_system_card.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.