剛剛，OpenAI上線Deep Research！人類終極考試遠超DeepSeek R1

2025-02-03 14:29:35　來源: 人工智能研究

貴州舉報

分享至

來源：機器之心

一覺醒來，OpenAI 又發(fā)新產(chǎn)品了，這次是面向深度研究領(lǐng)域的智能體產(chǎn)品 ——「Deep Research」。

具體來講，這是一個使用推理來綜合大量在線信息并為用戶完成多步驟研究任務(wù)的智能體，旨在幫助用戶進行深入、復(fù)雜的信息查詢與分析。目前，Pro 用戶現(xiàn)已可用，接下來還將開放給 Plus 和 Team 用戶使用。

有了這個新的智能體，用戶將可以在 ChatGPT 中開啟深度研究，在幾十分鐘內(nèi)完成人類需要數(shù)小時才能完成的工作。

作為 OpenAI 的下一代智能體，Deep Research 可以獨立為用戶工作。用戶給它一個提示，ChatGPT 將查找、分析和綜合數(shù)百個在線資源，以研究分析師的水平創(chuàng)建一份綜合報告。Deep Research 由即將推出的 o3 模型的一個版本提供支持，該模型針對網(wǎng)頁瀏覽和數(shù)據(jù)分析進行了優(yōu)化，它利用推理來搜索、解釋和分析互聯(lián)網(wǎng)上的大量文本、圖像和 PDF，并根據(jù)需要根據(jù)遇到的信息做出調(diào)整。

OpenAI 表示，綜合知識的能力是創(chuàng)造新知識的先決條件。因此，Deep Research 標(biāo)志著 OpenAI 朝著開發(fā) AGI 的更廣泛目標(biāo)邁出了重要一步。OpenAI 長期以來一直設(shè)想 AGI 能夠產(chǎn)生新穎的科學(xué)研究。

從大家的反應(yīng)來看，OpenAI 這次的智能體產(chǎn)品切中了用戶的需求，甚至有人認為這是邁向智能體 AI 的重要里程碑。

OpenAI 的 Deep Research 通過搜索網(wǎng)絡(luò)并將知識綜合成研究論文，這種自主研究標(biāo)志著 AI 進入到了自我發(fā)現(xiàn)新知識的下一步。

圖源：X@tsarnick

構(gòu)建 Deep Research 的目的

Deep Research 是為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識工作并需要徹底、精確和可靠研究的用戶而量身打造的。

同時，Deep Research 對于尋找超個性化推薦的挑剔購物者同樣有用，這些推薦通常需要仔細研究才能購買如汽車、家電和家具。每個輸出都經(jīng)過完整記錄，并附有清晰的引文和思路摘要，以便于引用和驗證信息。同樣地，Deep Research 在查找需要瀏覽大量網(wǎng)站的小眾、非直觀信息方面也特別有效。

總之，Deep Research 讓用戶只需一個查詢即可加快復(fù)雜、耗時的網(wǎng)絡(luò)研究，從而釋放寶貴的時間。

此外，Deep Research 能夠獨立發(fā)現(xiàn)、推理和整合來自網(wǎng)絡(luò)的見解。為了實現(xiàn)這一點，它接受了需要使用瀏覽器和 Python 工具的現(xiàn)實任務(wù)的訓(xùn)練，使用了 OpenAI 第一個推理模型 o1 背后的相同強化學(xué)習(xí)方法。雖然 o1 在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域表現(xiàn)出令人印象深刻的能力，但許多現(xiàn)實世界的挑戰(zhàn)需要從各種在線來源收集廣泛的背景和信息。Deep Research 利用這些推理能力來彌補這一差距，使其能夠解決人們在工作和日常生活中面臨的各類問題。

如何使用 Deep research

在 ChatGPT 中，選擇「message composer」中的 deep research 并輸入查詢。告訴 ChatGPT 你需要什么 —— 無論是關(guān)于流媒體平臺的競爭分析，還是關(guān)于最佳通勤的個性化報告都可以。甚至你也可以附加文件或電子表格，為問題添加上下文。一旦開始運行，側(cè)邊欄將顯示所采取的步驟和使用的來源摘要。

Deep research 可能需要 5 到 30 分鐘的時間來完成其工作，因為它需要深入挖掘網(wǎng)絡(luò)信息。在此期間，用戶可以離開或處理其他任務(wù) —— 任務(wù)完成后你會收到通知。最終結(jié)果將以報告的形式出現(xiàn)在聊天中 —— 在接下來的幾周內(nèi)，OpenAI 還將為這些報告添加嵌入的圖像、數(shù)據(jù)可視化和其他分析輸出，以提供更清晰的說明和上下文。

與 deep research 相比，GPT-4o 更適合實時的多模態(tài)對話。對于需要深度和細節(jié)的各個方面、特定領(lǐng)域的查詢，deep research 能夠進行廣泛的探索并引用每個聲明。

下面是一些 GPT-4o 與 deep research 對比。

大海撈針。

詢問 GPT-4o：「前段時間我看過一部電視劇。我忘了名字，但我記得其中一集發(fā)生了什么。你能幫我找到名字嗎？以下是我記得的一集內(nèi)容：

兩個男人玩撲克。一個棄牌，另一個讓他下注。棄牌的人實際上手牌很好，但被騙了。第二手牌，同一個人再次棄牌，但這次手牌很糟糕

請深入瀏覽網(wǎng)頁，找到發(fā)生此事的電視劇集。」

GPT-4o 回答：「根據(jù)您提供的詳細信息，您似乎指的是電視劇《仆人》中的一集。這部劇由 Tony Basgallop 創(chuàng)作，M. Night Shyamalan 擔(dān)任執(zhí)行制片人，于 2019 年在 Apple TV+ 上首播。故事圍繞一對費城夫婦展開，他們在經(jīng)歷了巨大的損失后，雇傭了一名年輕保姆，導(dǎo)致他們家中發(fā)生了一系列令人不安的事件……」

詢問 deep research 同樣的問題，其給出的答案：「您所描述的三個事件都發(fā)生在 Starz 系列劇《Counterpart》第一季第四集，標(biāo)題為 Both Sides Now。在這一集中……」

以下是完整過程：

在上述例子中，deep research 被賦予了一個模糊的查詢，即使對人類來說也很難找到答案，因為沒有關(guān)鍵詞能夠輕易揭示查詢的答案。deep research 能夠以創(chuàng)造性和持久性的方式進行搜索，直到找到一個完全符合條件的結(jié)果。

類似的對比還有通用知識（general knowledge）的查詢：「NFL 球員的平均退休年齡是多少？」

在這個例子中，deep research 提供了需要考慮的組成部分和因素，而不僅僅是一個數(shù)字。它更加全面，提供了清晰的統(tǒng)計背景，使用了支持性的例子，并直接解釋了射門員相對于其他位置球員職業(yè)生涯較長的原因。這種細節(jié)和清晰度使得 deep research 更具信息量，并更直接地回應(yīng)了那些希望了解 NFL 退休年齡趨勢的人的需求。

如何工作

Deep Research 通過端到端的強化學(xué)習(xí)在多個領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上進行了訓(xùn)練。通過這種訓(xùn)練，它學(xué)會了規(guī)劃和執(zhí)行多步驟的軌跡，以找到所需的數(shù)據(jù)，并在必要時回溯和實時響應(yīng)信息。

Deep Research 還能夠瀏覽用戶上傳的文件，使用 Python 工具繪制和迭代圖表，在生成的圖表和從網(wǎng)站獲取的圖像中嵌入其響應(yīng)，并引用其來源中的特定句子或段落。得益于這種訓(xùn)練，Deep Research 在多個專注于現(xiàn)實世界問題的公開評估中達到了新的高度。

人類終極考試（Humanity’s Last Exam）

對于最近發(fā)布的「人類終極考試」評估，在專家級問題上對廣泛學(xué)科的人工智能進行了測試，支持 Deep Research 的模型以 26.6% 的準(zhǔn)確率創(chuàng)下了新高。

這項測試包括 3,000 多個多項選擇題和簡答題，涵蓋了從語言學(xué)到火箭科學(xué)、古典文學(xué)到生態(tài)學(xué)的 100 多個學(xué)科。與 o1 相比，進步最大的是化學(xué)、人文和社會科學(xué)以及數(shù)學(xué)。支持 Deep Research 的模型展示了一種類人方法，可以在必要時有效地尋找專業(yè)信息。

GAIA 基準(zhǔn)測試

在評估人工智能在現(xiàn)實問題上表現(xiàn)的公共基準(zhǔn) GAIA 上，支持 Deep Research 的模型達到了新的 SOTA 水平，位居排行榜榜首。這些任務(wù)涵蓋三個難度級別的問題，成功完成需要具備推理、多模式流暢性、網(wǎng)頁瀏覽和工具使用熟練等能力。

我們來看一個 GAIA 任務(wù)示例：

?專家級別的任務(wù)

在對各個領(lǐng)域?qū)＜壹壢蝿?wù)進行的內(nèi)部評估中，領(lǐng)域?qū)＜艺J為Deep Research 可以自動完成數(shù)小時的艱難手動調(diào)查。

以下兩圖分別為專家級任務(wù)的通過率（按估計經(jīng)濟價值計算）以及專家級任務(wù)的預(yù)計小時數(shù)通過率。

專家級別的任務(wù)示例如下：

ChatGPT 中的 Deep research 目前對計算資源的需求非常高。research 一個查詢所需的時間越長，耗費的推理計算資源就越多。

從現(xiàn)在開始，OpenAI 推出了針對 Pro 用戶優(yōu)化的版本，每月最多可進行 100 次查詢。接下來將會向 Plus 和 Team 用戶開放，隨后是 Enterprise 用戶。

目前，Deep research 功能已在 ChatGPT 網(wǎng)頁版上線，并將在本月內(nèi)逐步推廣到移動和桌面應(yīng)用程序。目前，Deep research 可以訪問開放的互聯(lián)網(wǎng)以及任何上傳的文件。未來，將能夠連接到更多專業(yè)的數(shù)據(jù)源。

現(xiàn)在看來，Deep research 能夠進行異步的在線查找，而 Operator 則能夠在現(xiàn)實世界中采取行動，兩者的結(jié)合將使 ChatGPT 能夠為用戶執(zhí)行越來越復(fù)雜的任務(wù)。

不過，值得一提的是，Deep research 目前仍處于早期階段，并且存在局限性。根據(jù)內(nèi)部評估，它有時會在響應(yīng)中產(chǎn)生幻覺或做出錯誤推斷，但發(fā)生率明顯低于現(xiàn)有的 ChatGPT 模型，它可能難以區(qū)分權(quán)威信息和謠言。在發(fā)布之際，Deep research 報告和引文中可能會出現(xiàn)輕微的格式錯誤，任務(wù)可能需要更長時間才能啟動。所有這些問題都會隨著使用和時間的推移而迅速改善。

博客地址：https://openai.com/index/introducing-deep-research/

立春好時節(jié)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.