99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,OpenAI上線Deep Research!人類終極考試遠超DeepSeek R1

0
分享至

來源:機器之心

一覺醒來,OpenAI 又發(fā)新產(chǎn)品了,這次是面向深度研究領(lǐng)域的智能體產(chǎn)品 ——「Deep Research」。


具體來講,這是一個使用推理來綜合大量在線信息并為用戶完成多步驟研究任務(wù)的智能體,旨在幫助用戶進行深入、復(fù)雜的信息查詢與分析。目前,Pro 用戶現(xiàn)已可用,接下來還將開放給 Plus 和 Team 用戶使用。



有了這個新的智能體,用戶將可以在 ChatGPT 中開啟深度研究,在幾十分鐘內(nèi)完成人類需要數(shù)小時才能完成的工作。

作為 OpenAI 的下一代智能體,Deep Research 可以獨立為用戶工作。用戶給它一個提示,ChatGPT 將查找、分析和綜合數(shù)百個在線資源,以研究分析師的水平創(chuàng)建一份綜合報告。Deep Research 由即將推出的 o3 模型的一個版本提供支持,該模型針對網(wǎng)頁瀏覽和數(shù)據(jù)分析進行了優(yōu)化,它利用推理來搜索、解釋和分析互聯(lián)網(wǎng)上的大量文本、圖像和 PDF,并根據(jù)需要根據(jù)遇到的信息做出調(diào)整。

OpenAI 表示,綜合知識的能力是創(chuàng)造新知識的先決條件。因此,Deep Research 標(biāo)志著 OpenAI 朝著開發(fā) AGI 的更廣泛目標(biāo)邁出了重要一步。OpenAI 長期以來一直設(shè)想 AGI 能夠產(chǎn)生新穎的科學(xué)研究。

從大家的反應(yīng)來看,OpenAI 這次的智能體產(chǎn)品切中了用戶的需求,甚至有人認為這是邁向智能體 AI 的重要里程碑。


OpenAI 的 Deep Research 通過搜索網(wǎng)絡(luò)并將知識綜合成研究論文,這種自主研究標(biāo)志著 AI 進入到了自我發(fā)現(xiàn)新知識的下一步。


圖源:X@tsarnick

構(gòu)建 Deep Research 的目的

Deep Research 是為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識工作并需要徹底、精確和可靠研究的用戶而量身打造的。

同時,Deep Research 對于尋找超個性化推薦的挑剔購物者同樣有用,這些推薦通常需要仔細研究才能購買如汽車、家電和家具。每個輸出都經(jīng)過完整記錄,并附有清晰的引文和思路摘要,以便于引用和驗證信息。同樣地,Deep Research 在查找需要瀏覽大量網(wǎng)站的小眾、非直觀信息方面也特別有效。

總之,Deep Research 讓用戶只需一個查詢即可加快復(fù)雜、耗時的網(wǎng)絡(luò)研究,從而釋放寶貴的時間。

此外,Deep Research 能夠獨立發(fā)現(xiàn)、推理和整合來自網(wǎng)絡(luò)的見解。為了實現(xiàn)這一點,它接受了需要使用瀏覽器和 Python 工具的現(xiàn)實任務(wù)的訓(xùn)練,使用了 OpenAI 第一個推理模型 o1 背后的相同強化學(xué)習(xí)方法。雖然 o1 在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域表現(xiàn)出令人印象深刻的能力,但許多現(xiàn)實世界的挑戰(zhàn)需要從各種在線來源收集廣泛的背景和信息。Deep Research 利用這些推理能力來彌補這一差距,使其能夠解決人們在工作和日常生活中面臨的各類問題。

如何使用 Deep research

在 ChatGPT 中,選擇「message composer」中的 deep research 并輸入查詢。告訴 ChatGPT 你需要什么 —— 無論是關(guān)于流媒體平臺的競爭分析,還是關(guān)于最佳通勤的個性化報告都可以。甚至你也可以附加文件或電子表格,為問題添加上下文。一旦開始運行,側(cè)邊欄將顯示所采取的步驟和使用的來源摘要。

Deep research 可能需要 5 到 30 分鐘的時間來完成其工作,因為它需要深入挖掘網(wǎng)絡(luò)信息。在此期間,用戶可以離開或處理其他任務(wù) —— 任務(wù)完成后你會收到通知。最終結(jié)果將以報告的形式出現(xiàn)在聊天中 —— 在接下來的幾周內(nèi),OpenAI 還將為這些報告添加嵌入的圖像、數(shù)據(jù)可視化和其他分析輸出,以提供更清晰的說明和上下文。

與 deep research 相比,GPT-4o 更適合實時的多模態(tài)對話。對于需要深度和細節(jié)的各個方面、特定領(lǐng)域的查詢,deep research 能夠進行廣泛的探索并引用每個聲明。

下面是一些 GPT-4o 與 deep research 對比。

大海撈針。

詢問 GPT-4o:「前段時間我看過一部電視劇。我忘了名字,但我記得其中一集發(fā)生了什么。你能幫我找到名字嗎?以下是我記得的一集內(nèi)容:

兩個男人玩撲克。一個棄牌,另一個讓他下注。棄牌的人實際上手牌很好,但被騙了。第二手牌,同一個人再次棄牌,但這次手牌很糟糕

請深入瀏覽網(wǎng)頁,找到發(fā)生此事的電視劇集。」

GPT-4o 回答:「根據(jù)您提供的詳細信息,您似乎指的是電視劇《仆人》中的一集。這部劇由 Tony Basgallop 創(chuàng)作,M. Night Shyamalan 擔(dān)任執(zhí)行制片人,于 2019 年在 Apple TV+ 上首播。故事圍繞一對費城夫婦展開,他們在經(jīng)歷了巨大的損失后,雇傭了一名年輕保姆,導(dǎo)致他們家中發(fā)生了一系列令人不安的事件……」

詢問 deep research 同樣的問題,其給出的答案:「您所描述的三個事件都發(fā)生在 Starz 系列劇《Counterpart》第一季第四集,標(biāo)題為 Both Sides Now。在這一集中……」

以下是完整過程:


在上述例子中,deep research 被賦予了一個模糊的查詢,即使對人類來說也很難找到答案,因為沒有關(guān)鍵詞能夠輕易揭示查詢的答案。deep research 能夠以創(chuàng)造性和持久性的方式進行搜索,直到找到一個完全符合條件的結(jié)果。

類似的對比還有通用知識(general knowledge)的查詢:「NFL 球員的平均退休年齡是多少?」


在這個例子中,deep research 提供了需要考慮的組成部分和因素,而不僅僅是一個數(shù)字。它更加全面,提供了清晰的統(tǒng)計背景,使用了支持性的例子,并直接解釋了射門員相對于其他位置球員職業(yè)生涯較長的原因。這種細節(jié)和清晰度使得 deep research 更具信息量,并更直接地回應(yīng)了那些希望了解 NFL 退休年齡趨勢的人的需求。

如何工作

Deep Research 通過端到端的強化學(xué)習(xí)在多個領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上進行了訓(xùn)練。通過這種訓(xùn)練,它學(xué)會了規(guī)劃和執(zhí)行多步驟的軌跡,以找到所需的數(shù)據(jù),并在必要時回溯和實時響應(yīng)信息。

Deep Research 還能夠瀏覽用戶上傳的文件,使用 Python 工具繪制和迭代圖表,在生成的圖表和從網(wǎng)站獲取的圖像中嵌入其響應(yīng),并引用其來源中的特定句子或段落。得益于這種訓(xùn)練,Deep Research 在多個專注于現(xiàn)實世界問題的公開評估中達到了新的高度。

人類終極考試(Humanity’s Last Exam)

對于最近發(fā)布的「人類終極考試」評估,在專家級問題上對廣泛學(xué)科的人工智能進行了測試,支持 Deep Research 的模型以 26.6% 的準(zhǔn)確率創(chuàng)下了新高

這項測試包括 3,000 多個多項選擇題和簡答題,涵蓋了從語言學(xué)到火箭科學(xué)、古典文學(xué)到生態(tài)學(xué)的 100 多個學(xué)科。與 o1 相比,進步最大的是化學(xué)、人文和社會科學(xué)以及數(shù)學(xué)。支持 Deep Research 的模型展示了一種類人方法,可以在必要時有效地尋找專業(yè)信息。


GAIA 基準(zhǔn)測試

在評估人工智能在現(xiàn)實問題上表現(xiàn)的公共基準(zhǔn) GAIA 上,支持 Deep Research 的模型達到了新的 SOTA 水平,位居排行榜榜首。這些任務(wù)涵蓋三個難度級別的問題,成功完成需要具備推理、多模式流暢性、網(wǎng)頁瀏覽和工具使用熟練等能力。


我們來看一個 GAIA 任務(wù)示例:


?專家級別的任務(wù)

在對各個領(lǐng)域?qū)<壹壢蝿?wù)進行的內(nèi)部評估中,領(lǐng)域?qū)<艺J為Deep Research 可以自動完成數(shù)小時的艱難手動調(diào)查


以下兩圖分別為專家級任務(wù)的通過率(按估計經(jīng)濟價值計算)以及專家級任務(wù)的預(yù)計小時數(shù)通過率。



專家級別的任務(wù)示例如下:


ChatGPT 中的 Deep research 目前對計算資源的需求非常高。research 一個查詢所需的時間越長,耗費的推理計算資源就越多。

從現(xiàn)在開始,OpenAI 推出了針對 Pro 用戶優(yōu)化的版本,每月最多可進行 100 次查詢。接下來將會向 Plus 和 Team 用戶開放,隨后是 Enterprise 用戶。

目前,Deep research 功能已在 ChatGPT 網(wǎng)頁版上線,并將在本月內(nèi)逐步推廣到移動和桌面應(yīng)用程序。目前,Deep research 可以訪問開放的互聯(lián)網(wǎng)以及任何上傳的文件。未來,將能夠連接到更多專業(yè)的數(shù)據(jù)源。

現(xiàn)在看來,Deep research 能夠進行異步的在線查找,而 Operator 則能夠在現(xiàn)實世界中采取行動,兩者的結(jié)合將使 ChatGPT 能夠為用戶執(zhí)行越來越復(fù)雜的任務(wù)。

不過,值得一提的是,Deep research 目前仍處于早期階段,并且存在局限性。根據(jù)內(nèi)部評估,它有時會在響應(yīng)中產(chǎn)生幻覺或做出錯誤推斷,但發(fā)生率明顯低于現(xiàn)有的 ChatGPT 模型,它可能難以區(qū)分權(quán)威信息和謠言。在發(fā)布之際,Deep research 報告和引文中可能會出現(xiàn)輕微的格式錯誤,任務(wù)可能需要更長時間才能啟動。所有這些問題都會隨著使用和時間的推移而迅速改善。

博客地址:https://openai.com/index/introducing-deep-research/

立春好時節(jié)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
詹皇38+10仍輸球!東契奇真不防,華子統(tǒng)治關(guān)鍵時刻,狼隊3人20+

詹皇38+10仍輸球!東契奇真不防,華子統(tǒng)治關(guān)鍵時刻,狼隊3人20+

你的籃球頻道
2025-04-26 12:31:18
高曉松和華誼總裁王中磊罕見同框!56歲高曉松又胖了,眼里沒了光

高曉松和華誼總裁王中磊罕見同框!56歲高曉松又胖了,眼里沒了光

娛圈小愚
2025-04-26 09:30:23
云南魯?shù)榭h一河灘突然漲水致4死,有人在救人過程中遇難

云南魯?shù)榭h一河灘突然漲水致4死,有人在救人過程中遇難

澎湃新聞
2025-04-25 22:32:31
金晨身上有多處紋身,作為公眾人物在形象展示上還是有點不妥吧?

金晨身上有多處紋身,作為公眾人物在形象展示上還是有點不妥吧?

喜歡歷史的阿繁
2025-04-26 00:37:57
坦白了?特朗普:“24小時內(nèi)”結(jié)束俄烏沖突是“開玩笑”的夸張說法

坦白了?特朗普:“24小時內(nèi)”結(jié)束俄烏沖突是“開玩笑”的夸張說法

環(huán)球網(wǎng)資訊
2025-04-26 09:51:38
凡爾賽?蘭姆:凱文-馬丁曾經(jīng)故意不得分 來避免自己被選進全明星

凡爾賽?蘭姆:凱文-馬丁曾經(jīng)故意不得分 來避免自己被選進全明星

直播吧
2025-04-25 20:42:13
訂婚強奸案:鐵證如山依然喊冤,背后是對法律與生理學(xué)的無知

訂婚強奸案:鐵證如山依然喊冤,背后是對法律與生理學(xué)的無知

讀鬼筆記
2025-04-24 20:43:03
江西大學(xué)留學(xué)生群毆中國學(xué)生:言詞侮辱、氣焰囂張,還看不起中文

江西大學(xué)留學(xué)生群毆中國學(xué)生:言詞侮辱、氣焰囂張,還看不起中文

逍遙史記
2025-04-26 09:52:26
華為這個賣559元的1TB新品,把全網(wǎng)友都看傻了

華為這個賣559元的1TB新品,把全網(wǎng)友都看傻了

鋒潮評測
2025-04-24 18:37:04
瑾汐認親后續(xù)親爸親媽的家族太強大根本認不完,養(yǎng)家哥哥身份曝光

瑾汐認親后續(xù)親爸親媽的家族太強大根本認不完,養(yǎng)家哥哥身份曝光

振華觀史
2025-04-26 12:52:20
70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現(xiàn)京城神秘大佬!

70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現(xiàn)京城神秘大佬!

牛鍋巴小釩
2025-04-24 11:39:45
男生18cm有啥壞處?妹子現(xiàn)場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現(xiàn)場演示長短對比太生動,看完動圖秒懂哈哈

經(jīng)典段子
2025-04-14 23:34:48
老板娘撩28歲小伙,小伙趁機親吻,網(wǎng)友:眼神就是今后出軌的證明

老板娘撩28歲小伙,小伙趁機親吻,網(wǎng)友:眼神就是今后出軌的證明

農(nóng)村情感故事
2025-04-23 17:49:24
足球報:玉昆主帥安德森用言語回擊比賽官員,最終被禁賽3場

足球報:玉昆主帥安德森用言語回擊比賽官員,最終被禁賽3場

懂球帝
2025-04-26 11:37:08
二十年,蘋果在中國打造了世界領(lǐng)先的生產(chǎn)線;如今即將轉(zhuǎn)移至印度

二十年,蘋果在中國打造了世界領(lǐng)先的生產(chǎn)線;如今即將轉(zhuǎn)移至印度

凡人學(xué)電腦
2025-04-26 00:00:37
肇慶發(fā)現(xiàn)中華穿山甲,體格健壯,在四處嗅探,曾經(jīng)消失了36年

肇慶發(fā)現(xiàn)中華穿山甲,體格健壯,在四處嗅探,曾經(jīng)消失了36年

觀察鑒娛
2025-04-26 09:05:03
2024年浙江公安查辦侵犯知識產(chǎn)權(quán)案件1923起 同比增長63.0%

2024年浙江公安查辦侵犯知識產(chǎn)權(quán)案件1923起 同比增長63.0%

環(huán)球網(wǎng)資訊
2025-04-25 23:28:19
鄒市明兒子打生長針5個月長高4.1cm,專家:他的靶身高可能172cm

鄒市明兒子打生長針5個月長高4.1cm,專家:他的靶身高可能172cm

直播吧
2025-04-25 08:53:33
江西外籍學(xué)生打人后續(xù):施暴者身份被扒,已被拘留,中國學(xué)生毀容

江西外籍學(xué)生打人后續(xù):施暴者身份被扒,已被拘留,中國學(xué)生毀容

三農(nóng)老歷
2025-04-26 11:58:18
43歲謝娜回四川老家,和父母一起出現(xiàn),打扮低調(diào),獲村民隆重歡迎

43歲謝娜回四川老家,和父母一起出現(xiàn),打扮低調(diào),獲村民隆重歡迎

鑫鑫說說
2025-04-26 13:22:49
2025-04-26 15:32:49
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
258文章數(shù) 125關(guān)注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

本地
家居
手機
房產(chǎn)
公開課

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

手機要聞

CounterPoint 報告 2024 全球手機攝像頭出貨量:索尼領(lǐng)銜

房產(chǎn)要聞

逆勢大幅漲價!最高2.8萬/平!長天雲(yún)汀開盤又賣爆了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 海兴县| 丰镇市| 关岭| 信丰县| 三台县| 湄潭县| 寻甸| 新闻| 伊春市| 简阳市| 博乐市| 双城市| 霞浦县| 东源县| 高碑店市| 靖安县| 京山县| 沁源县| 新建县| 元阳县| 庆阳市| 新竹县| 观塘区| 伊通| 临泽县| 英吉沙县| 霍州市| 页游| 延边| 南溪县| 芦山县| 襄樊市| 黎川县| 洞头县| 阜新市| 武清区| 囊谦县| 大荔县| 遂溪县| 云南省| 夏津县|