「一切都由模型驅使」聽上去像是遙遠的 AGI 才會實現的事,但現在已經在 Deep Research 中可以見到。
現在,OpenAI 開放了 Deep Research 的使用,除了尊貴的 Pro 用戶,其他付費用戶也可以體驗了。
這個開放時間稱得上微妙:從 Gemini 到 Perplexity,以及剛推出不久的 Grok 3,都有自己的 Deep (Re)search 模式。別說產品功能了,連名字都撞得一模一樣。
來自 Deep Research 研發團隊的兩位負責人,做客紅杉投資的播客,分享了在他們的研發經歷,產品背后的設計思考,如果面對業界挑戰,以及更重要的 Deep Research 這個業務所描繪的藍圖:幫助每一個人探究自己的好奇心,完成自己的課題。
以下為訪談實錄,有所編譯及刪減。
Lauren Reeder:那么我們先來 了解一下什么是深度研究吧。 請給我們講講它的起源故事以及這款產品的作用。
Isa Fulford:Deep Research 是一個能夠搜索許多在線網站的 agent,它可以創建非常全面的報告。它可以完成人類需要花費數小時才能完成的任務。
它位于 ChatGPT 中,只需五到三十分鐘即可回答您。因此,與常規 ChatGPT 響應相比,它能夠進行更深入的研究,并以更詳細和更具體的來源回答您的問題。
這是我們發布的第一批 agent 之一。我們最近也發布了 Operator。Deep Research 是第二個 agent,未來我們會發布更多 agent。
Sonya Huang:深度研究的起源故事是什么?您什么時候選擇做這件事的?靈感是什么?有多少人參與其中?
Josh Tobin:好問題。這比我的任期要早。
Isa Fulford:啊對。我想大概是在一年前,我們在內部看到了一種新的推理范式和訓練模型,在做出反應之前思考的諸多成功案例。
我們主要關注數學和科學領域,但我認為這種新的推理模型機制所釋放的能量,是能夠完成涉及 agent 能力的更長遠的任務。
許多人所從事的任務,需要大量的在線研究或大量的外部調研,這涉及推理和對來源的區分。你必須非常有創造力才能做這些事情。
我們終于有了模型,或者說訓練模型的方法,可以讓我們能夠解決其中一些任務。所以我們決定嘗試開始訓練模型來執行第一個瀏覽任務。
Sonya Huang:這是你的主意嗎?Josh,你是怎么參與進來的?
Isa Fulford:是的,一開始是我和 Yash Patil,他是 OpenAI 的一名員工,正在開發一個類似的項目,將在某個時候發布,我們對此感到非常興奮。
我們制作了一個原始演示。然后還有 Thomas Dimson,他是一位了不起的工程師,他會深入研究任何事情并完成大量工作。所以這很有趣。
Josh Tobin:是的。我最近才加入。大約六個月前,我從我的初創公司重新加入了 OpenAI。我早期在 OpenAI 工作,重新加入時正在四處尋找項目,并對一些 agent 工作非常感興趣,包括這個項目,并參與其中。
Lauren Reeder:太棒了,跟我們講講你為誰建造的這個產品吧。
Josh Tobin:好,我覺得它真的適合所有從事知識工作的人,作為他們日常工作的一部分或他們生活的一部分。我們看到很多用戶使用它來工作,做諸如研究之類的事情,作為他們工作的一部分,了解市場、公司、房地產……
Isa Fulford:很多科學研究,醫學研究。我想我們也看到了很多醫學案例。
Josh Tobin:是的。我們真正興奮的事情之一就是這種協作方式,比如,我只需要出去花很少時間做一些事情。你知道,平時我必須做大量的網絡搜索并整理大量信息,這不僅僅是工作,而且對購物和旅行也很有用。
Isa Fulford:所以我們對 Plus 的推出感到非常興奮,這樣更多的人將能夠嘗試深度研究,也許我們還會看到一些新的用例。
Lauren Reeder:很好。這絕對是過去幾周我用得最多的產品之一。效果太棒了。
Isa Fulford:聽到這個消息我很高興。
Josh Tobin:你用它工作嗎?
Lauren Reeder:當然是為了工作。也是為了好玩。
Sonya Huang:你用它做什么?
Lauren Reeder:對我來說?我當時想買一輛新車,想知道這款車的下一款車型什么時候發布。而且有很多推測性的博客文章。所以我問 Deep Research,你能否分析一下關于這款車的所有八卦,以及他們做過的所有事——這家汽車制造商以前做過什么。
它整理了一份很棒的報告,告訴我可能要等幾個月,但今年,比如說,在接下來的幾個月里,它應該會問世。
Josh Tobin:是的。它的一個很酷的功能是,它不僅可以廣泛收集有關某個來源的所有信息,而且還擅長在互聯網上查找非常晦澀難懂、奇怪的事實。
比如,如果你想知道某個非常具體的東西,而它可能不會出現在搜索結果的第一頁,那么它在這方面也很擅長,很酷。
Lauren Reeder:您見過哪些令人驚訝的用例?
Isa Fulford:我想最讓我驚訝的是有這么多人用它來編程。
Josh Tobin:是的。
Isa Fulford:這實際上不是我考慮過的用例,但我在 Twitter 上和各種地方看到很多人使用它進行編碼和代碼搜索,以及查找有關某個庫或其他東西的最新文檔并幫助他們編寫腳本等。
Josh Tobin:是的,我有點尷尬,我們沒有想到這是一個用例。
Isa Fulford:(笑)是的。
Josh Tobin:對于 ChatGPT 用戶來說,這似乎很明顯,但我知道,它的效果令人印象深刻。
Sonya Huang:您認為商業用例與個人用例之間的平衡,將如何隨著時間的推移而變化?例如,您提到了即將推出的 Plus。一年或兩年后,您認為這將主要是商業工具還是消費者工具?
Isa Fulford:我希望兩者兼而有之。我認為這是一種相當普遍的能力,而且我認為這是我們在工作和個人生活中都會做的事情。所以希望兩者兼而有之。
Josh Tobin:是的,我對兩者都很感興趣。我認為它的神奇之處在于,它能為人們節省大量時間。如果有些事情可能需要幾個小時——甚至在某些情況下,我們聽說,幾天——人們只需把它放在這里自行工作,就能得到他們自己能想到的 90% 的結果。
我傾向于認為,在商業領域,這樣的任務比在個人生活中要多。 但我的意思是,它肯定會成為人們生活的一部分。
Lauren Reeder:它確實成為了我使用 ChatGPT 的主要方式。我總是選擇深度研究,而不是常規研究。
Isa Fulford:真的嗎?
Josh Tobin:你很有耐心。
Lauren Reeder:顯然如此。
Lauren Reeder:那么從消費者使用案例來看,您看到了什么?您對什么感到興奮?
Isa Fulford:我認為有很多購物和旅行建議是很有意思的。我個人經常使用這個模型。幾個月來我一直在用它做這類事情。我們在日本推出了 Deep Research,所以它對尋找有非常具體要求的餐廳,以及發現我不一定能找到的東西非常有幫助。
Josh Tobin:是的。我發現,當你想購買一件昂貴的東西,或者你在計劃一次特別的旅行,或者你想花很多時間考慮什么,對我來說,我可能會花上幾個小時,試圖在網上閱讀關于我有興趣購買的這款產品的所有信息,瀏覽所有的評論和論壇等。
深度研究可以非常快速地匯總類似的東西。所以它對這類事務非常有用。
Isa Fulford:這次的模型在遵循指令方面也非常出色。因此,如果您的查詢包含許多不同部分或許多不同問題,例如,如果您想要有關產品的信息,但還想和所有其他不同的產品進行比較,或者還想要在 Reddit 上的評論或類似的東西,都可以提出大量不同的要求,它會為你完成所有這些要求。
Josh Tobin:沒錯。 另一個技巧是格式化為表格。它通常會有回答,但有一個表格的話,其中包含大量引用和諸如此類的內容,用于您想要研究的所有類別,確實很有幫助。
Isa Fulford:是的。還有一些功能希望在某個時候能夠融入產品中,但模型能夠——底層模型能夠嵌入圖像,以便找到產品的圖像。而且——這不是消費者用例,但它也能夠創建圖表,然后將其嵌入到響應中。所以希望這也能很快出現在 ChatGPT 中。
Sonya Huang:書呆子消費者用例(笑)。
Josh Tobin:是的。說到書呆子消費者用例,個性化教育也是一個非常有趣的用例。例如,如果你一直想了解某個主題,比如你需要復習生物學知識,或者你想了解一些世界大事, 它非常擅長將所有你覺得不理解的信息匯總起來,然后你想讓它對哪些方面進行研究,它就會為你整理出一份很好的報告。
Isa Fulford:我有一個朋友正在考慮創辦一家公司,他經常用它來尋找類似的信息,看看特定名稱是否已被占用——域名是否已被占用,市場規模如何,等等,所有這些不同的東西。很有趣——他會和我分享報告,我也會看,看到這些很有趣。
Josh Tobin:另一個有趣的用例是,它非常擅長 在互聯網上查找單個鮮為人知的事實。例如,如果有一個鮮為人知的電視節目或某個東西,您想找到其中的某一集或類似的東西,它會深入搜索并在網絡上找到對它的一個引用。
Isa Fulford:哦,是的。我哥哥的朋友的父親有一個非常具體的事實。這是關于一位奧地利將軍在某場戰斗中掌權——某人在戰斗中死亡是一個非常小眾的問題。
顯然 ChatGPT 之前回答錯了,他非常確定那是錯的。所以他去了公共圖書館,找到了一條記錄,發現那是錯的。然后 Deep Research 能夠糾正它,所以我們把它發給了他,他很興奮。
Sonya Huang:當今深度研究的優勢是什么?思維模型是什么?人們應該在哪里使用 o 系列模型?他們應該在哪里使用深度研究?
Josh Tobin:深度研究真正擅長的是這種情況: 如果你對自己想要的東西有某種詳細的描述,為了得到最好的答案,它需要閱讀大量的互聯網資料。如果你的問題比較模糊,它會幫助你明確你想要什么。當你在尋找一組特定的信息時,它真的發揮了最大的作用。
Isa Fulford:我認為它非常擅長綜合所遇到的信息,非常擅長尋找特定的、難以找到的信息,但可能不太擅長——我猜它可以根據所遇到的信息得出一些新見解,但我認為它還沒有做出新的科學發現。
然后我認為使用 o 系列模型,如果我要求與編碼有關的任務,通常是不會超過預訓練中已經包含知識范圍。所以我會使用 o1 Pro 或 o1 進行編碼或 o3-mini high。
端到端訓練
Lauren Reeder:深度研究可以說是 OpenAI 一些新產品方向的絕佳范例。我很好奇,您能否分享一下它是如何運作的?
Isa Fulford:支持 Deep Research 的模型是 o3 的微調版本,這是我們最先進的推理模型。我們專門針對收集到的困難瀏覽任務以及其他推理任務對其進行了訓練。因此,它還可以訪問瀏覽工具和 Python。通過對這些任務進行端到端的訓練,它學會了解決這些任務的策略,并且由此產生的模型擅長在線搜索和分析。
Josh Tobin:直觀地來說,你可以這樣想:你提出這樣的請求,最好是詳細地說明你想要什么。 模型會認真思考,搜索信息,提取信息并閱讀,了解信息與請求的關系,然后決定下一步要搜索什么,以便更接近你想要的最終答案。模型經過訓練,可以很好地將所有信息匯總成一份整潔的報告,并引用指向它找到的原始信息。
Isa Fulford:是的,我認為深度研究作為一種 agent 能力的新穎之處在于,由于我們有能力進行端到端的訓練,因此在研究過程中有很多事情你無法提前預測。
我認為不可能編寫某種語言模型、程序或腳本,使其具有等同于模型通過訓練學習到的靈活性。 模型實際上是對實時網絡信息做出反應,并根據它所看到的內容做出改變策略等。
我們實際上看到它在進行非常有創意的搜索。您可以閱讀思路鏈摘要,我相信您有時會發現它非常聰明,可以想出下一個要尋找或繞過的東西。
Sonya Huang:John Collison 發了一條推文,引起了廣泛關注。深度研究的魔力有多少是實時訪問網絡內容,又有多少是思維鏈的魔力?您能解釋一下嗎?
Isa Fulford:我認為這肯定是一種組合。我認為你可以看到這一點,因為其他搜索產品不一定經過端到端的訓練,因此在響應遇到的信息時不會那么靈活,在解決特定問題方面也不會那么有創意,因為它們沒有為此目的進行過專門的訓練。所以這肯定是一種組合。
我的意思是,它是 o3 的微調版本。o3 是一個非常智能和強大的模型。許多分析能力也來自底層 o3 模型訓練。所以我認為這肯定是一種組合。
Josh Tobin:在加入 OpenAI 之前,我在一家初創公司工作,我們當時正在嘗試構建 agent,就像我看到大多數人在互聯網上描述構建 agent 的方式一樣, 本質上就是構建一個操作圖,圖中的某些節點是語言模型。因此,語言模型可以決定下一步做什么,但發生的步驟順序的總體邏輯是由人定義的。
我們發現,這雖然是一種構建事物以快速獲得原型的強大方法,但它在現實世界中很快就會失敗,因為很難預測模型可能面臨的所有場景,也很難考慮你可能想要采取的所有不同分支路徑。
除此之外,這些模型通常不是該圖中節點的最佳決策者,因為它們沒有接受過做出這些決策的訓練。它們被訓練去做類似的事情。所以我認為這個模型真正強大的地方在于它直接進行端到端訓練,以解決用戶使用它來解決的各種任務。
Lauren Reeder:所以您不必設置圖表或在后端架構上做出那些類似節點的決策?
Isa Fulford:這一切都是 由模型本身驅動的。
Josh Tobin:是的。
Sonya Huang:您能詳細談談嗎?因為這似乎是您做出的非常有主見的決定之一,而且顯然它奏效了。有很多公司都在使用您的 API,這促使他們為特定用戶解決特定任務。您是否認為,如果為這些應用程序的特定工作流程提供端到端的訓練模型,它們會得到更好的服務?
Isa Fulford:我認為,如果你有一個非常具體、非常可預測的工作流程,那么做 Josh 描述的事情就很有意義。但是,如果你有的東西有很多極端情況,或者需要相當靈活,那么我認為類似于深度研究的東西可能是一種更好的方法。
Josh Tobin:是的,我認為我給人們的指導是,你不想把一些硬性規定融入到模型中。如果你有一個數據庫,你不想讓模型接觸它,或者類似的東西,最好用人類編寫的邏輯來編碼它。
但我認為這就像我在這個領域看到人們一遍又一遍地重復的一個教訓:我們以為我們可以通過自己編寫代碼來做比模型更聰明的事情。但實際上, 通常情況下,隨著領域的發展,模型會比人類提出更好的解決方案。
而且,你知道,機器學習最重要的教訓可能是得到你優化的東西。因此,如果你能夠設置系統,以便直接優化你想要的結果,那么結果將比你試圖將沒有針對你意圖就讓它們執行的任務進行端到端優化的模型粘合在一起要好得多。我認為強化學習,在模型之上進行調整,可能是構建最強大 agent 的關鍵部分。
Sonya Huang:實現這一目標的過程中最大的技術挑戰是什么?
Josh Tobin:好吧,我的意思是,也許我可以說,作為一個觀察者,而不是從一開始就參與其中的人,但這似乎是 Isa 和團隊其他成員非常非常努力的事情之一,也是成功的秘訣之一,就是 制作真正高質量的數據集。
這是機器學習中另一個人們不斷重新學習的古老課程。但你輸入模型的數據質量,可能是你在另一端獲得的模型質量的最大決定因素。
Isa Fulford:然后還有像愛德華·孫這樣的人,他是負責這個項目的另一位工作人員,他會優化所有數據集,這是成功的秘訣。
Lauren Reeder:找到你的愛德華。
Josh Tobin:很棒的機器學習模型訓練。
Lauren Reeder:你如何確保它是正確的?
Isa Fulford:是的,這顯然是這個模型和產品的核心部分,我們希望它能夠讓用戶信任輸出。因此,其中一部分是我們有引文,因此用戶能夠看到模型從哪里引用了其信息。
在訓練過程中,我們實際上會嘗試確保它是正確的,但模型仍然有可能犯錯或產生幻覺,或信任可能不是最值得信賴的信息來源。因此,這絕對是我們希望繼續改進模型的一個活躍領域。
Sonya Huang:我們應該如何將 o3、Operator 和其他不同版本結合起來考慮?比如,這個是否使用了 Operator?它們都是相互構建的,還是都是 o3 的一系列不同應用程序?
Josh Tobin:今天,這些功能還很不連貫,但你可以想象一下我們的發展方向, 即未來某個時候人們能夠使用的終極 agent 不僅能夠進行網頁搜索或使用計算機,或者進行你希望人類助手執行的任何其他類型的操作,還應該能夠以更自然的方式融合所有這些東西。
Sonya Huang:您還做出過哪些乍一看可能不太明顯的設計決定嗎?
Isa Fulford:我認為其中之一就是澄清流程。因此,如果您使用過 Deep Research,該模型會在開始研究之前向您提問,而 ChatGPT 通常會在響應結束時向您提問,但通常不會在前面出現這種行為。
這是有意為之,因為如果提示非常明確和詳細,您將從 Deep Research 模型中獲得最佳響應。 我認為在第一個提示中提供所有信息,不是用戶的自然行為,因此我們希望確保如果您要等待五分鐘或三十分鐘,您的回答也同樣詳細和令人滿意。因此,我們添加了這些額外步驟,以確保用戶提供我們需要的所有詳細信息。
實際上,我在 Twitter 上看到很多人說他們有這樣的流程,他們會與 o1 或 o1 Pro 交談,以幫助使他們的提示更加詳細,然后一旦他們對提示感到滿意,他們就會將其發送給 Deep Research。這很有趣。所以人們正在尋找自己的工作流程來使用它。
Lauren Reeder:過去幾個月,我們已經看到了三種不同的 Deep Research 產品。請告訴我們你們的特別之處以及我們應該如何看待它。
Sonya Huang:它們都被稱為深度研究,對嗎?
Josh Tobin:它們都被稱為深度研究。是的,這個領域的命名創意并不多。我認為人們應該親自嘗試所有這些產品并感受一下。我認為它們都有優點和缺點,但我認為差異會很明顯。
歸根結底,這只是這個模型的構建方式和構建數據集所付出的努力,然后是我們在 o 系列模型中使用的引擎,這使我們能夠優化模型,從而制造出真正智能、質量真正高的東西。
Sonya Huang:去年我們在播客上邀請了 o1 團隊,我們開玩笑說 OpenAI 不太擅長命名。我會說這是你們命名最好的產品(笑)。
Josh Tobin:我想至少描述了它的作用。
下一步該去哪兒?
Lauren Reeder:我很好奇,想聽聽您接下來的計劃。今天我們有了深度研究,您認為一年后它會是什么樣子?在此過程中,您可能想建立哪些互補的東西?
Isa Fulford:我們很高興能夠擴展模型可以訪問的數據源。我們已經訓練了一個模型,它通常非常擅長瀏覽公共信息,但 它也應該能夠搜索私人數據。然后我認為只需進一步推動這些功能。可以更好地瀏覽,它可以更好地分析。是的,我認為短期內這些都是我們想要改進的地方。
Josh Tobin:是的。然后思考如何更廣泛地將其融入我們的 agent 路線圖。比如,我認為這里的配方可以擴展到相當廣泛的用例,它們的效果會讓人們感到驚訝。
但是,這個想法是采用最先進的推理模型,讓它能夠使用人類可以用來完成工作或日常生活的相同工具,然后直接針對您希望 agent 能夠完成的結果類型進行優化。這樣一來,實際上沒有什么可以阻止它擴展到越來越復雜的任務, 所以我覺得 AGI 現在是一個操作問題。我認為,是的,這個通用公式中還有很多東西。
Lauren Reeder:薩姆說過一句非常引人注目的話:深度研究將占到世界上所有經濟上可行的任務和有價值的任務的百分之幾。我們應該如何看待這一點?
Josh Tobin:我認為, 深度研究無法完成你所做的所有工作,但它可以為你節省數小時,有時在某些情況下是數天。所以我認為,我們希望相對接近的是深度研究和我們接下來構建的 agent 以及我們在此基礎上構建的 agent,根據你所做的工作類型,為你節省 1%、5%、10% 或 25% 的時間。
Sonya Huang:我的意思是,我認為你已經將我所做的 80% 的工作自動化了,所以……
Lauren Reeder:(笑)對我來說絕對是比較高端的。
Josh Tobin:我想,我們只需要開始寫支票。
Sonya Huang:您認為是否有整個工作類別更——風險這個詞不太恰當,但更適合深度研究擅長的領域?例如,我想到的是咨詢,但您認為是否有特定的類別更適合深度研究?
Josh Tobin:其實我以前做過顧問。 我認為沒有任何工作面臨風險,我根本不認為這是勞動力替代之類的事情。但對于這類知識型工作,比如,你花了很多時間查看信息并得出結論,我認為這會賦予人們超能力。
Isa Fulford:是的,我對很多醫療用例感到非常興奮。只要能夠找到針對某種疾病的所有文獻或所有近期病例。
我已經看到很多醫生發布關于此內容的帖子,或者他們聯系我們說:「哦,我們用它來做這件事。我們用它來幫助為這位患者找到臨床試驗」,或諸如此類的話。
對于那些已經很忙的人來說,只需節省一些時間,那恰恰可能是他們沒有時間做的事情,現在他們就可以獲得這些信息。
Josh Tobin:是的。我認為這一舉措的影響可能比表面上看起來的要深遠一些,對吧?這不僅僅是節省了 5% 的時間,而是你原本需要花 4 個小時或 8 個小時才能完成的事情,現在你只需訂閱 ChatGPT 并花 5 分鐘就可以完成。
那么,如果你有無限的時間,你會做什么事情呢?現在你可能會做很多很多份這樣的事情?那么,你知道嗎,你是否應該對每一家你可以投資的初創企業進行研究,而不是只研究那些你有時間去見的初創企業?諸如此類。
Sonya Huang:或者從消費者角度來說,我想到的一件事是,比如那些在職媽媽們都太忙了,沒時間為她的孩子策劃生日派對。現在,這是可行的。所以我同意你的觀點。這比你 5% 的時間重要得多。
Josh Tobin:是的。
Lauren Reeder:這些都是你以前無法做到的事情。
Isa Fulford:確實如此。
Sonya Huang:這對教育和我們的學習方式有什么改變?現在我們身處一個由智能體和深度研究組成的世界,你會教給孩子什么?
Josh Tobin:教育是人們使用它的幾個主要用途之一。我認為這是——我的意思是,這對于 ChatGPT 來說通常是正確的。
這就像通過與人工智能系統交談來學習東西,該系統能夠根據你告訴它的內容個性化它給你的信息,或者也許在未來它對你的了解會讓你覺得這是一種比閱讀教科書更有效、更有吸引力的學習方式。
我們正在招募伙伴
簡歷投遞郵箱
hr@ifanr.com
?? 郵件標題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.