(關(guān)注公眾號設為標,獲取AI深度洞察)
全文 9,000字 | 閱讀約48分鐘
近日,紅杉資本采訪了谷歌Labs副總裁Josh Woodward,就AI產(chǎn)品創(chuàng)新與發(fā)展進行了一場深度對話。作為谷歌創(chuàng)新孵化器的領導者,Woodward分享了前沿AI技術(shù)的最新進展以及從0到1打造AI產(chǎn)品的關(guān)鍵經(jīng)驗。
在這個AI技術(shù)快速迭代的時代,他的觀點為創(chuàng)業(yè)者和產(chǎn)品設計者提供了寶貴的參考。"提示詞已經(jīng)是老派做法了"——當Woodward提出這個觀點時,展示了AI交互方式正在經(jīng)歷的根本性變革。他指出,目前AI產(chǎn)品開發(fā)者常見的一個"坑"是過度聚焦于聊天界面,"感覺到處都是Chatbot,谷歌也不例外。還有就是很多產(chǎn)品在想辦法'硬塞'AI進去。"這種簡單地給現(xiàn)有產(chǎn)品強行添加AI功能的做法,Woodward認為缺乏深度思考。
另一個創(chuàng)新"坑"則是錯誤評估技術(shù)成熟度與成本曲線。"現(xiàn)在用Vo生成一個8秒視頻,成本可能非??鋸垼?Woodward坦言,"但我們在打造的產(chǎn)品形態(tài),正是面向未來的低成本時代。"他強調(diào)產(chǎn)品一定要和"模型更智能、成本更低、速度更快"這些趨勢緊密對齊,才能順勢而為,實現(xiàn)價值的指數(shù)級增長。
文稿整理
主持人:今天我們非常高興邀請到來自 Google Labs 的 Josh Woodward。首先,Josh,非常感謝你今天抽空和我以及 Sonya 一起交流。我們迫不及待想聽聽你在 Google Labs 所做的所有事情。也許先從你提到的那個頗具挑釁意味的話題開始——“寫提示詞是老派做法”。你究竟是什么意思呢?
Josh Woodward:好的,謝謝你們邀請我來。我確實認為提示詞已經(jīng)過時了。我們回頭再看現(xiàn)在的用戶端體驗,恐怕會說:“天哪,我們當初居然要在這個小框里輸入一大段提示詞?!痹谖铱磥?,這件事情已經(jīng)出現(xiàn)了一些分化。一方面,對于開發(fā)者或 AI 工程師來說,你應該看看我們現(xiàn)在在 Labs 里寫的那些提示詞,都是那種美輪美奐的多頁提示,非常復雜。但對于普通終端用戶來說,他們可沒空寫這么多,還得具備某種“馴獸師”的能力,才能激發(fā)出模型的潛力。所以我們更傾向于看到有很多需求在涌現(xiàn),比如說把自己的資產(chǎn)——文檔、PDF 或者圖像——直接拖進來,或者把不同的東西組合起來,代替那種寫滿一大段文字提示的方式。我認為最終會形成兩條路:
工程師、研究者和 AI 開發(fā)人員還會繼續(xù)寫那些冗長的提示;
而更多普通用戶,其實已經(jīng)處在這種變革的過程中,他們很快就會脫離大段提示文本。所以,上下文依然很重要,但它的形式正在迅速改變,也許是用圖片,也許是用語音,或者直接說“請看這些文檔”。模型需要上下文,但我們正投入很多精力,讓上下文的提供方式發(fā)生巨大轉(zhuǎn)變。
主持人:我很喜歡你說的這種“上下文形式會改變”。你提到提示詞正在變得老派,其實核心仍然是給模型提供信息,只是方式可能是上傳圖片或文檔,或者其他更直觀的交互。我們今天會深入討論提示詞的未來,以及多模態(tài)模型。在深入之前,你能不能再跟我們簡單介紹一下什么是 Google Labs?它的使命是什么?你在谷歌內(nèi)部所處的位置又是怎樣的呢?
Josh Woodward:好的。也許有些人聽說過之前的 Google Labs,那在很久以前就已經(jīng)停止了,然后大約三年前又重新啟動了。我們現(xiàn)在的 Google Labs 是一支由各類“創(chuàng)造者”組成的團隊,目標是構(gòu)建人們真正喜愛的 AI 新產(chǎn)品。這些產(chǎn)品可能是面向消費者的、B 端的、也可能是開發(fā)者工具,都是從 0 到 1 的項目。在這里,你會看到非常多元化的成員:有在谷歌工作多年的資深人士,也有很多初創(chuàng)企業(yè)的創(chuàng)始人或前創(chuàng)始人。我們把這些人聚在一起,讓他們?nèi)ニ伎寄硞€領域的未來是什么樣子,比如未來的創(chuàng)意工具、未來的軟件開發(fā)方式、未來的娛樂行業(yè)等等,然后他們就以小團隊模式去構(gòu)思、去搭建、去快速推出產(chǎn)品。在組織架構(gòu)上,我們的確是獨立于谷歌那幾個龐大的產(chǎn)品部門,但依然與它們保持密切協(xié)作。因為我們也會去和搜索、Chrome 等大團隊聯(lián)動,但 Labs 這邊有一種獨特的靈活性和探索空間,可以嘗試更具顛覆性的想法。說到底,我們希望招募和匯聚特別富有創(chuàng)造力、對自己有要求、有點“弱者逆襲”精神、在某些領域有“野路子”本領的人。我們內(nèi)部有一份“Labs 簡介”文檔,我最喜歡的部分就是里面那一條:“什么樣的人能在 Labs 茁壯成長”,列表里面大概有十六七條特質(zhì)。這些特質(zhì)幫助我們建立起想要的團隊文化。當然,在這樣的文化中,你必須接受失敗的可能,也要在晉升、薪酬、項目指標等很多方面采取與常規(guī)部門不同的機制。
主持人:你提到 DeepMind 那邊的聯(lián)系很有意思。那在 Labs 內(nèi)部,你們覺得理想的產(chǎn)品創(chuàng)造者的畫像是什么樣?是具備研究背景的人,還是有成功消費級產(chǎn)品經(jīng)驗的人?或者說,你們會尋找那種既熟悉研究又能做產(chǎn)品的“獨角獸”型人才?
Josh Woodward:我們非常歡迎所謂的“獨角獸”,而且我們確實也找到了一些。他們往往對深度模型有深入理解,同時也擁有一套產(chǎn)品敏銳度,這樣就能兼顧研究和落地。我們也會努力培養(yǎng)或打造這樣的人才梯隊——在篩選簡歷時,不僅看學歷、背景,也會看他們 GitHub 的貢獻歷史等各種信號,因為我們相信人才可能來自各個角落。 另外,我們會問自己:“那些沒有被充分挖掘、目前看來不顯山不露水,但其實很有潛力的人在哪里?”我們喜歡去發(fā)掘這種潛力股。所以我們團隊也是既有很強的研究基因,又有很強的產(chǎn)品實施能力。
主持人:那你們是怎么決定下一個項目做什么的?是自上而下,還是自下而上?
Josh Woodward:有點混合吧。從自上而下的角度,我們會觀察對谷歌而言有戰(zhàn)略意義的領域,比如軟件開發(fā)。谷歌內(nèi)部有數(shù)萬名工程師,這顯然是一個 AI 可以產(chǎn)生巨大影響的領域,所以我們會說:“好,未來的軟件開發(fā)大概會走向哪里?既可以幫內(nèi)部谷歌人,也可以對外提供解決方案?!边@就像“我們要挑哪片池塘來釣魚”。我們有一個小組會想好這些“池塘”的選擇。 然后再讓項目組自己去深入了解用戶痛點,找到最該解決的具體問題。很多時候這些小團隊只有四五個人,他們一開始可能只是說“讓我們先服務好 1 個用戶或1個痛點”。和谷歌其它那些動輒上億、十億用戶級別的產(chǎn)品相比,我們這兒的規(guī)模很小。但我覺得這跟很多初創(chuàng)公司很像。 此外,因為我們在谷歌內(nèi)部,但又在大部門之外,所以我們既能連通外部世界,也能借助 Google DeepMind 的前沿研究成果。我們想方設法把這些能力整合進我們的產(chǎn)品中,所以 Labs 有點像一個“中間地帶”,把研究和實際應用都融合起來。
二、Google視頻生成模型
主持人:能不能分享一個你們已經(jīng)做出來、現(xiàn)在在推進的項目?讓我們聽聽你對它的想法。
Josh Woodward:如果大家用過 Gemini API、AI Studio、Notebook LM,或者 Vo 這些都是我們在 Labs 推出的成果。舉個例子吧,我們對 Notebook LM 的未來非常期待。它的核心是讓用戶能把自己的資料放進來,讓 AI 深度“讀懂”并加以組合或創(chuàng)作。它能給人一種“我在掌控 AI”的感覺。我們團隊有個說法叫“AI 操縱桿”,意思是用戶可以很直觀地“駕駛”AI。我覺得這個思路很有趣,而且未來會衍生出很多形態(tài)。 再說說我們特別關(guān)注的一塊:Vo——谷歌的圖像生成模型,以及它和視頻生成模型的結(jié)合。我們在這個方向也在做很多有意思的事。我認為生成式視頻已經(jīng)從“幾乎可行”過渡到“真正可行”的階段。我們可以在這方面多聊聊,因為現(xiàn)在看上去,視頻生成正在飛速進步。
主持人:正好,你就直接聊聊吧。你覺得現(xiàn)在的生成式視頻模型情況如何?
Josh Woodward:是這樣,這些新模型依舊很龐大,要在后臺用數(shù)百臺機器來跑,成本十分高昂。但就像文本模型(比如 Gemini,或 OpenAI、Anthropic 提供的模型)經(jīng)歷的那樣,一年內(nèi)推理成本會下降 90 多倍,你可以設想在這種成本曲線下,Vo 這樣的圖像或視頻生成模型也會變得更可用。特別是 Vo V2 這樣的新一代模型,它們真的提高了視頻質(zhì)量,并且把各種物理效果模擬得更逼真。很多 AI 影視創(chuàng)作者會看重一個指標叫“櫻桃采摘率”,意思是你生成多少次,才能挑出一個看得過去的結(jié)果。現(xiàn)在用 Vo 的時候,這個“櫻桃采摘率”已經(jīng)接近一發(fā)即中。指令的匹配度也在顯著提升,模型更能夠理解你想要什么。我覺得這對工具層來說是一個重大突破。 我們看到和文本生成類似的路徑:模型層、工具層,然后真正的價值在應用層。如果把這種視頻能力帶進應用產(chǎn)品里,你就能在表達想法的方式上產(chǎn)生全新的可能性。
主持人:得去年還有很多關(guān)于“生成式視頻就是物理模擬”的討論,那物理模擬算是解決了嗎?或者說有哪些還沒攻克的難題?
Josh Woodward:我不會說物理模擬永遠徹底解決,但它已經(jīng)非常接近了。六個月或一年前,我們還看到很多搞笑的視頻,比如威爾·史密斯(Will Smith)吃意大利面,畫面完全崩壞,更早以前的人手指都能被刀子切得亂七八糟,出現(xiàn)五六根手指不匹配的情況?,F(xiàn)在在物理層面、人物動態(tài)以及畫面質(zhì)量上都有突破,能更好地跟隨指令做跳切、鏡頭切換、相機控制等。而且我們也看到了明確的路徑,可以進一步解決剩余問題。 尚未解決的主要是推理成本和部署效率,畢竟這些模型非常龐大。另外,就是在應用層面如何進行工作流的重新設計,因為我們認為真正的巨大價值,往往是在應用層,而不是只在模型層或工具層。怎么把生成式視頻融入具體場景和工作流程,很多方向都還沒有定型,值得深入探索。
主持人:我能想象,如果模型做不到角色一致性,就很難在應用層面做“神奇操作”,比如同一個角色在不同場景里外貌必須保持一致,對吧?你覺得在應用層面要實現(xiàn)這種可塑性,需要模型達到怎樣的“可駕馭”程度?
Josh Woodward:我最近和幾位 AI 影視制作人討論過,他們對這些正是最大的需求:角色一致性、場景一致性、鏡頭控制。其實就好像我們需要做一臺“AI 相機”,目前現(xiàn)實里的攝像機是經(jīng)過幾十年迭代來適配人類拍攝的,但是對 AI 而言,現(xiàn)在基本是一片空白。 一旦我們真的做出一臺 AI 相機,你可以無限次地生成畫面,人物隨時改穿紅色毛衣或藍色毛衣,并保持長達兩小時的視頻始終一致。這些都是我們在內(nèi)部已經(jīng)做的一些原型,很快就會走向?qū)嵱秒A段。我們常說要“降低門檻、提高上限”:既要讓更多普通人能輕松用它做視頻,也要讓專業(yè)人士能產(chǎn)出極其精良的作品。從這個意義上看,視頻生成正處于這樣的轉(zhuǎn)折點,大家都在這個時刻躍躍欲試。
主持人:保羅·格雷厄姆(Paul Graham)最近發(fā)過一條推文,說現(xiàn)在的節(jié)奏快得驚人,所以你最好去做一些“眼下還不太可行、成本還很高”的事情,因為這類事情很快就會變得可行、成本也會大幅下降。你怎么看?
Josh Woodward:我們其實正是這么做的?,F(xiàn)在用 Vo 生成一個 8 秒視頻,成本可能非常夸張,但我們在打造的產(chǎn)品形態(tài),正是面向未來的低成本時代。就像很多文本模型的歷程一樣,一年多前的模型成本也很恐怖,但你看現(xiàn)在下降了多少倍。所以,我最近幾年有一個非常核心的感悟——產(chǎn)品一定要和“模型更智能、成本更低、速度更快”這些趨勢緊密對齊。如果三者能讓你的產(chǎn)品價值指數(shù)級增長,那你就是在順勢而為;如果任何一條對你的產(chǎn)品不利,那你可能就要對這個產(chǎn)品的前景打個問號了。
主持人:你覺得還需要多久,視頻生成在經(jīng)濟上就能“算得過賬”?也就是說,生成視頻的成本比它所帶來的收益更劃算?
Josh Woodward:哇,這個預測很難。我只能說,我們在內(nèi)部做成本測算時,發(fā)現(xiàn)未來可能需要在商業(yè)模式上也進行創(chuàng)新,不光是技術(shù)和應用層面。舉個例子,最直觀的想法是做訂閱,再加上按量付費。但我們也在和好萊塢或那些新涌現(xiàn)的 AI 影視人交流,他們的想法可能更像制片的思路:我只想要某個片段的最終成品,愿意一次性付費,或者按輸出質(zhì)量付費。 所以商業(yè)模式可能會有各種各樣的玩法,甚至類似拍賣模式。這方面還有很多東西要探索。我覺得時間并不需要好幾年,而是以季度來衡量的。成本曲線下行非??欤晕覀儗@個前景還是比較樂觀的。
主持人:你多次提到進展速度的問題。你在 DeepMind 那邊也有渠道,可以看到研究前沿。總體來說,你覺得這是在加速嗎?還是說它一開始就很快,現(xiàn)在還一直保持在那個高速軌道上?
Josh Woodward:我一直以為會放緩,結(jié)果這三年從沒放緩過。比如預訓練是不是達到了瓶頸,推理算力是不是限制了增長,每次當我們覺得好像要見頂時,又會出現(xiàn)新的技術(shù)或思路,打開全新空間。我認識一位作家叫 Steven Johnson,他寫過一本關(guān)于創(chuàng)新史的書,書里提到一個概念“相鄰可能”?,F(xiàn)在就好像你走進一個房間,有三十扇門同時打開,每扇門通向不同的相鄰可能性。我們正處在這樣的狀態(tài),而且這些門還在不斷增加。
三、 未來視頻消費的演變
主持人:我喜歡這個“相鄰可能”的畫面。我想把它偷過來當自己的 VC 話術(shù)?;氐揭曨l的話題,你覺得未來的視頻消費會是怎樣的?我們還會像看好萊塢大片那樣,被大制片廠拍好的片子吸引?還是說,未來視頻會根據(jù)個人信息動態(tài)生成,只為我一個人訂制?你怎么看?
Josh Woodward:這是一個很大的話題,可能有很多種走向。我覺得有幾點是可以確定在發(fā)生的:
1、觀眾對娛樂內(nèi)容的可操控度更高。現(xiàn)在我們看東西就是坐在沙發(fā)上刷列表,但未來可能會出現(xiàn)“可介入”的形式,用戶可以隨時插手劇情走向。
2、高度個性化?,F(xiàn)在的 YouTube、TikTok 都有推薦算法,但未來的個性化程度只會更極致。
3、 更多的實時生成。有一個理論,我覺得會出現(xiàn)一個“策展人”群體,雖然今天我們有“創(chuàng)作者經(jīng)濟”,未來或許還會有“策展人經(jīng)濟”。他們把模型生成的元素重新混搭,讓內(nèi)容具有無窮的變體,用戶則可以繼續(xù)在此基礎上再做二次創(chuàng)作。
4、平臺界面會增加新的控制方式。就像今天的視頻播放器只有播放、暫停、收藏、點贊之類的按鈕,未來也許會多一個“加入”按鈕,一點它,角色就回頭問你:“嗨,Sonya,Ravi,你們想讓劇情怎么發(fā)展?” 這是可能的。
我們在 Notebook LM 已經(jīng)在做一些類似的功能實驗,要是加上角色動畫、語音克隆等技術(shù),就可以出現(xiàn)全新形式的互動式內(nèi)容。
主持人:你覺得電影和游戲會因此變得難以區(qū)分嗎?畢竟兩者之間的互動性可能會越來越像。
Josh Woodward:我覺得非常可能?,F(xiàn)在已經(jīng)有很多團隊在嘗試把電影或視頻內(nèi)容與游戲機制、3D 世界構(gòu)建融合到一起,訓練方法也互相借鑒。所以這塊我們也在自己做一些押注,覺得可以同時關(guān)注“純視頻生成”和“3D/虛擬世界構(gòu)建”兩條線路。我們不確定誰會占上風,所以等于兩邊都在嘗試。 舉例說,在 3D 這邊,我們啟動過一個項目:只需要六張照片就能生成一個 3D 模型,讓你在搜索結(jié)果里看到可旋轉(zhuǎn)的產(chǎn)品展示。接下來,Vo 這類新模型可能只需要兩三張照片就能生成 3D 物體,這幾乎相當于把谷歌索引里的所有物品都自動生成了 3D 模型。 而在視頻端,我們做過一個小原型,比如可以重現(xiàn)登月場景,讓老師在課堂給學生體驗“真的坐在登月艙里”。我們還加了一些隨機事件功能,比如“天啊,后艙著火了,快來處理”,去測試模型是否能動態(tài)生成這些細節(jié)。你可以告訴它:“往右看”,它就會自動填充右側(cè)的月球表面細節(jié)。從這個角度看,確實電影和游戲似乎在互相滲透。
四、AI Agent代理
主持人:大家現(xiàn)在都在討論“Agent”代理,尤其是 2025 年這個時間點,好像無所不在。你提到谷歌的 Mariner,這個和 Agent 概念有什么關(guān)聯(lián)嗎?
Josh Woodward:Mariner 是我們在去年 12 月推出的一個實驗性項目。它的起點是我們發(fā)現(xiàn)模型不僅可以回答問題,還可以“控制”你的瀏覽器,去滾動頁面、輸入文字、點擊鏈接等等,而且不只是在前臺做這一切,它可以在后臺同時操控多個會話。 我們當時就想:“這背后的潛力巨大。” 所以就快速做了一個 Chrome 擴展,花了大約 84 天就把它實現(xiàn)并推給一些種子用戶測。它能處理一些自動化操作,比如填寫表單、在多標簽頁之間來回切換等。 但是它的愿景其實遠不止“幫你點點瀏覽器”。從長期看,我們希望重新構(gòu)想“人機交互”的形態(tài),想象一下不僅有一個 Agent,而是無數(shù)個 Agent 可以隨時幫你處理各種繁瑣的事情。這就是我們在 Mariner 這個項目上努力的方向。
主持人:在你看來,Mariner 的理想使用場景是什么?因為我看到一些電腦自動化 Agent 的演示視頻,通常是讓 Agent 幫忙訂機票、叫外賣之類的。但我自己其實不覺得買披薩有多麻煩,我還挺享受下單過程(笑)。你覺得哪些才是 Agent 真正能帶來高價值的場景?
Josh Woodward:挺好的問題。我們發(fā)現(xiàn)當下最有價值的,可能并不是消費者個人使用,而是 企業(yè)級 場景,尤其是那些“高重復度”或“苦力式”的工作。 舉幾個例子:昨天我們和一個團隊交流。他們在做一個“共同瀏覽(co-browsing)”的需求:比如客服在接到用戶來電后,需要遠程幫用戶在電腦上做一些操作,以前都要人工遠程控制,但如果有 Mariner,就可以用自動腳本幫用戶進行操作。 再比如一些銷售團隊,在打完電話后要處理各種后續(xù)任務,比如更新多個不同的內(nèi)部或 SaaS 系統(tǒng)。這些繁瑣的操作 UI 復雜,他們只想把這些事情托付給 Mariner 去做。對他們而言,這簡直是拯救了很多時間。 在普通消費者場景,我暫時還沒有看到非?!巴础钡沫h(huán)節(jié),你如果想買披薩自己下單也挺好,所以消費端沒必然需求。不過大企業(yè)、B 端的復雜流程里,倒是機遇滿滿。
主持人:那么,你們要怎么測試這些企業(yè)級場景?跟現(xiàn)有的大客戶或者 Google Cloud 的客戶合作嗎?
Josh Woodward:對,我們會同時和大企業(yè)、小公司進行各種試點所以我們會接觸一些云端客戶。我們有不少云端客戶始終希望能用上最新、最前沿的東西——他們公司內(nèi)部也往往有類似“Labs”的部門來做創(chuàng)新嘗試,所以這些客戶就是很好的測試平臺。我們也會跟很多初創(chuàng)公司合作……如果現(xiàn)在正聽到這期節(jié)目的朋友對這個感興趣,歡迎私信給我或聯(lián)系我們。我們一直都想在市場的不同層面去學習和驗證。 我這些年做產(chǎn)品的心得之一是,大家都在說“產(chǎn)品與市場匹配(PMF)”,說“真到了就能感覺到”,確實如此。不過至少對我來說,在產(chǎn)品早期迭代的過程中,人們常常會忘記對市場也要做相應的“迭代”。光找對產(chǎn)品還不夠,你也得找對市場,并且讓兩者連接起來。 就拿 Mariner 來說,它能讓 AI 模型“驅(qū)動”你的電腦——這是一個巨大而全新的能力;它是否足夠精準?有時可以,但并不總是;速度夠快嗎?還遠遠不夠。這就是我們當前所在的位置。我們還在尋找合適的市場切入點。 回答你剛才的問題,眼下我們就是在早期階段,會做大量快速實驗。我對團隊的產(chǎn)品經(jīng)理、工程師和用戶體驗研究員們的指導是:別太在意儀表盤上的數(shù)據(jù),因為那數(shù)字現(xiàn)在都很小;真正要關(guān)注的是客戶在看到你演示時,眼睛里有沒有光。你能看到他們是否真的被觸動。這是非常依賴藝術(shù)感、而非科學量化指標的一步。
五、 上下文和數(shù)據(jù)使用
主持人:我想再回到之前提到的“上下文”問題。Josh,你在谷歌工作,提到可以“帶入你自己的資產(chǎn)”來給模型提供信息。那么會不會有一種場景——比如我可以選擇直接讓谷歌使用它已經(jīng)掌握的所有關(guān)于我的信息?像我的搜索記錄、Gmail、日歷……我如果能按一下“同意”,讓谷歌直接來“創(chuàng)造魔法”,是不是可能?畢竟谷歌有這個獨特優(yōu)勢,恐怕比誰都更有條件這么做。你們在 Labs 里會不會考慮這個方向,或者說這在技術(shù)和隱私層面行得通嗎?
Josh Woodward:我們在內(nèi)部做過一些小范圍的嘗試,比如團隊成員自己自愿把所有數(shù)據(jù)都“交給”AI,讓它去做整合,看看能不能打造一些強大的功能。我想在 Gemini 應用里,未來你也會看到類似的選項,可以把不同服務鏈接起來。 不過這里面也涉及到很多探討,比如哪類數(shù)據(jù)最有價值、最有趣,以及如何確保用戶對數(shù)據(jù)的掌控感。這些方面都需要不斷試驗。 你問“如果谷歌知道你的一切,那能給你帶來什么體驗”?我舉個例子,對我自己來說,當 AI 能讀取我所有數(shù)據(jù)時,就像獲得了一個真正意義上的“第二大腦”。之前我們就一直在談各種“輔助思維工具”,但現(xiàn)在你會發(fā)現(xiàn),如果有足夠長的上下文,尤其是 Gemini 模型那種可以處理大段對話歷史的能力,你就真的可以獲得近乎于實時的“記憶”。我們現(xiàn)在也會思考怎么把這些能力用到 Mariner 里去。
主持人:我有個關(guān)于元話題的問題。為什么好像所有研究實驗室?guī)缀踉谕粋€時間點都“收斂”到做“電腦使用代理”這件事了?這到底是純巧合,還是說某些技術(shù)正好在那一刻融合成熟?
Josh Woodward:這是個好問題。我不知道每個實驗室的具體緣由,但在創(chuàng)新史上確實常見“同時多點突破”。一旦出現(xiàn)了一個全新范式,很多人都會意識到它的潛力。另外,也可能有人從這家實驗室流動到那家實驗室,產(chǎn)生交叉授粉。就跟代碼助手類似,或者 agent 概念也是一下子冒出很多項目。對我們來說,這既讓人覺得“百花齊放”,也讓大家如履薄冰。我們得保持“弱者心態(tài)”,隨時準備應對競爭。
六、跨界人才與產(chǎn)品開發(fā)
主持人:你們還會招更多像作家這樣的跨界人才嗎?我想到了作家 Matt Ridley,他也寫過不少關(guān)于“相鄰創(chuàng)新”之類的內(nèi)容。你們團隊之前招了 Steven Johnson——他為什么會來?之后會不會繼續(xù)找更多沒有傳統(tǒng)產(chǎn)品或研究背景、但卻能帶來新思路的人?
Josh Woodward:可以啊。先說說我們是怎么把 Steven 招進來的:當初重啟 Google Labs 的人叫 Clay Bavor,他也是你的老朋友,對吧?我和他都是 Steven Johnson 的忠實讀者。他幾十年來一直在探索“理想的思維工具”。于是 Clay 給他寫了一封“冷郵件”,我們也在他的 Substack 上留言,說“我們真的很喜歡你的作品,想不想直接來和我們一起做你一直想做的那款思維工具?”那大概是 2022 年夏天,還沒爆發(fā) ChatGPT 這樣的熱潮。Steven 接到電話就說:“好啊,干!” 然后他就來了,最初的職位是“訪問學者”,我們甚至得去和 HR 協(xié)調(diào),創(chuàng)建一個從未有過的編制,因為這在谷歌是非常不常見的做法。就這樣,之后他就跟我們一起打造 Notebook LM。 我們現(xiàn)在也會去招音樂人,正在琢磨怎么邀請“訪問電影人”之類的角色。我覺得這是個好模式,我們也希望與行業(yè)中真正的專業(yè)人士共創(chuàng),而不是自己關(guān)起門來做出一個“AI 小玩意兒”然后扔出去。你和像 Steven Johnson 這樣寫過十幾本書的大作者一起合作,他就會特別注重文獻來源、注釋引用的準確性,這些想法也就體現(xiàn)在 Notebook LM 里。我們在音樂、視頻、工業(yè)設計等其他領域也用類似方法去找合適的跨界伙伴。
主持人:那在 Labs 做出產(chǎn)品后,你們的目標是把它們從小做到大,甚至做到全球十億用戶的獨立產(chǎn)品,還是說找準產(chǎn)品—市場契合度后,再把它整合進谷歌的核心業(yè)務里?
Josh Woodward:起初,我們確實是打算把項目做成熟后畢業(yè)到谷歌大部門,比較像傳統(tǒng)孵化器的思路。后來發(fā)現(xiàn)實際情況會多樣化,比如 AI Studio 和 Gemini API 我們把它們轉(zhuǎn)移到 DeepMind 去了,但 Notebook LM 我們暫時還想放在 Labs,繼續(xù)以實驗和獨立產(chǎn)品的方式去發(fā)展。 現(xiàn)在我們很多項目都是朝著“真正打造一門可持續(xù)的生意”的方向努力,然后才去考慮是不是要繼續(xù)獨立運營,或者干脆停掉。我們最理想的是能讓它自己“起飛”,形成規(guī)模化業(yè)務。但如果做著做著發(fā)現(xiàn)不行,我們也會在可能 100 天左右就果斷止損,轉(zhuǎn)而去做下一個想法。
主持人:你之前提到,你們也會有一些自上而下的規(guī)劃,比如挑哪些“池塘”去“釣魚”。2025 年,你們最看好的“池塘”在哪里?現(xiàn)在打算在哪些方向招聘、在哪些地方跟 DeepMind 合作?
Josh Woodward:嗯,剛才聊到的 Agent、生成式視頻、Mariner 之類,我覺得都很關(guān)鍵。但我們團隊還有個視角:我們有一份名為“Labs 未來合集”的文檔,里面有 82 個對未來的預測。做預測總是有風險,但那是一次有趣的團隊頭腦風暴:想象我們坐在這兒,天花板突然打開,有個太空艙降下來把我們送到 2028 年,讓我們在那里觀察 5 分鐘,再把我們帶回現(xiàn)在,然后把所見所聞都寫下來。 比如我們會寫“知識的未來會怎樣?”其中有個預測說,知識在未來會是“無限可重混”的:所有輸入都可以被轉(zhuǎn)換,再輸出成任何形態(tài)。如果你相信這一點,就會基于這假設去打造相應的產(chǎn)品。 當然,回到你剛問的,比如我覺得今年或明年是視頻的關(guān)鍵節(jié)點,Agent 也會有巨大潛能,還有編程也將在今年出現(xiàn)新的重大飛躍。我們現(xiàn)在就很關(guān)心這幾個方向。
主持人:你們在 Labs 里也做編程工具嗎?
Josh Woodward:是的。谷歌現(xiàn)在有 25% 的代碼由 AI 生成,這是一位副總裁 Jeff Te 在內(nèi)部說過的,而且這個數(shù)字還在快速上漲。 對我們來說,這里也分兩條路:“降低門檻”讓不會寫代碼的人也能寫;或者“抬高上限”讓專業(yè)工程師產(chǎn)能提升十倍甚至百倍。 舉個有意思的例子:Replit 最近也推出過 Agent 功能。前幾個周末,我陪我讀四年級的兒子一起做一個家務活記錄 app,好讓我們家執(zhí)行日常打掃。他只花了 28 分鐘加上 45 美分,居然就做出個能每天用的應用。整個過程特別神奇。這也顯示了“軟件在 AI 幫助下可以極大降本提效”。我們也在內(nèi)部做很多類似嘗試。
七、被低估的AI領域
主持人:你覺得 AI 現(xiàn)在有什么被“炒過頭”的地方嗎?
Josh Woodward:我希望大家別都死盯著“聊天界面”這一種形式了,感覺到處都是 Chatbot,谷歌也不例外。還有就是很多產(chǎn)品在想辦法“硬塞”AI 進去,我覺得 AI 本身有被過度炒作的成分。希望人們能更精細地思考該如何真正利用 AI 的破壞性潛力,而不是簡單給現(xiàn)有產(chǎn)品強行加個 AI 功能。 另外這種熱潮也很像 2007 年 iPhone 發(fā)布后,2009 年 App Store 里的很多熱門應用要么是把網(wǎng)頁內(nèi)容“縮小”移植到手機上,要么就是手電筒 app、放屁聲 app 之類。我們正處在類似的階段,真正徹底改變?nèi)藗冃袨榉绞降漠a(chǎn)品,可能還要到接下來的一兩年甚至更長時間才出現(xiàn),就像后來的 Uber、Airbnb、Instacart 等等。
主持人:在“被低估”的領域吧, AI 里,你覺得哪些領域值得更多關(guān)注?
Josh Woodward:我還是先再強調(diào)一下編程,因為如果有一個 AI 能寫代碼、能自我修正、能遷移,還能不斷迭代,你就會發(fā)現(xiàn)我們現(xiàn)在所謂的“發(fā)展快”可能還只是開始。 另外,我覺得我們還沒真正理解“長上下文”或“無限上下文”意味著什么。它和個性化有關(guān),也和 Agent 之間的鏈式交互有關(guān)。谷歌內(nèi)部對這一點投入很大,因為我們覺得讓模型擁有足夠廣闊和持久的“記憶”,可以開啟很多新可能。 再有就是“品味”的問題。我認為真正的價值會在應用層,如果你相信未來會充斥一些 AI 生成的粗糙結(jié)果,那么好設計、好審美就會被凸顯。有人類參與的創(chuàng)作可能會變得更珍貴,就像手工藝品。有點類似的,還有真實性和真?zhèn)闻袛啵@些都可能比今天更重要。
主持人:剛才你提到長上下文讓我想起一個類比:我們和配偶之間,因為長時間的相處和了解,很多時候只要一個眼神就能交流,知道什么時候該離開派對、什么時候做別的事情。如果一款 AI 能與你共享幾乎無限的上下文,也許就能接近這種默契程度??赡憧纯次覀儸F(xiàn)在——還要在一個文本框里拼命打字。而且這背后還需要海量的記憶和數(shù)據(jù)來支撐,所以我覺得這點特別能挖掘。
Josh Woodward:是的,這就好比公司里一位經(jīng)驗豐富的老員工離職時,那些積累多年的知識、經(jīng)驗和人際關(guān)系也隨之流失。但如果有AI能夠幫助保存這些寶貴的工作記憶和人際網(wǎng)絡信息,這種損失就能大大減少。同樣的道理,無論是在個人關(guān)系還是工作關(guān)系中,AI都能夠長期記住那些你們之間的互動歷史、共同經(jīng)歷和重要細節(jié)。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
原文鏈接:https://www.youtube.com/watch?v=3-wVLpHGstQ&t=2753s
來源:官方媒體/網(wǎng)絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.