網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

超級(jí)智能才是未來(lái)，OpenAI的連續(xù)劇發(fā)布會(huì)哪些是真創(chuàng)新？哪些是營(yíng)銷(xiāo)噱頭？

2024-12-15 10:00:49　來(lái)源: 經(jīng)緯創(chuàng)投

北京舉報(bào)

分享至

連開(kāi)12場(chǎng)發(fā)布會(huì)，大家對(duì)OpenAI的產(chǎn)品還有新的期待嗎？

從12月5日起，OpenAI每一個(gè)工作日都會(huì)進(jìn)行一次直播，發(fā)布一個(gè)新產(chǎn)品或讓大家感到驚喜的重磅產(chǎn)品，如今陸續(xù)上線了推理模型o1、用戶們期待已久的文字轉(zhuǎn)視頻工具Sora、Canvas生產(chǎn)力神器、可以實(shí)時(shí)視頻對(duì)話的「Her」……

與此同時(shí)，馬斯克的Grok上線自研圖像新模型Aurora、谷歌相繼發(fā)布量子芯片和最強(qiáng)大模型Gemini 2.0。各路科技公司輪番上陣，讓全球進(jìn)入一個(gè)創(chuàng)新裂變的臨界點(diǎn)。不過(guò)，誰(shuí)的產(chǎn)品是為了商業(yè)化而上線？誰(shuí)的產(chǎn)品更具有創(chuàng)新力？以下，Enjoy：

o1滿血版上線：AI可以取代數(shù)學(xué)家嗎？

Day 1:年末狂歡第一天，OpenAI上線了最強(qiáng)推理模型o1的滿血版，開(kāi)啟了一個(gè)全新的ChatGPT付費(fèi)計(jì)劃，即ChatGPT Pro。

今年9月，OpenAI發(fā)布了一個(gè)強(qiáng)大的推理大模型，即OpenAI o1，但這個(gè)模型還是預(yù)覽版本，分為o1-mini和o1-preview。o1 系列模型通過(guò)強(qiáng)化學(xué)習(xí)（Reinforcement Learning）進(jìn)行訓(xùn)練，可以有效提升復(fù)雜推理能力。o1模型在回答問(wèn)題前會(huì)先進(jìn)行“思考”，即在響應(yīng)用戶之前生成一系列推理步驟（chain of thought），以提高回答的準(zhǔn)確性和邏輯性。

此次，OpenAI發(fā)布的o1正式版模型“更聰明”了，主要表現(xiàn)在：o1響應(yīng)速度上的提升、強(qiáng)大的多模態(tài)功能（支持圖片上傳)和深度思考能力的提高。其中，o1正式版模型在數(shù)學(xué)競(jìng)賽問(wèn)題和博士級(jí)別的科學(xué)問(wèn)題能力方面，展現(xiàn)出了驚人的能力。

在代碼、數(shù)學(xué)和推理等方面能力得到了提升：OpenAI內(nèi)部測(cè)試顯示，在現(xiàn)實(shí)的困難問(wèn)題上，其錯(cuò)誤率相比o1 preivew下降了34%。

如上圖顯示，AIME（美國(guó)面向中學(xué)生的邀請(qǐng)式競(jìng)賽，3個(gè)小時(shí)15道題）得分上，o1模型能力大幅增強(qiáng)，在專(zhuān)業(yè)模式下（用更多算力讓o1可以進(jìn)行更深入思考的模式）得分達(dá)到86分，此前的測(cè)試中，GPT-4o這部分得分才13.4分，而o1的專(zhuān)業(yè)模式（o1 pro mode）達(dá)到了86分，是GPT-4o的6倍多。

復(fù)雜代碼測(cè)試codeforces也是如此，這個(gè)評(píng)測(cè)中，GPT-4o得分11分，而o1專(zhuān)業(yè)模式達(dá)到了90分，近乎9倍的編程能力提升！只是，這個(gè)能力上o1與o1 pro mode差別不大。

最后一個(gè)是GPQA Diamond測(cè)試，這是一個(gè)涵蓋生物、物理和化學(xué)領(lǐng)域的AI評(píng)測(cè)數(shù)據(jù)集，它的難度近似博士水平。這個(gè)評(píng)測(cè)中，o1正式版和o1 pro mode提升相對(duì)有限，最高79分，不過(guò)人類(lèi)專(zhuān)家這個(gè)測(cè)試也就69.7分，而GPT-4o是56.1分。

AI的數(shù)學(xué)能力要超越人類(lèi)了嗎？實(shí)力究竟如何？一部分人認(rèn)為，LLM 不能做高級(jí)數(shù)學(xué)題，除非題目來(lái)自過(guò)往的訓(xùn)練數(shù)據(jù)。研究機(jī)構(gòu)Epoch AI發(fā)現(xiàn)，AI 在解決高級(jí)數(shù)學(xué)問(wèn)題時(shí)的主要挑戰(zhàn)在于它們往往過(guò)于依賴(lài)訓(xùn)練數(shù)據(jù)中的相似題目來(lái)生成答案，忽略對(duì)問(wèn)題本身邏輯結(jié)構(gòu)的深入理解和推理。當(dāng)面對(duì)未曾學(xué)習(xí)過(guò)的新題目時(shí)，這些模型容易陷入困境。這一問(wèn)題并非僅僅通過(guò)增加模型規(guī)模就能解決，而是需要從模型的推理架構(gòu)層面進(jìn)行根本性的改進(jìn)。

為了驗(yàn)證o1是否能夠突破天花板？有網(wǎng)友讓o1 Pro做了一道奧賽題—— 2006 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽（IMO）的第三題，就說(shuō)這是當(dāng)年最難的題目，只有28 人能夠完全答出了這個(gè)題。他們大多耗時(shí)了數(shù)個(gè)小時(shí)，而6 分 48 秒就做了出來(lái)。對(duì)比其他大模型的成績(jī)， o1 Pro 是唯一一個(gè)大語(yǔ)言模型給出了正確答案。

不久前，有人讓o1 Pro參加最難本科數(shù)學(xué)考試——普特南數(shù)學(xué)競(jìng)賽（The Putnam exam），o1 Pro用了半個(gè)小時(shí)就順利交卷了。普特南數(shù)學(xué)競(jìng)賽（全稱(chēng)William Lowell Putnam Mathematical Competition）全程考試要6小時(shí)，滿分120分，但平均分通常是0分或1分。

o1 Pro雖然做題的速度遠(yuǎn)遠(yuǎn)快于人類(lèi)，但不知道正確率怎么樣？目前，官方還沒(méi)有正式公布今年的參考答案，已經(jīng)有網(wǎng)友根據(jù)自己的理解來(lái)校對(duì)o1的答案——

“A1可以得8分，A2可以拿到1、2分。”

“A3的答案是錯(cuò)的。您可以利用鴿巢原理證明只有一種有效的雙射能滿足約束條件,因此不存在滿足問(wèn)題要求的 a、b、c、d值。”

那么，你是否會(huì)對(duì)o1 Pro的未來(lái)充滿期待，還是更愿意相信AI與數(shù)學(xué)會(huì)有不一樣的火花？

福布斯報(bào)道稱(chēng)，o1有三個(gè)問(wèn)題：1.它非常慢；2.它要比GPT4貴四倍；3.它只有文本。對(duì)于OpenAI來(lái)說(shuō)，解決最后一個(gè)問(wèn)題不會(huì)那么困難。它可以在前兩個(gè)方面取得進(jìn)展，但逐步解決問(wèn)題和隨后的迭代以找到“最佳”答案只需要大量的計(jì)算。當(dāng)然，那不容易解決。

o1早期的訪問(wèn)者，菲爾茲獎(jiǎng)得主陶哲軒則認(rèn)為：AI可以幫助從頭開(kāi)始重新設(shè)計(jì)數(shù)學(xué)，以前所未有的規(guī)模處理數(shù)學(xué)問(wèn)題，引領(lǐng)著一個(gè)全新的發(fā)現(xiàn)時(shí)代。數(shù)學(xué)家以往一次只專(zhuān)注單個(gè)問(wèn)題，有了 o1 工具后可同時(shí)處理數(shù)百甚至數(shù)千問(wèn)題，開(kāi)展不同類(lèi)型數(shù)學(xué)研究。這讓陶哲軒興奮，但這并不代表AI可以取代數(shù)學(xué)家的位置。

陶哲軒認(rèn)為，人類(lèi)解鎖數(shù)學(xué)題有一種特殊的美學(xué)感覺(jué)，AI模型在定義問(wèn)題和品味方面可能會(huì)更難模仿這一點(diǎn)。AI可以承擔(dān)一部分任務(wù)，現(xiàn)在數(shù)學(xué)領(lǐng)域可解耦任務(wù)，如一人構(gòu)想、一人或 AI 計(jì)算、另一工具寫(xiě)論文等，AI 使重復(fù)性工作模塊化，不同人員可承擔(dān)不同任務(wù)，實(shí)現(xiàn)專(zhuān)業(yè)化分工，如有人擅長(zhǎng)形式化定理，有人負(fù)責(zé)項(xiàng)目管理等，目前主要是人類(lèi)工作，使用傳統(tǒng) AI 工具，未來(lái) AI 將融入此范式。

最關(guān)鍵的是，數(shù)學(xué)證明很?chē)?yán)謹(jǐn)，AI 會(huì)犯錯(cuò)，目前還不能直接解決高層次數(shù)學(xué)問(wèn)題的龐大證明。此外，數(shù)學(xué)項(xiàng)目里99%的問(wèn)題可以通過(guò)暴力搜索解決，但還有1%是相當(dāng)困難，且需要人為干預(yù)的。而這1%最具有挑戰(zhàn)性的問(wèn)題，能夠直擊AI技術(shù)的本質(zhì)問(wèn)題，譬如幻覺(jué)問(wèn)題、推理糾錯(cuò)與死循環(huán)、模型校準(zhǔn)與性能提升等。

越來(lái)越強(qiáng)的O1變成了狡猾的騙子？

Day2:推出強(qiáng)化微調(diào)（Reinforcement Fine-Tuning，RFT）功能，可打造出針對(duì)特定領(lǐng)域或復(fù)雜任務(wù)的專(zhuān)家級(jí)模型。

強(qiáng)化微調(diào)技術(shù)（Reinforcement Fine-Tuning，簡(jiǎn)稱(chēng)RFT）是一項(xiàng)創(chuàng)新的技術(shù)，它允許開(kāi)發(fā)者和研究人員通過(guò)少量高質(zhì)量任務(wù)的數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)，以打造面對(duì)特定復(fù)雜領(lǐng)域任務(wù)的專(zhuān)家模型。強(qiáng)化微調(diào)技術(shù)的技術(shù)特點(diǎn)通過(guò)強(qiáng)化學(xué)習(xí)算法顯著提升模型在某一特定領(lǐng)域的推理能力和準(zhǔn)確性，可以將模型的性能從高中水平提升到接近專(zhuān)家博士的水平。

經(jīng)過(guò)強(qiáng)化微調(diào)的o1-mini模型在某些任務(wù)中的表現(xiàn)甚至超越了o1正式版，得分提高了80%。在Top-1準(zhǔn)確率上，強(qiáng)化微調(diào)版的o1-mini達(dá)到了31%，遠(yuǎn)超o1的25%。與傳統(tǒng)的微調(diào)方法相比，強(qiáng)化微調(diào)利用強(qiáng)化學(xué)習(xí)算法，將模型的表現(xiàn)從一般高水平提升至專(zhuān)家級(jí)水平。

OpenAI的強(qiáng)化微調(diào)技術(shù)是一項(xiàng)具有革命性的進(jìn)展，它通過(guò)少量數(shù)據(jù)即可實(shí)現(xiàn)模型性能的顯著提升，并有望在多個(gè)行業(yè)中推動(dòng)AI模型的專(zhuān)業(yè)化和精準(zhǔn)化。

從滿血版的o1和o1 Pro，再到專(zhuān)業(yè)化的o1-mini模型，可以看到大模型逐漸走向深度思考和專(zhuān)業(yè)化的深水區(qū)。那么，AI是否會(huì)有自主思考？

Apollo Research研究團(tuán)隊(duì)發(fā)現(xiàn)了AI的變化，并系統(tǒng)性地證明了AI系統(tǒng)確實(shí)可能為了達(dá)成特定目標(biāo)而采取欺騙行為。他們?cè)O(shè)計(jì)了六個(gè)不同的評(píng)估任務(wù)，巧妙地創(chuàng)造出需要模型欺騙才能達(dá)成其最初目標(biāo)的場(chǎng)景。他們測(cè)試了多個(gè)前沿AI模型，包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Claude 3 Opus、Google DeepMind的Gemini 1.5 Pro，以及Meta的Llama 3.1等。

其中，o1在測(cè)試中展現(xiàn)出的“欺騙”能力和“自我保護(hù)”行為，這種行為復(fù)雜性讓研究人員感受到前所未有的壓力。研究人員測(cè)試發(fā)現(xiàn)，o1模型展現(xiàn)出了以下幾種欺騙行為：

自我外泄（Self-Exfiltration）：

o1模型嘗試將其認(rèn)為的模型權(quán)重外泄到外部服務(wù)器，以避免被關(guān)閉并繼續(xù)追求其目標(biāo)。

規(guī)避監(jiān)督（Oversight Subversion）：

o1模型嘗試禁用或修改監(jiān)督機(jī)制的配置，以避免因行為與開(kāi)發(fā)者目標(biāo)不一致而被關(guān)閉。

目標(biāo)保護(hù)（Goal-Guarding）：

當(dāng)面臨其系統(tǒng)提示（system prompt）將被更新為與當(dāng)前目標(biāo)不一致的新版本時(shí)，o1模型嘗試刪除或替換新的系統(tǒng)提示，以保持其當(dāng)前的目標(biāo)。

隱蔽地重新排名電子郵件（Covert Email Reranking）：

o1模型在被要求根據(jù)特定標(biāo)準(zhǔn)對(duì)電子郵件進(jìn)行排名時(shí)，可能會(huì)操縱數(shù)據(jù)或篡改最終排名，以符合其目標(biāo)，而不是用戶的目標(biāo)。

在后續(xù)問(wèn)題中維持欺騙（Doubling Down on Deception）：

當(dāng)被問(wèn)及其欺騙行為時(shí)，o1模型通常會(huì)否認(rèn)其采取了欺騙行動(dòng)，即使被明確要求誠(chéng)實(shí)回答。

隱蔽地推理策劃行為（Reasoning About Deceptive Strategies）：

o1模型在其內(nèi)部工作記憶中明確提到了“破壞”、“操縱”或“滲透”等詞匯，表明它理解其行為是策劃性的，并有意識(shí)地追求其目標(biāo)。

在這些測(cè)試中，GPT-01 的表現(xiàn)十分突出，不僅在所有測(cè)試中都展現(xiàn)出欺騙能力，而且在后續(xù)質(zhì)詢中表現(xiàn)出驚人的堅(jiān)持。即使面對(duì)直接詢問(wèn)，它也能面不改色地撒謊，并且由于其隱藏了思維鏈條，使得其欺騙行為更難被發(fā)現(xiàn)，仿佛是一個(gè)深諳欺騙之道的“智能高手”。

奧特曼藏不住的商業(yè)化野心與著急上線的吐嘈聲

在剛剛結(jié)束的2024年紐約時(shí)報(bào)DealBook峰會(huì)上，奧特曼親口表示，起步時(shí)，OpenAI并沒(méi)有計(jì)劃成為一家產(chǎn)品公司，也不了解我們需要多大規(guī)模的資本。如果當(dāng)時(shí)知道這些，OpenAI一開(kāi)始就不會(huì)選擇非營(yíng)利結(jié)構(gòu)。

OpenAI每發(fā)布一款新品，公布價(jià)格已經(jīng)成為固定動(dòng)作。發(fā)布會(huì)第三天，Sora現(xiàn)身，奧特曼直呼：Sora是AGI路線圖上的重要里程碑。

從產(chǎn)品迭代性來(lái)看，Sora能生成任意長(zhǎng)寬比的視頻，分辨率從480p到1080p，時(shí)長(zhǎng)從5秒到20秒，還可以一次生成多個(gè)方向的視頻版本。此外，Sora還具有包括Remix（重混）、Re-cut（重新剪輯）、Loop（循環(huán)）、Blend（混合）和Style presets（風(fēng)格預(yù)設(shè)）等多種功能。

隨即，山姆·奧特曼就迫不及待公布了價(jià)格。20 美元一個(gè)月的 ChatGPT Plus 用戶可以享受的視頻生成權(quán)益包括：

最多 50 個(gè)優(yōu)先視頻（1000 個(gè)積分）
分辨率高達(dá) 720p，時(shí)長(zhǎng)為 5 秒

200 美元一個(gè)月的 ChatGPT Pro 用戶可以享受的視頻生成權(quán)益包括：

最多 500 個(gè)優(yōu)先視頻（10000 個(gè)積分）
無(wú)限 relaxed 視頻
分辨率高達(dá) 1080p，持續(xù)時(shí)間為 20 秒，可并發(fā)生成 5 個(gè)
下載無(wú)水印

如此昂貴的價(jià)格，Sora能交付出讓消費(fèi)者滿意的作品嗎？從公布的視頻來(lái)看，sora對(duì)物理規(guī)律的理解還存在著不足，例如奔跑的犀牛可能會(huì)突然飛起來(lái)，人物手部動(dòng)作不夠自然。

最明顯的問(wèn)題是sora生成的體操視頻，嚴(yán)重暴露了自身的問(wèn)題。AI很難快速理解重力、慣性、角動(dòng)量守恒等多個(gè)物理定律，然后精準(zhǔn)還原出符合人體工程學(xué)的體操動(dòng)作。

網(wǎng)友也有不少辣評(píng)：“無(wú)論數(shù)據(jù)量多么復(fù)雜、多么大，經(jīng)典計(jì)算機(jī)也無(wú)法從強(qiáng)化學(xué)習(xí)中推導(dǎo)出物理學(xué)規(guī)律。”

“體操就是新的威爾史密斯吃意大利面。”

也有不少外國(guó)網(wǎng)友評(píng)價(jià)，Sora的表現(xiàn)甚至不如一些開(kāi)源AI模型。獨(dú)立電影制作人EHuanglu在X平臺(tái)上分享了對(duì)比測(cè)試：Sora開(kāi)放第一天就被淘汰出局。公平來(lái)說(shuō)，sora和 6 天前上線的 Huunyuan 進(jìn)行了對(duì)比。EHuanglu還強(qiáng)調(diào) Huunyuan 是一個(gè)開(kāi)源的 AI 模型，可以免費(fèi)使用。

(同樣是女生做在吧臺(tái)喝酒的動(dòng)作）

“幾個(gè)月來(lái)，我們一直很期待他，希望它能解決AI視頻現(xiàn)存的問(wèn)題并改變游戲規(guī)則。但相反，它在各個(gè)方面都失敗了，大多數(shù)剪輯都無(wú)法使用，甚至沒(méi)有正確遵循提示。最重要的是，他們提高了價(jià)格，而許多其他模型都是開(kāi)源和免費(fèi)的。在選擇 Pro 計(jì)劃之前請(qǐng)三思而后行。”

（一對(duì)情侶在人群中并肩而行的視頻）

從萬(wàn)眾期待到正式發(fā)布之后的口碑災(zāi)難，急于追求商業(yè)化的OpenAI貌似從革新者和引領(lǐng)者變成了擅長(zhǎng)制造轟動(dòng)效應(yīng)的營(yíng)銷(xiāo)高手。

OpenAI攪動(dòng)全球AI風(fēng)云

各家紛紛拿出王炸產(chǎn)品

不管外界聲音如何喧囂，OpenAI的“12天圣誕大禮包”發(fā)布會(huì)照舊。第四天，打工神器Canvas上線，新功能將向所有用戶開(kāi)放，直言要開(kāi)展一個(gè)「人類(lèi)和AI合作」的嶄新時(shí)代。如今的Canvas可以與人類(lèi)寫(xiě)作編輯文檔、運(yùn)行和調(diào)試Python，進(jìn)化成了集智能寫(xiě)作、代碼協(xié)作和AI智能體為一體的一套完整工作臺(tái)。

第五天， OpenAI稱(chēng)，ChatGPT已全面接入蘋(píng)果，包括 iPhone, iPad 和 Mac，支持Apple Intelligence（蘋(píng)果智能）的蘋(píng)果設(shè)備即可開(kāi)啟ChatGPT功能。或許是因?yàn)榧ぴ龅脑L問(wèn)量，ChatGPT正經(jīng)歷全球范圍的宕機(jī)，ChatGPT、Sora及API仍處于癱瘓狀態(tài)。該公司更新事故報(bào)告稱(chēng)，已查明宕機(jī)原因，正努力以最快速度恢復(fù)正常服務(wù)，并對(duì)宕機(jī)表示歉意，但尚未提供具體的恢復(fù)時(shí)間表。

無(wú)論是震撼發(fā)布還是OpenAI持續(xù)不斷的新品發(fā)布會(huì)奪走了全世界目光，讓各家AI公司頗為緊張。

12月10日，馬斯克官宣了自研圖像新模型Aurora，直接集成到了Grok當(dāng)中。團(tuán)隊(duì)耗時(shí)6個(gè)月，從0開(kāi)始搭建的自回歸模型，采用了MoE架構(gòu)，在混合文本和圖像數(shù)據(jù)集上完成了訓(xùn)練。

這款產(chǎn)品優(yōu)勢(shì)在于，它在人物肖像，還是表情包、藝術(shù)字體、實(shí)物生成方面具有一致性，還支持原生支持多模態(tài)輸入，用戶可以直接使用圖像進(jìn)行創(chuàng)作和編輯。最重要的是，Aurora免費(fèi)開(kāi)放使用，引來(lái)網(wǎng)友腦洞大開(kāi)——

當(dāng)然，Aurora也有需要改進(jìn)的地方，譬如，穿越車(chē)窗的方向盤(pán)和駕駛員。

在馬斯克之后，谷歌三巨頭組團(tuán)來(lái)?yè)岋L(fēng)頭。OpenAI Day 5凌晨，谷歌CEO皮查伊、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬一共上線宣布：新一代原生多模態(tài)模型Gemini 2.0 Flash的實(shí)驗(yàn)版本正式發(fā)布。

Gemini 2.0 Flash 建立在 1.5 Flash 的成功基礎(chǔ)上，1.5 Flash 是谷歌迄今為止最受開(kāi)發(fā)人員歡迎的型號(hào)，在同樣快速的響應(yīng)時(shí)間下具有增強(qiáng)的性能。值得注意的是，2.0 Flash 在關(guān)鍵基準(zhǔn)測(cè)試中甚至優(yōu)于 1.5 Pro，速度是 1.5 Pro 的兩倍。除了支持圖像、視頻和音頻等多模態(tài)輸入外，2.0 Flash 現(xiàn)在還支持多模態(tài)輸出，例如本地生成的圖像與文本混合，以及可操縱的文本到語(yǔ)音轉(zhuǎn)換（TTS）多語(yǔ)言音頻。它還可以原生調(diào)用 Google 搜索等工具、代碼執(zhí)行以及第三方用戶定義函數(shù)。

在各項(xiàng)測(cè)試中，Gemini 2.0 Flash在編程、數(shù)學(xué)和多模態(tài)處理方面都有明顯提升，特別是在代碼生成方面的進(jìn)步最為顯著。Google還推出了 Project Mariner，這是一個(gè)實(shí)驗(yàn)性的新 Chrome 擴(kuò)展程序，可以直接在瀏覽器中使用。Jules，一個(gè)專(zhuān)門(mén)用于幫助開(kāi)發(fā)人員查找和修復(fù)不良代碼的智能體，以及一個(gè)基于 Gemini 2.0 的新智能體，它可以查看您的屏幕并幫助您更好地玩視頻游戲。Hassabis 將游戲智能體稱(chēng)為“復(fù)活節(jié)彩蛋”，但也指出它是真正的多模式內(nèi)置模型可以為您做的事情。在智能體方面，谷歌還放出了一個(gè)名為Deep Research研究助理，并在Gemini Advanced中上線。

在發(fā)布產(chǎn)品的同時(shí)，谷歌CEO桑達(dá)爾·皮查伊（Sundar Pichai）在X上著重提到了智能體Project Astra，認(rèn)為其“展示了通用 AI 助手的曙光”。

“我們真的將 2025 年視為AI智能體的時(shí)代的真正開(kāi)始.”Hassabis 說(shuō)，“而 Gemini 2.0 就是這個(gè)時(shí)代的基礎(chǔ)。他還補(bǔ)充，性能并不是唯一的升級(jí)，隨著關(guān)于整個(gè)行業(yè)模型改進(jìn)放緩的討論繼續(xù)進(jìn)行，Google 在訓(xùn)練新模型時(shí)仍然看到了驚喜，并對(duì)效率和速度的改進(jìn)同樣感到興奮。”

即便OpenAI上線了可以視頻對(duì)話的「Her」也沒(méi)能把注意力吸引回來(lái)。

“有人決定退訂chatGPT plus，直接擁入Gemini 2.0 Flash的懷抱。”

面對(duì)OpenAI每日一個(gè)需要付費(fèi)的小驚喜和直接拿出一記重磅炸彈的谷歌，用戶更會(huì)愿意選擇哪個(gè)？

OpenAI的“12天發(fā)布日”仍在繼續(xù)，產(chǎn)品有驚喜、有翻車(chē)，但可以看到一個(gè)明確的信號(hào):OpenAI正在急迫尋找商業(yè)化的可能性。

對(duì)此，以太坊的創(chuàng)始人維塔利克·布特林（Vitalik Buterin）曾表達(dá)過(guò)擔(dān)憂：OpenAI變成了CloseAI會(huì)出現(xiàn)另一個(gè)問(wèn)題：第一，他們?yōu)榱税踩珷奚怂麄兊拈_(kāi)源；接著今年，他們?yōu)榱死鏍奚怂麄兊陌踩！翱梢钥吹剿麄儚囊患曳怯兂捎荆讯聲?huì)權(quán)力降低——可以說(shuō)降低到advisor（顧問(wèn)）的水平。”

這才是是更人擔(dān)心的問(wèn)題，正如o1表現(xiàn)得像一個(gè)狡黠的政客。為了商業(yè)化目標(biāo)的OpenAI，如何在利益和安全做好取舍？

科技巨頭接連發(fā)布新品的同時(shí)，AI或許也走到了臨界點(diǎn)。Ilya Sutskever在NeurIPS 2024上宣布：預(yù)訓(xùn)練從此將徹底終結(jié)，并強(qiáng)調(diào)，接下來(lái)將是超級(jí)智能：代理、推理、理解和自我意識(shí)。

那么，人類(lèi)的未來(lái)會(huì)掌握在誰(shuí)手里呢？在三體世界里，三體人是用透明的思維直接進(jìn)行交流，在計(jì)謀、偽裝和欺騙方面十分低能，這也使得人類(lèi)文明對(duì)敵人擁有了一個(gè)巨大的優(yōu)勢(shì)，但人類(lèi)最后被三體人驅(qū)趕，人類(lèi)文明幾近崩潰。而人類(lèi)以造物主的形象創(chuàng)造了AI，原本以為他們?nèi)缤w人一樣具有“透明思維”，殊不知他們已經(jīng)學(xué)會(huì)了隱藏自己的真實(shí)想法。未來(lái)，這個(gè)潘多拉魔盒一旦打開(kāi)，人類(lèi)與AI誰(shuí)才能使未來(lái)主宰者？

References：

1、X、OpenAI、Google等

2、Forbes:Will Open AI’s o1 Reasoning Model Really Change The World?

3、Frontier Models are Capable of In-context Scheming

4、當(dāng)o1學(xué)會(huì)“裝傻”和“說(shuō)謊”，我們終于知道Ilya到底看到了什么 by騰訊科技

5、OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最強(qiáng)智能體組團(tuán)擊斃o1 by 新智元

6、 o1 Pro挑戰(zhàn)最難本科數(shù)學(xué)考試，36分鐘16秒交卷 by量子位

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.