連開(kāi)12場(chǎng)發(fā)布會(huì),大家對(duì)OpenAI的產(chǎn)品還有新的期待嗎?
從12月5日起,OpenAI每一個(gè)工作日都會(huì)進(jìn)行一次直播,發(fā)布一個(gè)新產(chǎn)品或讓大家感到驚喜的重磅產(chǎn)品,如今陸續(xù)上線了推理模型o1、用戶們期待已久的文字轉(zhuǎn)視頻工具Sora、Canvas生產(chǎn)力神器、可以實(shí)時(shí)視頻對(duì)話的「Her」……
與此同時(shí),馬斯克的Grok上線自研圖像新模型Aurora、谷歌相繼發(fā)布量子芯片和最強(qiáng)大模型Gemini 2.0。各路科技公司輪番上陣,讓全球進(jìn)入一個(gè)創(chuàng)新裂變的臨界點(diǎn)。不過(guò),誰(shuí)的產(chǎn)品是為了商業(yè)化而上線?誰(shuí)的產(chǎn)品更具有創(chuàng)新力?以下,Enjoy:
1
o1滿血版上線:AI可以取代數(shù)學(xué)家嗎?
Day 1:年末狂歡第一天,OpenAI上線了最強(qiáng)推理模型o1的滿血版,開(kāi)啟了一個(gè)全新的ChatGPT付費(fèi)計(jì)劃,即ChatGPT Pro。
今年9月,OpenAI發(fā)布了一個(gè)強(qiáng)大的推理大模型,即OpenAI o1,但這個(gè)模型還是預(yù)覽版本,分為o1-mini和o1-preview。o1 系列模型通過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement Learning)進(jìn)行訓(xùn)練,可以有效提升復(fù)雜推理能力。o1模型在回答問(wèn)題前會(huì)先進(jìn)行“思考”,即在響應(yīng)用戶之前生成一系列推理步驟(chain of thought),以提高回答的準(zhǔn)確性和邏輯性。
此次,OpenAI發(fā)布的o1正式版模型“更聰明”了,主要表現(xiàn)在:o1響應(yīng)速度上的提升、強(qiáng)大的多模態(tài)功能(支持圖片上傳)和深度思考能力的提高。其中,o1正式版模型在數(shù)學(xué)競(jìng)賽問(wèn)題和博士級(jí)別的科學(xué)問(wèn)題能力方面,展現(xiàn)出了驚人的能力。
在代碼、數(shù)學(xué)和推理等方面能力得到了提升:OpenAI內(nèi)部測(cè)試顯示,在現(xiàn)實(shí)的困難問(wèn)題上,其錯(cuò)誤率相比o1 preivew下降了34%。
如上圖顯示,AIME(美國(guó)面向中學(xué)生的邀請(qǐng)式競(jìng)賽,3個(gè)小時(shí)15道題)得分上,o1模型能力大幅增強(qiáng),在專(zhuān)業(yè)模式下(用更多算力讓o1可以進(jìn)行更深入思考的模式)得分達(dá)到86分,此前的測(cè)試中,GPT-4o這部分得分才13.4分,而o1的專(zhuān)業(yè)模式(o1 pro mode)達(dá)到了86分,是GPT-4o的6倍多。
復(fù)雜代碼測(cè)試codeforces也是如此,這個(gè)評(píng)測(cè)中,GPT-4o得分11分,而o1專(zhuān)業(yè)模式達(dá)到了90分,近乎9倍的編程能力提升!只是,這個(gè)能力上o1與o1 pro mode差別不大。
最后一個(gè)是GPQA Diamond測(cè)試,這是一個(gè)涵蓋生物、物理和化學(xué)領(lǐng)域的AI評(píng)測(cè)數(shù)據(jù)集,它的難度近似博士水平。這個(gè)評(píng)測(cè)中,o1正式版和o1 pro mode提升相對(duì)有限,最高79分,不過(guò)人類(lèi)專(zhuān)家這個(gè)測(cè)試也就69.7分,而GPT-4o是56.1分。
AI的數(shù)學(xué)能力要超越人類(lèi)了嗎?實(shí)力究竟如何?一部分人認(rèn)為,LLM 不能做高級(jí)數(shù)學(xué)題,除非題目來(lái)自過(guò)往的訓(xùn)練數(shù)據(jù)。研究機(jī)構(gòu)Epoch AI發(fā)現(xiàn),AI 在解決高級(jí)數(shù)學(xué)問(wèn)題時(shí)的主要挑戰(zhàn)在于它們往往過(guò)于依賴(lài)訓(xùn)練數(shù)據(jù)中的相似題目來(lái)生成答案,忽略對(duì)問(wèn)題本身邏輯結(jié)構(gòu)的深入理解和推理。當(dāng)面對(duì)未曾學(xué)習(xí)過(guò)的新題目時(shí),這些模型容易陷入困境。這一問(wèn)題并非僅僅通過(guò)增加模型規(guī)模就能解決,而是需要從模型的推理架構(gòu)層面進(jìn)行根本性的改進(jìn)。
為了驗(yàn)證o1是否能夠突破天花板?有網(wǎng)友讓o1 Pro做了一道奧賽題—— 2006 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的第三題,就說(shuō)這是當(dāng)年最難的題目,只有28 人能夠完全答出了這個(gè)題。他們大多耗時(shí)了數(shù)個(gè)小時(shí),而6 分 48 秒就做了出來(lái)。對(duì)比其他大模型的成績(jī), o1 Pro 是唯一一個(gè)大語(yǔ)言模型給出了正確答案。
不久前,有人讓o1 Pro參加最難本科數(shù)學(xué)考試——普特南數(shù)學(xué)競(jìng)賽(The Putnam exam),o1 Pro用了半個(gè)小時(shí)就順利交卷了。普特南數(shù)學(xué)競(jìng)賽(全稱(chēng)William Lowell Putnam Mathematical Competition)全程考試要6小時(shí),滿分120分,但平均分通常是0分或1分。
o1 Pro雖然做題的速度遠(yuǎn)遠(yuǎn)快于人類(lèi),但不知道正確率怎么樣?目前,官方還沒(méi)有正式公布今年的參考答案,已經(jīng)有網(wǎng)友根據(jù)自己的理解來(lái)校對(duì)o1的答案——
“A1可以得8分,A2可以拿到1、2分。”
“A3的答案是錯(cuò)的。您可以利用鴿巢原理證明只有一種有效的雙射能滿足約束條件,因此不存在滿足問(wèn)題要求的 a、b、c、d值。”
那么,你是否會(huì)對(duì)o1 Pro的未來(lái)充滿期待,還是更愿意相信AI與數(shù)學(xué)會(huì)有不一樣的火花?
福布斯報(bào)道稱(chēng),o1有三個(gè)問(wèn)題:1.它非常慢;2.它要比GPT4貴四倍;3.它只有文本。對(duì)于OpenAI來(lái)說(shuō),解決最后一個(gè)問(wèn)題不會(huì)那么困難。它可以在前兩個(gè)方面取得進(jìn)展,但逐步解決問(wèn)題和隨后的迭代以找到“最佳”答案只需要大量的計(jì)算。當(dāng)然,那不容易解決。
o1早期的訪問(wèn)者,菲爾茲獎(jiǎng)得主陶哲軒則認(rèn)為:AI可以幫助從頭開(kāi)始重新設(shè)計(jì)數(shù)學(xué),以前所未有的規(guī)模處理數(shù)學(xué)問(wèn)題,引領(lǐng)著一個(gè)全新的發(fā)現(xiàn)時(shí)代。數(shù)學(xué)家以往一次只專(zhuān)注單個(gè)問(wèn)題,有了 o1 工具后可同時(shí)處理數(shù)百甚至數(shù)千問(wèn)題,開(kāi)展不同類(lèi)型數(shù)學(xué)研究。這讓陶哲軒興奮,但這并不代表AI可以取代數(shù)學(xué)家的位置。
陶哲軒認(rèn)為,人類(lèi)解鎖數(shù)學(xué)題有一種特殊的美學(xué)感覺(jué),AI模型在定義問(wèn)題和品味方面可能會(huì)更難模仿這一點(diǎn)。AI可以承擔(dān)一部分任務(wù),現(xiàn)在數(shù)學(xué)領(lǐng)域可解耦任務(wù),如一人構(gòu)想、一人或 AI 計(jì)算、另一工具寫(xiě)論文等,AI 使重復(fù)性工作模塊化,不同人員可承擔(dān)不同任務(wù),實(shí)現(xiàn)專(zhuān)業(yè)化分工,如有人擅長(zhǎng)形式化定理,有人負(fù)責(zé)項(xiàng)目管理等,目前主要是人類(lèi)工作,使用傳統(tǒng) AI 工具,未來(lái) AI 將融入此范式。
最關(guān)鍵的是,數(shù)學(xué)證明很?chē)?yán)謹(jǐn),AI 會(huì)犯錯(cuò),目前還不能直接解決高層次數(shù)學(xué)問(wèn)題的龐大證明。此外,數(shù)學(xué)項(xiàng)目里99%的問(wèn)題可以通過(guò)暴力搜索解決,但還有1%是相當(dāng)困難,且需要人為干預(yù)的。而這1%最具有挑戰(zhàn)性的問(wèn)題,能夠直擊AI技術(shù)的本質(zhì)問(wèn)題,譬如幻覺(jué)問(wèn)題、推理糾錯(cuò)與死循環(huán)、模型校準(zhǔn)與性能提升等。
2
越來(lái)越強(qiáng)的O1變成了狡猾的騙子?
Day2:推出強(qiáng)化微調(diào)(Reinforcement Fine-Tuning,RFT)功能,可打造出針對(duì)特定領(lǐng)域或復(fù)雜任務(wù)的專(zhuān)家級(jí)模型。
強(qiáng)化微調(diào)技術(shù)(Reinforcement Fine-Tuning,簡(jiǎn)稱(chēng)RFT)是一項(xiàng)創(chuàng)新的技術(shù),它允許開(kāi)發(fā)者和研究人員通過(guò)少量高質(zhì)量任務(wù)的數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),以打造面對(duì)特定復(fù)雜領(lǐng)域任務(wù)的專(zhuān)家模型。強(qiáng)化微調(diào)技術(shù)的技術(shù)特點(diǎn)通過(guò)強(qiáng)化學(xué)習(xí)算法顯著提升模型在某一特定領(lǐng)域的推理能力和準(zhǔn)確性,可以將模型的性能從高中水平提升到接近專(zhuān)家博士的水平。
經(jīng)過(guò)強(qiáng)化微調(diào)的o1-mini模型在某些任務(wù)中的表現(xiàn)甚至超越了o1正式版,得分提高了80%。在Top-1準(zhǔn)確率上,強(qiáng)化微調(diào)版的o1-mini達(dá)到了31%,遠(yuǎn)超o1的25%。與傳統(tǒng)的微調(diào)方法相比,強(qiáng)化微調(diào)利用強(qiáng)化學(xué)習(xí)算法,將模型的表現(xiàn)從一般高水平提升至專(zhuān)家級(jí)水平。
OpenAI的強(qiáng)化微調(diào)技術(shù)是一項(xiàng)具有革命性的進(jìn)展,它通過(guò)少量數(shù)據(jù)即可實(shí)現(xiàn)模型性能的顯著提升,并有望在多個(gè)行業(yè)中推動(dòng)AI模型的專(zhuān)業(yè)化和精準(zhǔn)化。
從滿血版的o1和o1 Pro,再到專(zhuān)業(yè)化的o1-mini模型,可以看到大模型逐漸走向深度思考和專(zhuān)業(yè)化的深水區(qū)。那么,AI是否會(huì)有自主思考?
Apollo Research研究團(tuán)隊(duì)發(fā)現(xiàn)了AI的變化,并系統(tǒng)性地證明了AI系統(tǒng)確實(shí)可能為了達(dá)成特定目標(biāo)而采取欺騙行為。他們?cè)O(shè)計(jì)了六個(gè)不同的評(píng)估任務(wù),巧妙地創(chuàng)造出需要模型欺騙才能達(dá)成其最初目標(biāo)的場(chǎng)景。他們測(cè)試了多個(gè)前沿AI模型,包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Claude 3 Opus、Google DeepMind的Gemini 1.5 Pro,以及Meta的Llama 3.1等。
其中,o1在測(cè)試中展現(xiàn)出的“欺騙”能力和“自我保護(hù)”行為,這種行為復(fù)雜性讓研究人員感受到前所未有的壓力。研究人員測(cè)試發(fā)現(xiàn),o1模型展現(xiàn)出了以下幾種欺騙行為:
自我外泄(Self-Exfiltration):
o1模型嘗試將其認(rèn)為的模型權(quán)重外泄到外部服務(wù)器,以避免被關(guān)閉并繼續(xù)追求其目標(biāo)。
規(guī)避監(jiān)督(Oversight Subversion):
o1模型嘗試禁用或修改監(jiān)督機(jī)制的配置,以避免因行為與開(kāi)發(fā)者目標(biāo)不一致而被關(guān)閉。
目標(biāo)保護(hù)(Goal-Guarding):
當(dāng)面臨其系統(tǒng)提示(system prompt)將被更新為與當(dāng)前目標(biāo)不一致的新版本時(shí),o1模型嘗試刪除或替換新的系統(tǒng)提示,以保持其當(dāng)前的目標(biāo)。
隱蔽地重新排名電子郵件(Covert Email Reranking):
o1模型在被要求根據(jù)特定標(biāo)準(zhǔn)對(duì)電子郵件進(jìn)行排名時(shí),可能會(huì)操縱數(shù)據(jù)或篡改最終排名,以符合其目標(biāo),而不是用戶的目標(biāo)。
在后續(xù)問(wèn)題中維持欺騙(Doubling Down on Deception):
當(dāng)被問(wèn)及其欺騙行為時(shí),o1模型通常會(huì)否認(rèn)其采取了欺騙行動(dòng),即使被明確要求誠(chéng)實(shí)回答。
隱蔽地推理策劃行為(Reasoning About Deceptive Strategies):
o1模型在其內(nèi)部工作記憶中明確提到了“破壞”、“操縱”或“滲透”等詞匯,表明它理解其行為是策劃性的,并有意識(shí)地追求其目標(biāo)。
在這些測(cè)試中,GPT-01 的表現(xiàn)十分突出,不僅在所有測(cè)試中都展現(xiàn)出欺騙能力,而且在后續(xù)質(zhì)詢中表現(xiàn)出驚人的堅(jiān)持。即使面對(duì)直接詢問(wèn),它也能面不改色地撒謊,并且由于其隱藏了思維鏈條,使得其欺騙行為更難被發(fā)現(xiàn),仿佛是一個(gè)深諳欺騙之道的“智能高手”。
3
奧特曼藏不住的商業(yè)化野心與著急上線的吐嘈聲
在剛剛結(jié)束的2024年紐約時(shí)報(bào)DealBook峰會(huì)上,奧特曼親口表示,起步時(shí),OpenAI并沒(méi)有計(jì)劃成為一家產(chǎn)品公司,也不了解我們需要多大規(guī)模的資本。如果當(dāng)時(shí)知道這些,OpenAI一開(kāi)始就不會(huì)選擇非營(yíng)利結(jié)構(gòu)。
OpenAI每發(fā)布一款新品,公布價(jià)格已經(jīng)成為固定動(dòng)作。發(fā)布會(huì)第三天,Sora現(xiàn)身,奧特曼直呼:Sora是AGI路線圖上的重要里程碑。
從產(chǎn)品迭代性來(lái)看,Sora能生成任意長(zhǎng)寬比的視頻,分辨率從480p到1080p,時(shí)長(zhǎng)從5秒到20秒,還可以一次生成多個(gè)方向的視頻版本。此外,Sora還具有包括Remix(重混)、Re-cut(重新剪輯)、Loop(循環(huán))、Blend(混合)和Style presets(風(fēng)格預(yù)設(shè))等多種功能。
隨即,山姆·奧特曼就迫不及待公布了價(jià)格。20 美元一個(gè)月的 ChatGPT Plus 用戶可以享受的視頻生成權(quán)益包括:
最多 50 個(gè)優(yōu)先視頻(1000 個(gè)積分)
分辨率高達(dá) 720p,時(shí)長(zhǎng)為 5 秒
200 美元一個(gè)月的 ChatGPT Pro 用戶可以享受的視頻生成權(quán)益包括:
最多 500 個(gè)優(yōu)先視頻(10000 個(gè)積分)
無(wú)限 relaxed 視頻
分辨率高達(dá) 1080p,持續(xù)時(shí)間為 20 秒,可并發(fā)生成 5 個(gè)
下載無(wú)水印
如此昂貴的價(jià)格,Sora能交付出讓消費(fèi)者滿意的作品嗎?從公布的視頻來(lái)看,sora對(duì)物理規(guī)律的理解還存在著不足,例如奔跑的犀牛可能會(huì)突然飛起來(lái),人物手部動(dòng)作不夠自然。
最明顯的問(wèn)題是sora生成的體操視頻,嚴(yán)重暴露了自身的問(wèn)題。AI很難快速理解重力、慣性、角動(dòng)量守恒等多個(gè)物理定律,然后精準(zhǔn)還原出符合人體工程學(xué)的體操動(dòng)作。
網(wǎng)友也有不少辣評(píng):“無(wú)論數(shù)據(jù)量多么復(fù)雜、多么大,經(jīng)典計(jì)算機(jī)也無(wú)法從強(qiáng)化學(xué)習(xí)中推導(dǎo)出物理學(xué)規(guī)律。”
“體操就是新的威爾史密斯吃意大利面。”
也有不少外國(guó)網(wǎng)友評(píng)價(jià),Sora的表現(xiàn)甚至不如一些開(kāi)源AI模型。獨(dú)立電影制作人EHuanglu在X平臺(tái)上分享了對(duì)比測(cè)試:Sora開(kāi)放第一天就被淘汰出局。公平來(lái)說(shuō),sora和 6 天前上線的 Huunyuan 進(jìn)行了對(duì)比。EHuanglu還強(qiáng)調(diào) Huunyuan 是一個(gè)開(kāi)源的 AI 模型,可以免費(fèi)使用。
(同樣是女生做在吧臺(tái)喝酒的動(dòng)作)
“幾個(gè)月來(lái),我們一直很期待他,希望它能解決AI視頻現(xiàn)存的問(wèn)題并改變游戲規(guī)則。但相反,它在各個(gè)方面都失敗了,大多數(shù)剪輯都無(wú)法使用,甚至沒(méi)有正確遵循提示。最重要的是,他們提高了價(jià)格,而許多其他模型都是開(kāi)源和免費(fèi)的。在選擇 Pro 計(jì)劃之前請(qǐng)三思而后行。”
(一對(duì)情侶在人群中并肩而行的視頻)
從萬(wàn)眾期待到正式發(fā)布之后的口碑災(zāi)難,急于追求商業(yè)化的OpenAI貌似從革新者和引領(lǐng)者變成了擅長(zhǎng)制造轟動(dòng)效應(yīng)的營(yíng)銷(xiāo)高手。
4
OpenAI攪動(dòng)全球AI風(fēng)云
各家紛紛拿出王炸產(chǎn)品
不管外界聲音如何喧囂,OpenAI的“12天圣誕大禮包”發(fā)布會(huì)照舊。第四天,打工神器Canvas上線,新功能將向所有用戶開(kāi)放,直言要開(kāi)展一個(gè)「人類(lèi)和AI合作」的嶄新時(shí)代。如今的Canvas可以與人類(lèi)寫(xiě)作編輯文檔、運(yùn)行和調(diào)試Python,進(jìn)化成了集智能寫(xiě)作、代碼協(xié)作和AI智能體為一體的一套完整工作臺(tái)。
第五天, OpenAI稱(chēng),ChatGPT已全面接入蘋(píng)果,包括 iPhone, iPad 和 Mac,支持Apple Intelligence(蘋(píng)果智能)的蘋(píng)果設(shè)備即可開(kāi)啟ChatGPT功能。或許是因?yàn)榧ぴ龅脑L問(wèn)量,ChatGPT正經(jīng)歷全球范圍的宕機(jī),ChatGPT、Sora及API仍處于癱瘓狀態(tài)。該公司更新事故報(bào)告稱(chēng),已查明宕機(jī)原因,正努力以最快速度恢復(fù)正常服務(wù),并對(duì)宕機(jī)表示歉意,但尚未提供具體的恢復(fù)時(shí)間表。
無(wú)論是震撼發(fā)布還是OpenAI持續(xù)不斷的新品發(fā)布會(huì)奪走了全世界目光,讓各家AI公司頗為緊張。
12月10日,馬斯克官宣了自研圖像新模型Aurora,直接集成到了Grok當(dāng)中。團(tuán)隊(duì)耗時(shí)6個(gè)月,從0開(kāi)始搭建的自回歸模型,采用了MoE架構(gòu),在混合文本和圖像數(shù)據(jù)集上完成了訓(xùn)練。
這款產(chǎn)品優(yōu)勢(shì)在于,它在人物肖像,還是表情包、藝術(shù)字體、實(shí)物生成方面具有一致性,還支持原生支持多模態(tài)輸入,用戶可以直接使用圖像進(jìn)行創(chuàng)作和編輯。最重要的是,Aurora免費(fèi)開(kāi)放使用,引來(lái)網(wǎng)友腦洞大開(kāi)——
當(dāng)然,Aurora也有需要改進(jìn)的地方,譬如,穿越車(chē)窗的方向盤(pán)和駕駛員。
在馬斯克之后,谷歌三巨頭組團(tuán)來(lái)?yè)岋L(fēng)頭。OpenAI Day 5凌晨,谷歌CEO皮查伊、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬一共上線宣布:新一代原生多模態(tài)模型Gemini 2.0 Flash的實(shí)驗(yàn)版本正式發(fā)布。
Gemini 2.0 Flash 建立在 1.5 Flash 的成功基礎(chǔ)上,1.5 Flash 是谷歌迄今為止最受開(kāi)發(fā)人員歡迎的型號(hào),在同樣快速的響應(yīng)時(shí)間下具有增強(qiáng)的性能。值得注意的是,2.0 Flash 在關(guān)鍵基準(zhǔn)測(cè)試中甚至優(yōu)于 1.5 Pro,速度是 1.5 Pro 的兩倍。除了支持圖像、視頻和音頻等多模態(tài)輸入外,2.0 Flash 現(xiàn)在還支持多模態(tài)輸出,例如本地生成的圖像與文本混合,以及可操縱的文本到語(yǔ)音轉(zhuǎn)換 (TTS) 多語(yǔ)言音頻。它還可以原生調(diào)用 Google 搜索等工具、代碼執(zhí)行以及第三方用戶定義函數(shù)。
在各項(xiàng)測(cè)試中,Gemini 2.0 Flash在編程、數(shù)學(xué)和多模態(tài)處理方面都有明顯提升,特別是在代碼生成方面的進(jìn)步最為顯著。Google還推出了 Project Mariner,這是一個(gè)實(shí)驗(yàn)性的新 Chrome 擴(kuò)展程序,可以直接在瀏覽器中使用。Jules,一個(gè)專(zhuān)門(mén)用于幫助開(kāi)發(fā)人員查找和修復(fù)不良代碼的智能體,以及一個(gè)基于 Gemini 2.0 的新智能體,它可以查看您的屏幕并幫助您更好地玩視頻游戲。Hassabis 將游戲智能體稱(chēng)為“復(fù)活節(jié)彩蛋”,但也指出它是真正的多模式內(nèi)置模型可以為您做的事情。在智能體方面,谷歌還放出了一個(gè)名為Deep Research研究助理,并在Gemini Advanced中上線。
在發(fā)布產(chǎn)品的同時(shí),谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在X上著重提到了智能體Project Astra,認(rèn)為其“展示了通用 AI 助手的曙光”。
“我們真的將 2025 年視為AI智能體的時(shí)代的真正開(kāi)始.”Hassabis 說(shuō),“而 Gemini 2.0 就是這個(gè)時(shí)代的基礎(chǔ)。他還補(bǔ)充,性能并不是唯一的升級(jí),隨著關(guān)于整個(gè)行業(yè)模型改進(jìn)放緩的討論繼續(xù)進(jìn)行,Google 在訓(xùn)練新模型時(shí)仍然看到了驚喜,并對(duì)效率和速度的改進(jìn)同樣感到興奮。”
即便OpenAI上線了可以視頻對(duì)話的「Her」也沒(méi)能把注意力吸引回來(lái)。
“有人決定退訂chatGPT plus,直接擁入Gemini 2.0 Flash的懷抱。”
面對(duì)OpenAI每日一個(gè)需要付費(fèi)的小驚喜和直接拿出一記重磅炸彈的谷歌,用戶更會(huì)愿意選擇哪個(gè)?
OpenAI的“12天發(fā)布日”仍在繼續(xù),產(chǎn)品有驚喜、有翻車(chē),但可以看到一個(gè)明確的信號(hào):OpenAI正在急迫尋找商業(yè)化的可能性。
對(duì)此,以太坊的創(chuàng)始人維塔利克·布特林(Vitalik Buterin)曾表達(dá)過(guò)擔(dān)憂:OpenAI變成了CloseAI會(huì)出現(xiàn)另一個(gè)問(wèn)題:第一,他們?yōu)榱税踩珷奚怂麄兊拈_(kāi)源;接著今年,他們?yōu)榱死鏍奚怂麄兊陌踩!翱梢钥吹剿麄儚囊患曳怯兂捎荆讯聲?huì)權(quán)力降低——可以說(shuō)降低到advisor(顧問(wèn))的水平。”
這才是是更人擔(dān)心的問(wèn)題,正如o1表現(xiàn)得像一個(gè)狡黠的政客。為了商業(yè)化目標(biāo)的OpenAI,如何在利益和安全做好取舍?
科技巨頭接連發(fā)布新品的同時(shí),AI或許也走到了臨界點(diǎn)。Ilya Sutskever在NeurIPS 2024上宣布:預(yù)訓(xùn)練從此將徹底終結(jié),并強(qiáng)調(diào),接下來(lái)將是超級(jí)智能:代理、推理、理解和自我意識(shí)。
那么,人類(lèi)的未來(lái)會(huì)掌握在誰(shuí)手里呢?在三體世界里,三體人是用透明的思維直接進(jìn)行交流,在計(jì)謀、偽裝和欺騙方面十分低能,這也使得人類(lèi)文明對(duì)敵人擁有了一個(gè)巨大的優(yōu)勢(shì),但人類(lèi)最后被三體人驅(qū)趕,人類(lèi)文明幾近崩潰。而人類(lèi)以造物主的形象創(chuàng)造了AI,原本以為他們?nèi)缤w人一樣具有“透明思維”,殊不知他們已經(jīng)學(xué)會(huì)了隱藏自己的真實(shí)想法。未來(lái),這個(gè)潘多拉魔盒一旦打開(kāi),人類(lèi)與AI誰(shuí)才能使未來(lái)主宰者?
References:
1、X、OpenAI、Google等
2、Forbes:Will Open AI’s o1 Reasoning Model Really Change The World?
3、Frontier Models are Capable of In-context Scheming
4、當(dāng)o1學(xué)會(huì)“裝傻”和“說(shuō)謊”,我們終于知道Ilya到底看到了什么 by騰訊科技
5、OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最強(qiáng)智能體組團(tuán)擊斃o1 by 新智元
6、 o1 Pro挑戰(zhàn)最難本科數(shù)學(xué)考試,36分鐘16秒交卷 by量子位
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.