99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

谷歌推出首款混合推理模型,思考程度可控,實(shí)現(xiàn)“按需付費(fèi)”

0
分享至


(來源:MIT Technology Review)

自 2019 年起,讓 AI 模型變得更強(qiáng)大的方法層出不窮。一種是使用更多訓(xùn)練數(shù)據(jù),擴(kuò)大模型規(guī)模;另一種則是針對(duì)什么是優(yōu)質(zhì)答案給出更精準(zhǔn)的反饋。而在去年年底,谷歌和其他人工智能公司開始采用第三種方法——推理。

近日,谷歌發(fā)布首個(gè)混合推理模型 Gemini 2.5 Flash,該版本以 Gemini 2.0 Flash 為基礎(chǔ),在推理能力方面進(jìn)行了重大升級(jí),同時(shí)兼顧了速度和成本。

該模型引入了谷歌所謂的“思考預(yù)算”機(jī)制,允許開發(fā)人員指定在生成響應(yīng)之前應(yīng)分配多少計(jì)算能力用于推理復(fù)雜問題。有效解決了當(dāng)今人工智能市場的一個(gè)根本矛盾:更復(fù)雜的推理通常以更高的延遲和更高的價(jià)格為代價(jià)。

使用 Gemini 2.5 Flash 時(shí),開發(fā)者每百萬 token 的輸入成本為 0.15 美元。輸出成本則根據(jù)推理設(shè)置而存在顯著差異:關(guān)閉思考功能時(shí)每百萬 token 為 0.60 美元,而啟用推理功能時(shí)則每百萬 token 為 3.50 美元。

推理輸出的近六倍價(jià)格差異反映了“思考”過程的計(jì)算強(qiáng)度,其中模型在生成響應(yīng)之前會(huì)評(píng)估多種潛在路徑和考慮因素。思考預(yù)算可以從 0 調(diào)整到 24,576 個(gè) token,作為最大限制而非固定分配。據(jù)谷歌稱,該模型會(huì)根據(jù)任務(wù)的復(fù)雜性智能地確定使用多少思考預(yù)算,從而在不需要復(fù)雜推理時(shí)節(jié)省資源。

谷歌聲稱,Gemini 2.5 Flash 在關(guān)鍵基準(zhǔn)測試中展現(xiàn)出極具競爭力的性能,同時(shí)保持了比其他同類產(chǎn)品更小的模型規(guī)模。在“人類最后一次考試”(一項(xiàng)旨在評(píng)估推理和知識(shí)的嚴(yán)格測試)中,2.5 Flash 的得分為 12.1%,優(yōu)于 Anthropic 的 Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),但略低于 OpenAI 近期推出的 o4-mini(14.3%)。該模型在知識(shí)問答(GPQA)和數(shù)學(xué)(AIME 2025/2024)等技術(shù)基準(zhǔn)上也取得了優(yōu)異的成績。



DeepMind 首席研究科學(xué)家 Jack Rae 表示:“我們一直在推動(dòng)模型思考。”這類模型旨在通過邏輯推理解決問題,為得出答案會(huì)花費(fèi)更多時(shí)間。隨著 DeepSeek R1 模型在今年早些時(shí)候推出,推理模型受到了廣泛關(guān)注。它們對(duì)人工智能公司頗具吸引力,因?yàn)橥ㄟ^訓(xùn)練現(xiàn)有模型以務(wù)實(shí)方式解決問題,能提升現(xiàn)有模型性能,公司也就無需從頭構(gòu)建新模型。

當(dāng) AI 模型在查詢上投入更多時(shí)間和精力時(shí),運(yùn)行成本也會(huì)更高。推理模型排行榜顯示,完成一項(xiàng)任務(wù)的成本可能高達(dá) 200 美元。人們期望這些額外投入的時(shí)間和資金,能幫助推理模型更好地應(yīng)對(duì)諸如代碼分析、從大量文檔中收集信息等具有挑戰(zhàn)性的任務(wù)。

Google DeepMind 首席技術(shù)官 Koray Kavukcuoglu 認(rèn)為:“對(duì)某些假設(shè)和想法思考得越深入,模型就越有可能找到正確答案。”但事實(shí)并非總是如此。Gemini 產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人 Tulsee Doshi 指出,模型確實(shí)存在過度思考的問題,他特別提到了 Gemini Flash 2.5。此次發(fā)布的模型中包含一個(gè)滑塊,開發(fā)人員可通過它調(diào)節(jié)模型的思考程度。

模型在一個(gè)問題上耗時(shí)過長,不僅會(huì)增加開發(fā)人員的運(yùn)行成本,還會(huì)加重人工智能的環(huán)境負(fù)擔(dān)。Hugging Face 的工程師 Nathan Habib 對(duì)推理模型的廣泛應(yīng)用進(jìn)行了研究,他表示過度思考的現(xiàn)象十分普遍。他指出,在急于展示更智能的人工智能的熱潮中,企業(yè)們不管什么情況都想用推理模型,就像手里拿著錘子,看什么都像釘子。實(shí)際上,OpenAI 在 2 月份宣布推出新模型時(shí)表示,這將是該公司最后一個(gè)非推理模型。

Habib 稱,對(duì)于某些任務(wù),推理模型的性能提升“有目共睹”,但對(duì)許多其他人工智能的普通用戶而言并非如此。即便將推理應(yīng)用于合適的問題,也可能出現(xiàn)狀況。他提到一個(gè)例子,一個(gè)領(lǐng)先的推理模型在處理有機(jī)化學(xué)問題時(shí),一開始表現(xiàn)尚可,但推理過程中卻突然 “崩潰”:不斷重復(fù) “等等,但是……”。最終,它在這項(xiàng)任務(wù)上花費(fèi)的時(shí)間遠(yuǎn)超非推理模型。在 DeepMind 負(fù)責(zé)評(píng)估雙子座模型的 Kate Olszewska 也表示,谷歌的模型同樣可能陷入循環(huán)。

谷歌推出的新“推理”滑塊就是為了解決這一問題。目前,該功能并非面向 Gemini 的消費(fèi)者版本,而是供開發(fā)應(yīng)用程序的開發(fā)人員使用。開發(fā)人員可以為模型處理某個(gè)問題時(shí)設(shè)定計(jì)算能力預(yù)算,如果某項(xiàng)任務(wù)無需太多推理,就可以調(diào)低 “思考程度”。開啟推理功能后,模型的輸出成本大約會(huì)提高 6 倍。

設(shè)置這種靈活性的另一個(gè)原因是,目前還難以確定何時(shí)需要更多推理才能得到更好的答案。Jack Rae 表示:“很難界定什么樣的任務(wù)最適合深度思考?!毕窬幋a(開發(fā)人員可能會(huì)將數(shù)百行代碼粘貼到模型中尋求幫助)、生成專業(yè)研究報(bào)告這類任務(wù),很明顯需要深度思考,開發(fā)人員可能會(huì)調(diào)高“思考程度”,并認(rèn)為為此付出的成本是值得的。不過,還需要進(jìn)行更多測試并收集開發(fā)人員的反饋,才能確定在哪些情況下中低 “思考程度”的設(shè)置就足夠了。

Habib 表示,對(duì)推理模型的巨額投資表明,提升模型性能的傳統(tǒng)模式正在發(fā)生改變。他說:“規(guī)模定律正在被取代。”如今,企業(yè)們更傾向于認(rèn)為,讓模型思考更長時(shí)間,比單純擴(kuò)大模型規(guī)模能帶來更好的效果。多年來,人工智能公司在推理(即模型實(shí)際生成答案時(shí))上的投入明顯高于模型訓(xùn)練,并且隨著推理模型的興起,這一支出還會(huì)加速增長。同時(shí),推理過程產(chǎn)生的碳排放也越來越多。

即便推理模型持續(xù)占據(jù)主導(dǎo)地位,谷歌也并非一枝獨(dú)秀。去年 12 月和今年 1 月,DeepSeek 發(fā)布的成果引發(fā)股市市值下跌,因?yàn)樗Q能以較低成本打造強(qiáng)大的推理模型。該模型被稱為“開放權(quán)重”模型,也就是說,其內(nèi)部設(shè)置(即權(quán)重)是公開的,開發(fā)人員無需付費(fèi)使用谷歌或 OpenAI 的專有模型,就能自行運(yùn)行。

那么,既然像 DeepSeek 這樣的開放模型表現(xiàn)如此出色,為什么還有人選擇使用谷歌的專有模型呢?Kavukcuoglu 表示,在編碼、數(shù)學(xué)和金融領(lǐng)域,人們對(duì)模型的準(zhǔn)確性和精確性要求極高,期望模型能理解復(fù)雜情況。他認(rèn)為,無論是否開源,只要能滿足這些要求的模型就能脫穎而出。在 DeepMind 看來,這種推理將成為未來人工智能模型的基礎(chǔ),這些模型將代表你行動(dòng),為你解決問題。

他還提到:“推理是構(gòu)建智能的關(guān)鍵能力。模型開始推理的那一刻,就具備了一定的自主性。”

https://www.technologyreview.com/2025/04/17/1115375/a-google-gemini-model-now-has-a-dial-to-adjust-how-much-it-reasons/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
戰(zhàn)爭來臨前的7個(gè)跡象

戰(zhàn)爭來臨前的7個(gè)跡象

霹靂炮
2025-04-23 23:41:29
長期被“冤枉”的8樣好東西,一直以為是“垃圾”,其實(shí)超健康!

長期被“冤枉”的8樣好東西,一直以為是“垃圾”,其實(shí)超健康!

室內(nèi)設(shè)計(jì)師有料兒
2025-04-09 10:20:47
臺(tái)媒警告大陸:一旦臺(tái)海爆發(fā)戰(zhàn)事,臺(tái)軍將首先擊沉解放軍的航母

臺(tái)媒警告大陸:一旦臺(tái)海爆發(fā)戰(zhàn)事,臺(tái)軍將首先擊沉解放軍的航母

博覽歷史
2025-04-23 08:10:09
反轉(zhuǎn)!尹錫悅二審被證人當(dāng)場打臉,趙成鉉硬剛:你自己心里清楚!

反轉(zhuǎn)!尹錫悅二審被證人當(dāng)場打臉,趙成鉉硬剛:你自己心里清楚!

阿天愛旅行
2025-04-23 00:37:54
蠻好的人生:當(dāng)胡曼黎接李青青的班,才明白,薛曉舟被打回原形

蠻好的人生:當(dāng)胡曼黎接李青青的班,才明白,薛曉舟被打回原形

情感大頭說說
2025-04-24 02:05:38
官宣!乒協(xié)主席換人,劉國梁下課原因揭曉,馬龍新身份,國乒變天

官宣!乒協(xié)主席換人,劉國梁下課原因揭曉,馬龍新身份,國乒變天

侃球熊弟
2025-04-23 10:47:43
人民日報(bào)表揚(yáng)!地鐵替民工出頭女生找到了,本人發(fā)聲,父母很驕傲

人民日報(bào)表揚(yáng)!地鐵替民工出頭女生找到了,本人發(fā)聲,父母很驕傲

野山歷史
2025-04-23 09:53:43
什么是搞“低級(jí)紅”“高級(jí)黑”?中紀(jì)委處分落馬高官首次提及

什么是搞“低級(jí)紅”“高級(jí)黑”?中紀(jì)委處分落馬高官首次提及

南方都市報(bào)
2025-04-23 16:58:07
新疆“虎”李鵬新受賄8.22億被判死緩,減為無期后終身監(jiān)禁

新疆“虎”李鵬新受賄8.22億被判死緩,減為無期后終身監(jiān)禁

界面新聞
2025-04-22 17:34:35
中國銀行、建設(shè)銀行發(fā)布重要公告!事關(guān)黃金產(chǎn)品

中國銀行、建設(shè)銀行發(fā)布重要公告!事關(guān)黃金產(chǎn)品

每日經(jīng)濟(jì)新聞
2025-04-23 10:50:11
2025社保補(bǔ)繳政策落地,60歲不能一次性補(bǔ)繳,斷繳一年損失4000

2025社保補(bǔ)繳政策落地,60歲不能一次性補(bǔ)繳,斷繳一年損失4000

晨曦徐徐
2025-04-18 10:19:52
美軍司令:如果中國敢在臺(tái)海設(shè)立禁飛區(qū),美軍將擊沉解放軍軍艦

美軍司令:如果中國敢在臺(tái)海設(shè)立禁飛區(qū),美軍將擊沉解放軍軍艦

混沌錄
2025-04-17 17:49:16
哺乳期的我剛回公司上班,就被領(lǐng)導(dǎo)兒子提這種要求,我只得這么做

哺乳期的我剛回公司上班,就被領(lǐng)導(dǎo)兒子提這種要求,我只得這么做

親愛的落落
2024-04-22 16:20:04
澤卡紅牌無誤!足協(xié)評(píng)議遭炮轟:標(biāo)準(zhǔn)場場不一樣,海港為何不評(píng)議

澤卡紅牌無誤!足協(xié)評(píng)議遭炮轟:標(biāo)準(zhǔn)場場不一樣,海港為何不評(píng)議

奧拜爾
2025-04-23 20:16:24
球迷痛哭,青島為何無緣黑八?并非廣廈強(qiáng),最大罪人球星成色打掉

球迷痛哭,青島為何無緣黑八?并非廣廈強(qiáng),最大罪人球星成色打掉

樂聊球
2025-04-23 22:09:10
李賽高已下地獄?據(jù)說被活割掉腰子,被魏榕拿到臥虎山莊喂虎了

李賽高已下地獄?據(jù)說被活割掉腰子,被魏榕拿到臥虎山莊喂虎了

馬爾科故事會(huì)
2023-12-02 11:48:45
郭汝瑰晚年透露:我潛伏國軍多年,真正佩服的國軍將領(lǐng)只有兩人!

郭汝瑰晚年透露:我潛伏國軍多年,真正佩服的國軍將領(lǐng)只有兩人!

讓時(shí)間說真話
2024-03-14 22:26:38
一個(gè)可怕的事實(shí),很多人的存款都將歸零

一個(gè)可怕的事實(shí),很多人的存款都將歸零

戶外釣魚哥阿旱
2025-03-24 02:09:13
廣州遠(yuǎn)洋賓館起火已撲滅,事發(fā)負(fù)一層配電房!去年剛升級(jí)改造

廣州遠(yuǎn)洋賓館起火已撲滅,事發(fā)負(fù)一層配電房!去年剛升級(jí)改造

南方都市報(bào)
2025-04-23 10:14:27
臺(tái)島演習(xí)警告大陸:一旦臺(tái)海爆發(fā)戰(zhàn)事,臺(tái)軍將首先擊沉解放軍航母

臺(tái)島演習(xí)警告大陸:一旦臺(tái)海爆發(fā)戰(zhàn)事,臺(tái)軍將首先擊沉解放軍航母

林子說事
2025-04-22 21:30:16
2025-04-24 04:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15094文章數(shù) 513572關(guān)注度
往期回顧 全部

科技要聞

馬斯克:中國用戶對(duì)FSD"最為苛刻"

頭條要聞

美國拒交會(huì)費(fèi) 世衛(wèi)組織:別無選擇 只能裁員

頭條要聞

美國拒交會(huì)費(fèi) 世衛(wèi)組織:別無選擇 只能裁員

體育要聞

金牌和金子,劉國梁改變國乒的這些年

娛樂要聞

于和偉領(lǐng)銜,央視諜戰(zhàn)劇要有天花板了

財(cái)經(jīng)要聞

董明珠放話"海歸有間諜" 打工人破防了

汽車要聞

以經(jīng)緯敘事 奇瑞瑞虎新旗艦SUV瑞虎9L快評(píng)

態(tài)度原創(chuàng)

家居
房產(chǎn)
游戲
公開課
軍事航空

家居要聞

開闊空間 家居輕智能

房產(chǎn)要聞

瘋狂兌現(xiàn)!這個(gè)項(xiàng)目,正在革新老黃埔居住天花板!

48小時(shí)破千萬!《無畏契約》手游點(diǎn)燃全民射擊DNA

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普要公布俄烏“和平計(jì)劃” 俄烏雙方回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 三门峡市| 玛纳斯县| 治县。| 北海市| 松江区| 长丰县| 荥经县| 琼结县| 武邑县| 遵义市| 饶河县| 高密市| 麻城市| 新田县| 辰溪县| 民权县| 灵宝市| 赤壁市| 汝州市| 信阳市| 梨树县| 黑山县| 曲阳县| 伽师县| 马龙县| 崇左市| 弋阳县| 开鲁县| 昌江| 洛扎县| 萍乡市| 桐乡市| 锡林浩特市| 革吉县| 晋江市| 宁夏| 闽清县| 磐安县| 于田县| 安仁县| 晋州市|