99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一手實測!文心X1/4.5 Turbo推理和多模態雙雙變強,成本降了6成

0
分享至

“周周有發布,天天有更新。”

這是百度創始人李彥宏最新對大模型競速的感慨,但……卷王實際就是百度自己,因為就這一個多月以來,百度已經連發4款模型了。

就在剛剛,在Create 2025百度AI開發者大會上,李彥宏又一口氣官宣了兩款新模型:分別是主打深度思考和多模態的X1 Turbo/4.5 Turbo

而且發布即上線,普通用戶現在都能免費體驗。



據介紹,它們是百度在3月發布的旗艦模型X1、4.5的升級版推理和多模態能力雙雙更躍Level。

比如在挑戰“史上最難高考數學題之一”時,新模型是為數不多能給出正確答案的選手(正確答案為145)



一個冷知識,2003年數學全國卷被譽為“史上最難高考卷”,而這道題還是里面的壓軸大題,難度可想而知。

甚至,至今還能看到一眾自稱03級的網友集體“訴苦”:





再比如面對一段讓人眼花繚亂的視頻,新模型竟成功猜對了小球的位置。

正確答案是3號杯子,話說大家最終猜出來了嗎?(doge)



根據官方測評結果,深度思考模型文心X1 Turbo(深藍),整體效果領先DeepSeek R1、V3最新版。



文心4.5 Turbo(紅色),多模態能力優于GPT 4o,文本能力與DeepSeek V3最新版持平,優于GPT 4.5。





目前,兩款新模型均在文心一言官網開放,開發者在百度智能云千帆大模型平臺,也可直接調用API

另外,最關鍵的還是成本的下降!

文心4.5 Turbo輸入0.8元/百萬tokens,輸出3.2元/百萬tokens;文心X1 Turbo輸入1元/百萬tokens,輸出4元/百萬tokens。

以上價格,前者僅為DeepSeek V3的40%,后者僅為DeepSeek R1的1/4;同時相比一個月前的X1/4.5,價格均下降一半及以上。

大模型能力在進化,成本在下降,應用創新的大爆發將勢不可擋。

只不過,咱還是先從一些具體能力上,看看百度最新最強大模型文心X1 Turbo/4.5 Turbo,究竟是不是像跑分展現的那么強?

老規矩,上一手實測~~

實測之后,還是太全面了!

首先來看主打深度思考的文心X1 Turbo模型。

據介紹,它基于文心4.5 Turbo,在性能提升的同時,具備更先進的思維鏈,尤其擅長推理工具調用

文心大模型X1 Turbo

一上來,我們先拿一道經典邏輯陷阱題熱熱身:

  • 一根5.5米的竹竿可以通過高4米寬3米的門嗎?

對于這樣一個看似簡單的問題,目前市面上絕大多數的模型反應be like:



而文心X1 Turbo經過一番嚴謹論證,第一次就得出了正確答案(通過調整竹竿的傾斜角度,可以通過)



看來這種問題已經難不倒它了,接下來難度升級。

直接一步到位,扔給它一道某地高中物理模考卷壓軸題,還是只上傳圖片的那種:



可以看到,對于這種涉及專業領域的高難度推理題,X1 Turbo依舊思路清晰。



先是自主調用“圖片理解”工具識別出題目與火箭發射有關,然后上手一步步解題,最終給出了正確答案。

值得注意的是,盡管考查的是X1 Turbo的邏輯推理能力,但我們已經提前發現它的一大特色——

與其他推理模型相比,文心X1 Turbo能夠靈活調用各種工具

官網顯示,文心X1 Turbo默認開啟代碼解釋器、文檔閱讀、圖片理解、圖片生成等諸多工具,一旦意識到答案涉及代碼、表格、圖片等多模態內容,就會自動調用這些工具。



比如在日常生活中,我們隨手將一張美食照分享給文心X1 Turbo,讓它幫忙反向解析詳細制作過程。

而且為了便于收藏,我們還要求它最終直接生成一份PDF文件



結果,X1 Turbo分別調用圖片理解和代碼解釋器工具,生成了一份可直接下載、內容完整的PDF制作工序文件。



看來挑戰還是太簡單了,好好好,接下來我們干脆玩把大的。

讓文心X1 Turbo幫我們規劃一個五一去北京游玩的行程,而且提了一大堆要求,不能太“特種兵”,住宿、交通、門票等等都要考慮到,結果用表格呈現……主打一個全面考察工具調用

話不多說,來感受一下最終效果:



不僅貼心標注了“五一行程——8點自然醒版”(doge),而且表格中每一天的安排都非常清晰,甚至特意標出了需要提前預約的景點和預約渠道。

再仔細一看,同一天安排的景點的位置都比較靠近,屬于合理范疇。

此外,我們還發現文心X1 Turbo支持繼續對話生成,能在前面的行程規劃上,接著為每個景點生成配圖。



最后順便一提,我們在測試文心X1 Turbo的推理和工具調用能力的過程中,還發現它在創意寫作方面有點意思。

恰逢五一假期臨近,我們讓它根據一張“西湖人山人海圖”,仿照《岳陽樓記》的文風寫一篇游記。



對比一下《岳陽樓記》原文,是不是有內味兒了~

  • 慶歷四年春,滕子京謫守巴陵郡。越明年,政通人和,百廢具興,乃重修岳陽樓,增其舊制,刻唐賢今人詩賦于其上,屬予作文以記之……



其次來看主打多模態的文心4.5 Turbo模型。

據介紹,它源自文心4.5,是效果更好、成本更低的多模態大模型。

文心大模型4.5 Turbo

實測下來發現,相比單項推理能力突出的文心X1 Turbo,它更像是一個主打綜合實力的“六邊形戰士”。

切換模型后,底部輸入框的文檔、圖片、視頻、音頻等多模態功能全部“點亮”:



文本能力就不用多說了,我們直接上傳一張經典梗圖,考查其視覺理解能力,結果也是秒秒鐘get~



再來個實用的,讓4.5 Turbo設計一些包含故宮博物院元素的冰箱貼文創。



相同提示詞下,通過對比文心4.5和4.5 Turbo,可以看到后者的生成效果確實更好、更精致了。



最后,文心4.5 Turbo也能理解音視頻素材。

一方面可以直接和它語音對話,親測用四川方言也能實現無障礙交流:



另一方面還能綜合分析視頻中的場景、聲音、人物等等,目前單個視頻最大支持20MB。



小結一下,百度此次推出的文心大模型X1/4.5 Turbo,實測下來在推理能力和多模態能力上確實有一定程度升級。

那么接下來的問題是:背后依靠了哪些核心技術?

挖一挖背后的技術

在思考路徑中融合工具調用

首先,作為能夠自主運用工具的深度思考模型,文心X1 Turbo背后的關鍵技術包括:

其一,突破了僅基于思維鏈優化的范式,在思考路徑中結合工具調用,構建了融合思考和行動的復合思維鏈,模型解決問題的能力得到顯著提升。

其二,結合多元統一的獎勵機制,實現了長距離思維和行動鏈的端到端優化,顯著提升了跨領域解決問題的能力。

一般而言,傳統的單一獎勵機制往往只能從一個角度評估模型的性能,這可能導致模型“顧此失彼”,比如過于關注語法,可能就會忽略語義的連貫性。

而多元統一獎勵機制是從多個維度全面評估模型的性能,這種綜合性的反饋機制能夠幫助模型在多個方面同時優化,從而提升整體實力。



采用不同模態混合訓練

其次,為了提升文心4.5和4.5 Turbo的多模態能力,一大關鍵就是采用了不同模態(文本、圖像和視頻)的混合訓練。

針對不同模態數據在結構、規模、知識密度上的差異,主要應用了如下技術:

  • 多模態異構專家建模
  • 自適應分辨率視覺編碼
  • 時空重排列的三維旋轉位置編碼
  • 自適應模態感知損失計算

最終,模型的學習效率提高近2倍,多模態理解效果提升超過30%。

而且為了進一步提升模型的綜合實力,他們在后訓練階段也進行了優化。

研制了自反饋增強的技術框架,基于大模型自身的生成和評估反饋能力,實現了“訓練-生成-反饋-增強”的模型迭代閉環

這不僅解決了大模型對齊過程中數據生產難度大、成本高、速度慢等問題,而且顯著降低了模型幻覺,提升了模型理解和處理復雜任務的效果。

此外在訓練階段,他們還研制了融合偏好學習的強化學習技術,通過多元統一獎勵機制,提升了對結果質量判別的準確率,通過離線偏好學習和在線強化學習統一優化,進一步提升了數據利用效率和訓練穩定性,并增強了模型對高質量結果的感知。

正是因為受益于偏好信號與獎勵信號的融合運用,模型的理解、生成、邏輯推理和記憶等能力才得以全面提升。

數據的合理挖掘及運用

當然,能夠訓練出高質量模型,還離不開對數據的合理挖掘及運用。

在這方面,他們打造了“數據挖掘與合成 - 數據分析與評估 - 模型能力反饋”的數據建設閉環

主要體現在兩點:

一是針對專業深度知識及領域過程知識的數據稀缺問題,研制了原理驅動、過程評估與結果校驗的數據合成技術、知識點驅動的大規模稀缺數據挖掘技術,提升數據的知識密度和覆蓋面。

二是針對不同模態數據割裂、跨模態語義關聯難度大等問題,提出了融合語義對齊的多模態平行數據構建、融合視覺知識的描述生成等技術,大幅提升不同模態數據的對齊精度和深度語義關聯,增強多模態理解能力。

最終實現了——既能源源不斷地生產知識密度高、數據多樣、領域覆蓋廣的大規模數據,還能將數據建設流程輕松遷移到全新的數據類型。

訓練推理中采用聯合優化

除了上面這些,技術團隊還進行了模型的算力優化。

訓練方面,多模態統一的掩碼注意力加速,利用飛槳已有的塊狀掩碼注意力加速技術,顯著降低不同模態混合計算注意力時的掩碼構建和計算開銷,大幅提升訓練性能。

推理方面,多模態流式分塊預填充機制,減少首token耗時,同時減少推理計算的顯存峰值,提升推理批次大小,提升吞吐性能。

而且值得一提的是,開發者還能利用百度飛槳框架3.0,“像寫單機代碼一樣寫分布式代碼”,借助其動靜統一自動并行技術,開發者無需感知復雜的通信和調度邏輯,即可實現大模型的開發。

目前,文心飛槳的開發者數量已經超過了2185萬,服務超過67萬家企業,創建的模型達到110萬。



未來,隨著百度進一步走向開源,開發者也能通過該框架實現更多開源模型的高性能推理了。

把生產力成本打下來了

技術上所具備的核心優勢,最終也讓百度把模型價格狠狠打下來了。

還在一個月前,百度發布的文心大模型X1和4.5,就因為低于ChatGPT和DeepSeek的價格出圈。

而現在發布的文心X1 Turbo/4.5 Turbo,模型性能升級的同時,價格卻進一步降低了。



文心大模型X1 Turbo API,輸入價格1元/百萬tokens,輸出價格4元/百萬tokens,僅為DeepSeek R1調用價格的1/4,而且相比文心大模型X1,價格直接腰斬。



文心大模型4.5 Turbo API,輸入價格0.8元/百萬tokens,輸出價格3.2元/百萬tokens,僅為DeepSeek V3調用價格的40%,而且相比文心大模型4.5,價格更是下降了80%。



而且不止卷價格,一旦梳理百度目前采取的一系列動作,我們就能看到一個核心關鍵詞——生產力

一方面,百度作為國內最早入局大模型的頭部玩家之一,始終堅決投入下一代基礎模型。

模型升級的方向,目前主要包括推理、多模態、工具調用等等,這些功能均圍繞“生產力”展開,主要是為了滿足普通人的日常工作生活需要。

帶來的結果是,越升級基礎模型,我們普通用戶越能免費薅到更強大的生產力工具

另一方面,他們還為開發者提供了全方位支持。以文心大模型為例,目前已經形成了從模型到工具平臺的完整體系,包括文心4.5、X1等旗艦模型及其Turbo升級版、文圖生成模型、場景模型和輕量模型、文心一言和智能體,以及賦能開發者的數據生產、后訓練、推理部署和場景化工具等。

再加上模型價格一降再降,開發者搞應用的門檻也更低了,這將推動AI應用進一步爆發,進而有望提升整個社會的生產力。

這或許也是百度這屆AI開發者大會,主題“模型的世界,應用的天下”的關鍵原因,模型已經遍地都是、觸手可及,那么應用的爆發也就成為了必然趨勢。百度創始人李彥宏還預判:“模型會有很多,但未來真正統治這個世界的是應用,應用才是王者。”

在發布最后,李彥宏的發言也引發了現場開發者的熱烈掌聲反饋,他說——

  • 所有這些發布,都是為了讓開發者們可以不用擔心模型能力、不用擔心模型成本、更不用擔心開發工具和平臺,可以踏踏實實地做應用,做出最好的應用!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突破美國封鎖!李家超發聲:香港將部署為內地企業提供供應鏈服務

突破美國封鎖!李家超發聲:香港將部署為內地企業提供供應鏈服務

證券時報
2025-04-25 17:54:07
馬爾克斯:一個殘酷的婚姻真相:99%的夫妻,都是孤獨終老的

馬爾克斯:一個殘酷的婚姻真相:99%的夫妻,都是孤獨終老的

清風拂心
2025-04-13 11:30:07
小波特賽后的一席話,等于直接宣布了掘金“死刑”!

小波特賽后的一席話,等于直接宣布了掘金“死刑”!

毒舌NBA
2025-04-25 13:40:05
18歲兒子把女朋友帶回家,媽媽有些懵:這是該哭還是該笑?

18歲兒子把女朋友帶回家,媽媽有些懵:這是該哭還是該笑?

唐小糖說情感
2025-04-16 09:02:03
百度李彥宏:DeepSeek又慢又貴,處理形式單一,幻覺率較高

百度李彥宏:DeepSeek又慢又貴,處理形式單一,幻覺率較高

紅星資本局
2025-04-25 17:24:49
登快船官方海報!哈登兩節20分神跡歷史第六 下半場0分無礙大勝

登快船官方海報!哈登兩節20分神跡歷史第六 下半場0分無礙大勝

醉臥浮生
2025-04-25 12:43:53
年齡越大越要少喝茶?醫生建議:年過50歲,這4種茶最好少喝

年齡越大越要少喝茶?醫生建議:年過50歲,這4種茶最好少喝

風到腰彎
2025-03-10 09:55:53
印巴局勢升級,不等雙方開火,中方強調3句話,措辭很強烈

印巴局勢升級,不等雙方開火,中方強調3句話,措辭很強烈

曹興教授TALK
2025-04-25 13:13:16
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

影史侃談
2025-03-16 22:40:07
尹錫悅或判死刑真相

尹錫悅或判死刑真相

哲空空
2025-04-25 12:23:51
明明是下崗沒有工作卻被專家說成是靈活就業,新名詞解決不了問題

明明是下崗沒有工作卻被專家說成是靈活就業,新名詞解決不了問題

逍遙論經
2025-04-21 04:42:32
今天鄭欽文對戰波塔波娃,賽前傳來2個壞消息,基本無緣會師薩巴

今天鄭欽文對戰波塔波娃,賽前傳來2個壞消息,基本無緣會師薩巴

野山歷史
2025-04-25 09:20:23
CBA最新消息!曝劉維偉加盟北控,陶漢林或離開山東,里勒續約

CBA最新消息!曝劉維偉加盟北控,陶漢林或離開山東,里勒續約

體壇瞎白話
2025-04-25 07:40:27
蓮花跑車高管:真正三大跑車,只有法拉利、保時捷、蓮花!剎不住的車不配叫性能車,操控跟不上馬力就是馬路殺手

蓮花跑車高管:真正三大跑車,只有法拉利、保時捷、蓮花!剎不住的車不配叫性能車,操控跟不上馬力就是馬路殺手

和訊網
2025-04-24 11:17:39
遼籃抵杭州入住酒店!各將合影,付豪弗格暢談,大韓張鎮麟好狀態

遼籃抵杭州入住酒店!各將合影,付豪弗格暢談,大韓張鎮麟好狀態

籃球資訊達人
2025-04-25 00:27:47
衣服賣不動,優衣庫越來越摳了

衣服賣不動,優衣庫越來越摳了

源Sight
2025-04-23 20:39:13
馬龍憑啥壓過馬琳王皓當乒協副主席?真相藏不住了!

馬龍憑啥壓過馬琳王皓當乒協副主席?真相藏不住了!

天光破云來
2025-04-25 08:41:13
滿身是泥的“00后”女輔警,獲破格晉升!

滿身是泥的“00后”女輔警,獲破格晉升!

魯中晨報
2025-04-24 22:20:38
國乒又輸張本美和!17歲新星0-3慘敗一輪游,止步突尼斯賽32強

國乒又輸張本美和!17歲新星0-3慘敗一輪游,止步突尼斯賽32強

全言作品
2025-04-25 19:36:38
遷走90%產能?外資撤離潮再添PC巨頭,網友辣評:硬要步戴爾后塵

遷走90%產能?外資撤離潮再添PC巨頭,網友辣評:硬要步戴爾后塵

瘋狂小菠蘿
2025-04-25 15:29:53
2025-04-25 21:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10373文章數 176116關注度
往期回顧 全部

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

頭條要聞

外交部回應"是否考慮免除部分美國進口商品125%關稅"

頭條要聞

外交部回應"是否考慮免除部分美國進口商品125%關稅"

體育要聞

?跑得最快的院長來啦!蘇炳添擔任暨大體育學院院長

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經要聞

政治局會議傳遞積極信號 機構熱議6大看點

汽車要聞

"下一代純電寶馬"提前體驗 用代碼編譯駕駛樂趣

態度原創

房產
本地
游戲
健康
公開課

房產要聞

影響孩子未來20年的教育TALK!未來方洲與教育理想的一場深度對話

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

Mike再次常規賽第一晉級周決,放話:誰飛刀玩的好誰就是周冠!

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阜康市| 台中县| 高陵县| 通山县| 淮滨县| 甘南县| 盐亭县| 鸡泽县| 南溪县| 繁峙县| 威海市| 安陆市| 泗阳县| 贵州省| 炉霍县| 习水县| 基隆市| 通道| 马边| 房山区| 黎城县| 德安县| 台安县| 赤峰市| 廊坊市| 高邑县| 夏河县| 美姑县| 连平县| 柘荣县| 报价| 九龙城区| 湟源县| 象山县| 青铜峡市| 万盛区| 扬州市| 昭苏县| 通州市| 丰都县| 沙河市|