99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

語音界Deepseek!百度最新跨模態(tài)端到端語音交互,成本最高降90%

0
分享至

魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

沒想到,文小言接入推理模型的大更新背后,百度還藏了一手“質變”級技術大招???



士別三日,文小言不僅能講重慶話了,還是成了哄娃的一把好手,被花式打斷照樣應對如流。

實測下來,Demo不虛。這個全新語音對話功能,確實更有人味兒了,還是能緊貼當下實事的那種——

只是讓Ta推薦周末放松去處,Ta自己就能主動結合當前4、5月份的現(xiàn)實時間,給出更加合理的建議。

劃重點,這是免費的。現(xiàn)在你也一樣可以打開手機里的文小言,直接體驗這一全新升級的實時語音對話功能。

但!是!

如果單說語音體驗,那還真不是這個“大招”的重點。關鍵是,這回百度還透露了更多技術細節(jié)。

我們仔細一看,還真是有意思了。



首先,上來就是一個行業(yè)首創(chuàng):以上實時語音對話效果,由百度全新推出的端到端語音語言大模型實現(xiàn),這是行業(yè)首個基于Cross-Attention的跨模態(tài)語音語言大模型

有何不同?站在用戶體驗的角度來說,就是語音合成延遲更低,對話更真實有情感。

而更重要的一點是,這么個新模上線,文小言在語音問答場景中的調用成本,最高能降低90%!直接打掉了工業(yè)級落地的門檻。

(再也不怕模型廠流量大到掛我服務.jpg)

我們注意到,百度語音首席架構師賈磊,其實用到了“質變”這個詞:

  • 百度端到端語音語言大模型是有質變的,不是單純把文本大模型用到語音領域。
  • 語音場景有其獨特之處。此前,大家沒有充分挖掘這個應用場景的不同,還是按照把文本大模型用到語音場景的路線,把速度加快一下,工程優(yōu)化一下。
  • 我們的創(chuàng)新架構,讓大模型在語音場景中的應用實現(xiàn)了極低成本,更有利于大模型普及。

就是說,這一次語音技術的更新,不僅僅是工程上的技巧,百度正在通過技術創(chuàng)新,打通大模型落地語音場景的工業(yè)級應用新范式。

行業(yè)首個基于Cross-Attention的端到端語音語言模型

話說到這了,咱們就來一起仔細扒一扒背后技術方案,看看究竟是怎么一回事。

先給大家劃個重點:

熟悉大模型的小伙伴都知道,KV cache能夠加速自回歸推理,但其在存儲和訪問上的開銷,也會隨著序列長度和模型規(guī)模增大而爆炸式增長。

因此在保證模型性能的前提下,降低KV cache,對于大模型應用來說,是提升推理效率、降低成本的一大關鍵。

百度此次推出的基于Cross-Attention的端到端語音語言模型,重點就在于此。

具體來說,百度做了以下創(chuàng)新:

  • 業(yè)內首創(chuàng)的基于Cross-Attention的跨模態(tài)語音語言大模型
  • Encoder和語音識別過程融合,降低KV計算
  • Decoder和語音合成模型融合
  • 創(chuàng)新提出基于Cross-Attention的高效全查詢注意力技術(EALLQA),降低KV cache

我們一項一項展開來看。

基于Cross-Attention的跨模態(tài)語音語言大模型

整體上,這個端到端語音語言大模型是基于Self-Attention的文心預訓練大模型,采用自蒸餾的方式進行后訓練得到。訓練數(shù)據(jù)為文本和語音合成數(shù)據(jù)的混合。整個模型采用MoE結構。

關鍵點在于,在端到端語音識別中,聲學模型也是語言模型,因此在整合語音識別和大語言模型的過程中,能夠通過將大語言模型中的Encoder和語音識別的過程融合共享,達到降低語音交互硬延遲的目的。

而在語音領域,Cross-Attention天然具有跨模態(tài)優(yōu)勢:Decoder會顯式地將Encoder輸出納入注意力計算,使得Decoder在每一個解碼步驟都能動態(tài)訪問最相關的輸入向量,從而充分地對齊和利用跨模態(tài)信息。



基于Cross-Attention的高效全查詢注意力技術(EALLQA)

不過,Cross-Attention的引入帶來了另一個問題:MLA的位置編碼技術,在Cross-Attention中容易出現(xiàn)不穩(wěn)定的現(xiàn)象。

為此,百度語音團隊提出了高效全查詢注意力技術(EALLQA):

采用創(chuàng)新的隱式RNN兩級位置編碼,訓練時是在128空間上的MHA,推理時是在模型各層共享的512空間上的MQA(AllQA)。既充分利用了有限的訓練資源,也極大地降低了推理成本。



從具體效果上來說,EALLQA技術能使KV cache降至原來的幾十分之一,并將Cross-Attention的最近上一個問題的KV計算降至原來的十分之一,極大降低了語音交互時用戶的等待時間和模型推理成本。



降低成本的另一個關鍵,則是Encoder和語音識別系統(tǒng)的融合:對Query理解的模型較小,能極大減少KV計算。

流式逐字的LLM驅動的多情感語音合成

訓練、推理成本的降低之外,端到端語音語言大模型還通過語音模型和語言模型的融合,實現(xiàn)了文體恰當、情感契合、自然流暢的合成音頻的生成。



一方面,研發(fā)團隊通過大規(guī)模文本-語音數(shù)據(jù)自監(jiān)督預訓練,構建語義+韻律的離散化特征空間,通過雙層GPT-like Transformer,實現(xiàn)了韻律、音色雙Prompt控制機制。

另一方面,在此基礎之上,研發(fā)團隊推出了語音語言大模型與合成一體化流式逐字合成

有別于傳統(tǒng)語音合成的整句輸出,流式逐字相當于一個字一個字地合成。在這個過程中,語言大模型能夠指導語音模型去生成情感、停頓,識別多音字等等,實現(xiàn)更為擬人、自然的語音合成效果。

需要注意的是,人耳接收信息實際上是一個字一個字地接收,但對于AI而言,如果1個token接1個token的輸出,就需要解決并發(fā)的問題,以使MoE架構最大程度發(fā)揮作用。

流式逐字合成要解決的核心問題,就是在適配人聽力的基礎上,實現(xiàn)高并發(fā)。

通過引入流式逐字合成,百度端到端語音語言大模型有效提升了語音交互的響應速度,同時降低了語音交互領域使用大模型成本。與大模型融合的TTS文體風格情緒控制,還可以根據(jù)文本輸出自適配的情況,情感覆蓋達到17種。



簡單總結一下,百度的端到端語音語言大模型,一方面是重點解決了大模型應用于語音交互場景成本高、速度慢的問題。

另一方面,大語言模型帶來的語義理解等能力,也解決了傳統(tǒng)語音交互中,同音字識別、打斷、真實情感等痛點。

賈磊透露,目前,整個端到端語音語言大模型在L20卡上即可部署,在滿足語音交互硬延遲要求的情況下,雙L20卡并發(fā)可以做到數(shù)百以上。

極低成本是關鍵

說了這么多,最主要的關鍵詞其實就是:低成本

在與賈磊的進一步交流中,他向我們強調了降低成本的重要性:

  • 極低成本就意味著大規(guī)模工業(yè)化變得非常容易。
  • 2025年,大模型的核心并不在于展示什么新功能,而是能以多快速度真正應用到國計民生中去。

在不考慮計算資源的情況下,實時語音交互有其他路徑可以實現(xiàn),但“我們今天是第一個做到跨模態(tài)端到端極低成本解決語音問題的”。



賈磊還表示,希望語音領域的這一突破創(chuàng)新能被行業(yè)更多地關注到。

  • 我們想要把核心技術分享出去,告訴大家我們是怎么做的,以此推動整個領域的爆發(fā)。

事實上,不僅是百度,在包含語音的大模型能力對外輸出上,國內外廠商都將價格視作突破口。

OpenAI就專門從性價比出發(fā),推出了GPT-4o mini audio,希望以更低廉的價格打入語音應用市場。

2025年,基礎模型方面,模型廠商在推理模型上爭相競逐,而其帶來的最直接的影響之一,是人們對于大模型應用加速爆發(fā)預期的持續(xù)升溫。在這個過程中,我們可以看到,站在模型廠商的角度,更多的模型在被開源,更多的服務在免費開放,用戶認知、關注的爭奪之中,成本本身正在變得更加敏感。

更不用提成本即是大規(guī)模應用的關鍵:不僅是在模型廠商們的APP上,還要進一步走進手機、汽車……

正如DeepSeek在基礎模型領域攪動池水,現(xiàn)在,百度也在語音領域邁出關鍵一步。

成本,正在成為當前階段模型廠商獲得主動權的重要突破口。

One More Thing

從文小言的語音交互架構圖中還可以看到,它像是個語音版百度搜索。



正如文章開篇我們體驗到的,文小言能結合當前的季節(jié)對用戶問題給出更合理的回答。實際上,在語音功能中,文小言已經支持多垂類助手能力,包括天氣、日歷查詢、單位換算、股價股票等信息查詢內容,共計38個垂類。

還支持DeepQA RAG問答,包含百度查詢等時效性問答內容,能結合檢索結果,做到更精準的指令跟隨;支持DeepQA非RAG問答,包含常識問答等非時效性問答內容。

“有問題,問小言”的這個“問”字,確實是越來越接近人類原本的交互習慣了。

這實際也是產業(yè)趨勢的一種映射——

之前都是大模型技術探索,需要不斷適配才能落地產品、形成應用,最后被用戶感知。

現(xiàn)在這是大模型技術和產品應用,幾乎在同時對齊,技術推進的時候就瞄準了應用場景,應用場景也能催生更適合的技術,不是錘子找釘子,而是錘子釘子同時對齊。

大模型依然是AI世界的核心,但天下卻正在變成應用為王的天下。

百度,或者說中國AI玩家,開始找到自己的節(jié)奏了。

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
底蘊!廣東男籃26分大勝上海,連續(xù)30年打進季后賽八強

底蘊!廣東男籃26分大勝上海,連續(xù)30年打進季后賽八強

澎湃新聞
2025-04-11 21:50:33
51歲董卿與友人上海聚餐,襯衣腕表干練優(yōu)雅,頭發(fā)烏黑側顏精致

51歲董卿與友人上海聚餐,襯衣腕表干練優(yōu)雅,頭發(fā)烏黑側顏精致

鄭丁嘉話
2025-04-12 09:48:19
特朗普支持者、美國大豆協(xié)會主席敦促美方停止對華貿易戰(zhàn):豆農生計岌岌可危

特朗普支持者、美國大豆協(xié)會主席敦促美方停止對華貿易戰(zhàn):豆農生計岌岌可危

財聯(lián)社
2025-04-11 13:06:03
8個月沒生一個孩子?人口第一大省,成了中國“最不敢生”的省份

8個月沒生一個孩子?人口第一大省,成了中國“最不敢生”的省份

云景侃記
2024-12-13 06:40:08
吉林大二學生割包皮,13天后卻衰竭而亡,醫(yī)生:“他自找的”

吉林大二學生割包皮,13天后卻衰竭而亡,醫(yī)生:“他自找的”

紙鳶奇譚
2025-04-06 11:49:40
“臺灣永遠都不會是中國的一部分”,講出這句話的人,被全網唾罵

“臺灣永遠都不會是中國的一部分”,講出這句話的人,被全網唾罵

忠于法紀
2024-06-07 17:55:19
斯諾克世錦賽:9-0領先連輸八局有驚無險!兩位中國球員晉級在望

斯諾克世錦賽:9-0領先連輸八局有驚無險!兩位中國球員晉級在望

紅原體育
2025-04-12 10:02:24
錫安場外生活太豐富了!兩名女友在其家中互毆,驚動警方

錫安場外生活太豐富了!兩名女友在其家中互毆,驚動警方

仰臥撐FTUer
2025-04-10 12:09:06
橋水達利歐喊話特朗普:應與中國談判達成雙贏協(xié)議

橋水達利歐喊話特朗普:應與中國談判達成雙贏協(xié)議

財聯(lián)社
2025-04-10 19:13:01
一味藥,視力模糊、眼睛干澀、眼黃、有血絲...都有效 !

一味藥,視力模糊、眼睛干澀、眼黃、有血絲...都有效 !

環(huán)京快爆
2025-03-17 13:06:26
上海這晚,被“壯碩”的吳艷妮驚艷,好身材遮不住,大長腿太搶鏡

上海這晚,被“壯碩”的吳艷妮驚艷,好身材遮不住,大長腿太搶鏡

喵喵娛樂團
2025-04-07 17:19:27
河北首次發(fā)布大風紅色預警:局地陣風可達13級以上

河北首次發(fā)布大風紅色預警:局地陣風可達13級以上

魯中晨報
2025-04-11 19:15:14
中方開始反擊,美債市場出現(xiàn)拋售潮,特朗普忙改口,美專家警告

中方開始反擊,美債市場出現(xiàn)拋售潮,特朗普忙改口,美專家警告

近史博覽
2025-04-11 18:00:27
劉惜君這么美

劉惜君這么美

東方不敗然多多
2025-04-09 00:03:53
美專家:美國無法憑借關稅恐嚇中國

美專家:美國無法憑借關稅恐嚇中國

參考消息
2025-04-12 09:38:05
曇花還在現(xiàn)!8年前紅軍4200萬引進薩拉赫,32歲他身價仍比進價高

曇花還在現(xiàn)!8年前紅軍4200萬引進薩拉赫,32歲他身價仍比進價高

直播吧
2025-04-11 16:16:30
馬筱梅豪氣婚紗亮相,鑲999顆鉆石,出自郭培之手,張?zhí)m親自把關

馬筱梅豪氣婚紗亮相,鑲999顆鉆石,出自郭培之手,張?zhí)m親自把關

社會漫談
2025-04-12 02:58:50
兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

史二了
2024-07-27 17:12:02
澳大利亞媒體深度分析為何美國加征關稅對中國的影響小于美方預期

澳大利亞媒體深度分析為何美國加征關稅對中國的影響小于美方預期

人大重陽
2025-04-11 16:04:34
追逐甲亢哥流量被反噬,文和友和芒果臺毀了長沙文旅至少十年努力

追逐甲亢哥流量被反噬,文和友和芒果臺毀了長沙文旅至少十年努力

華文商訊
2025-04-09 23:19:05
2025-04-12 11:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10303文章數(shù) 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區(qū) 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數(shù)百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態(tài)度原創(chuàng)

家居
時尚
藝術
游戲
軍事航空

家居要聞

浪漫與優(yōu)雅 不被定義的現(xiàn)代法式

繼德訓鞋、老爹鞋之后,今年輪到這雙運動鞋刷屏!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

研究顯示每個人心中的最佳懷舊主機是10歲玩的那一款

軍事要聞

普京與美國中東問題特使結束會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黔西| 清苑县| 汾阳市| 达尔| 平利县| 永新县| 武安市| 上高县| 靖远县| 同江市| 新密市| 历史| 工布江达县| 汉中市| 长治县| 兴隆县| 兖州市| 都昌县| 象州县| 孟连| 麻江县| 金阳县| 习水县| 措美县| 新田县| 凤凰县| 新余市| 长子县| 定边县| 清丰县| 周宁县| 金寨县| 黄山市| 涟水县| 宝应县| 松江区| 东乌珠穆沁旗| 青州市| 黄浦区| 岑巩县| 南康市|