99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

語音界Deepseek!百度最新跨模態(tài)端到端語音交互,成本最高降90%

0
分享至

魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

沒想到,文小言接入推理模型的大更新背后,百度還藏了一手“質(zhì)變”級技術(shù)大招???



士別三日,文小言不僅能講重慶話了,還是成了哄娃的一把好手,被花式打斷照樣應(yīng)對如流。

實測下來,Demo不虛。這個全新語音對話功能,確實更有人味兒了,還是能緊貼當(dāng)下實事的那種——

只是讓Ta推薦周末放松去處,Ta自己就能主動結(jié)合當(dāng)前4、5月份的現(xiàn)實時間,給出更加合理的建議。

劃重點,這是免費的。現(xiàn)在你也一樣可以打開手機里的文小言,直接體驗這一全新升級的實時語音對話功能。

但!是!

如果單說語音體驗,那還真不是這個“大招”的重點。關(guān)鍵是,這回百度還透露了更多技術(shù)細節(jié)。

我們仔細一看,還真是有意思了。



首先,上來就是一個行業(yè)首創(chuàng):以上實時語音對話效果,由百度全新推出的端到端語音語言大模型實現(xiàn),這是行業(yè)首個基于Cross-Attention的跨模態(tài)語音語言大模型

有何不同?站在用戶體驗的角度來說,就是語音合成延遲更低,對話更真實有情感。

而更重要的一點是,這么個新模上線,文小言在語音問答場景中的調(diào)用成本,最高能降低90%!直接打掉了工業(yè)級落地的門檻。

(再也不怕模型廠流量大到掛我服務(wù).jpg)

我們注意到,百度語音首席架構(gòu)師賈磊,其實用到了“質(zhì)變”這個詞:

  • 百度端到端語音語言大模型是有質(zhì)變的,不是單純把文本大模型用到語音領(lǐng)域。
  • 語音場景有其獨特之處。此前,大家沒有充分挖掘這個應(yīng)用場景的不同,還是按照把文本大模型用到語音場景的路線,把速度加快一下,工程優(yōu)化一下。
  • 我們的創(chuàng)新架構(gòu),讓大模型在語音場景中的應(yīng)用實現(xiàn)了極低成本,更有利于大模型普及。

就是說,這一次語音技術(shù)的更新,不僅僅是工程上的技巧,百度正在通過技術(shù)創(chuàng)新,打通大模型落地語音場景的工業(yè)級應(yīng)用新范式。

行業(yè)首個基于Cross-Attention的端到端語音語言模型

話說到這了,咱們就來一起仔細扒一扒背后技術(shù)方案,看看究竟是怎么一回事。

先給大家劃個重點:

熟悉大模型的小伙伴都知道,KV cache能夠加速自回歸推理,但其在存儲和訪問上的開銷,也會隨著序列長度和模型規(guī)模增大而爆炸式增長。

因此在保證模型性能的前提下,降低KV cache,對于大模型應(yīng)用來說,是提升推理效率、降低成本的一大關(guān)鍵。

百度此次推出的基于Cross-Attention的端到端語音語言模型,重點就在于此。

具體來說,百度做了以下創(chuàng)新:

  • 業(yè)內(nèi)首創(chuàng)的基于Cross-Attention的跨模態(tài)語音語言大模型
  • Encoder和語音識別過程融合,降低KV計算
  • Decoder和語音合成模型融合
  • 創(chuàng)新提出基于Cross-Attention的高效全查詢注意力技術(shù)(EALLQA),降低KV cache

我們一項一項展開來看。

基于Cross-Attention的跨模態(tài)語音語言大模型

整體上,這個端到端語音語言大模型是基于Self-Attention的文心預(yù)訓(xùn)練大模型,采用自蒸餾的方式進行后訓(xùn)練得到。訓(xùn)練數(shù)據(jù)為文本和語音合成數(shù)據(jù)的混合。整個模型采用MoE結(jié)構(gòu)。

關(guān)鍵點在于,在端到端語音識別中,聲學(xué)模型也是語言模型,因此在整合語音識別和大語言模型的過程中,能夠通過將大語言模型中的Encoder和語音識別的過程融合共享,達到降低語音交互硬延遲的目的。

而在語音領(lǐng)域,Cross-Attention天然具有跨模態(tài)優(yōu)勢:Decoder會顯式地將Encoder輸出納入注意力計算,使得Decoder在每一個解碼步驟都能動態(tài)訪問最相關(guān)的輸入向量,從而充分地對齊和利用跨模態(tài)信息。



基于Cross-Attention的高效全查詢注意力技術(shù)(EALLQA)

不過,Cross-Attention的引入帶來了另一個問題:MLA的位置編碼技術(shù),在Cross-Attention中容易出現(xiàn)不穩(wěn)定的現(xiàn)象。

為此,百度語音團隊提出了高效全查詢注意力技術(shù)(EALLQA):

采用創(chuàng)新的隱式RNN兩級位置編碼,訓(xùn)練時是在128空間上的MHA,推理時是在模型各層共享的512空間上的MQA(AllQA)。既充分利用了有限的訓(xùn)練資源,也極大地降低了推理成本。



從具體效果上來說,EALLQA技術(shù)能使KV cache降至原來的幾十分之一,并將Cross-Attention的最近上一個問題的KV計算降至原來的十分之一,極大降低了語音交互時用戶的等待時間和模型推理成本。



降低成本的另一個關(guān)鍵,則是Encoder和語音識別系統(tǒng)的融合:對Query理解的模型較小,能極大減少KV計算。

流式逐字的LLM驅(qū)動的多情感語音合成

訓(xùn)練、推理成本的降低之外,端到端語音語言大模型還通過語音模型和語言模型的融合,實現(xiàn)了文體恰當(dāng)、情感契合、自然流暢的合成音頻的生成。



一方面,研發(fā)團隊通過大規(guī)模文本-語音數(shù)據(jù)自監(jiān)督預(yù)訓(xùn)練,構(gòu)建語義+韻律的離散化特征空間,通過雙層GPT-like Transformer,實現(xiàn)了韻律、音色雙Prompt控制機制。

另一方面,在此基礎(chǔ)之上,研發(fā)團隊推出了語音語言大模型與合成一體化流式逐字合成

有別于傳統(tǒng)語音合成的整句輸出,流式逐字相當(dāng)于一個字一個字地合成。在這個過程中,語言大模型能夠指導(dǎo)語音模型去生成情感、停頓,識別多音字等等,實現(xiàn)更為擬人、自然的語音合成效果。

需要注意的是,人耳接收信息實際上是一個字一個字地接收,但對于AI而言,如果1個token接1個token的輸出,就需要解決并發(fā)的問題,以使MoE架構(gòu)最大程度發(fā)揮作用。

流式逐字合成要解決的核心問題,就是在適配人聽力的基礎(chǔ)上,實現(xiàn)高并發(fā)。

通過引入流式逐字合成,百度端到端語音語言大模型有效提升了語音交互的響應(yīng)速度,同時降低了語音交互領(lǐng)域使用大模型成本。與大模型融合的TTS文體風(fēng)格情緒控制,還可以根據(jù)文本輸出自適配的情況,情感覆蓋達到17種。



簡單總結(jié)一下,百度的端到端語音語言大模型,一方面是重點解決了大模型應(yīng)用于語音交互場景成本高、速度慢的問題。

另一方面,大語言模型帶來的語義理解等能力,也解決了傳統(tǒng)語音交互中,同音字識別、打斷、真實情感等痛點。

賈磊透露,目前,整個端到端語音語言大模型在L20卡上即可部署,在滿足語音交互硬延遲要求的情況下,雙L20卡并發(fā)可以做到數(shù)百以上。

極低成本是關(guān)鍵

說了這么多,最主要的關(guān)鍵詞其實就是:低成本

在與賈磊的進一步交流中,他向我們強調(diào)了降低成本的重要性:

  • 極低成本就意味著大規(guī)模工業(yè)化變得非常容易。
  • 2025年,大模型的核心并不在于展示什么新功能,而是能以多快速度真正應(yīng)用到國計民生中去。

在不考慮計算資源的情況下,實時語音交互有其他路徑可以實現(xiàn),但“我們今天是第一個做到跨模態(tài)端到端極低成本解決語音問題的”。



賈磊還表示,希望語音領(lǐng)域的這一突破創(chuàng)新能被行業(yè)更多地關(guān)注到。

  • 我們想要把核心技術(shù)分享出去,告訴大家我們是怎么做的,以此推動整個領(lǐng)域的爆發(fā)。

事實上,不僅是百度,在包含語音的大模型能力對外輸出上,國內(nèi)外廠商都將價格視作突破口。

OpenAI就專門從性價比出發(fā),推出了GPT-4o mini audio,希望以更低廉的價格打入語音應(yīng)用市場。

2025年,基礎(chǔ)模型方面,模型廠商在推理模型上爭相競逐,而其帶來的最直接的影響之一,是人們對于大模型應(yīng)用加速爆發(fā)預(yù)期的持續(xù)升溫。在這個過程中,我們可以看到,站在模型廠商的角度,更多的模型在被開源,更多的服務(wù)在免費開放,用戶認知、關(guān)注的爭奪之中,成本本身正在變得更加敏感。

更不用提成本即是大規(guī)模應(yīng)用的關(guān)鍵:不僅是在模型廠商們的APP上,還要進一步走進手機、汽車……

正如DeepSeek在基礎(chǔ)模型領(lǐng)域攪動池水,現(xiàn)在,百度也在語音領(lǐng)域邁出關(guān)鍵一步。

成本,正在成為當(dāng)前階段模型廠商獲得主動權(quán)的重要突破口。

One More Thing

從文小言的語音交互架構(gòu)圖中還可以看到,它像是個語音版百度搜索。



正如文章開篇我們體驗到的,文小言能結(jié)合當(dāng)前的季節(jié)對用戶問題給出更合理的回答。實際上,在語音功能中,文小言已經(jīng)支持多垂類助手能力,包括天氣、日歷查詢、單位換算、股價股票等信息查詢內(nèi)容,共計38個垂類。

還支持DeepQA RAG問答,包含百度查詢等時效性問答內(nèi)容,能結(jié)合檢索結(jié)果,做到更精準的指令跟隨;支持DeepQA非RAG問答,包含常識問答等非時效性問答內(nèi)容。

“有問題,問小言”的這個“問”字,確實是越來越接近人類原本的交互習(xí)慣了。

這實際也是產(chǎn)業(yè)趨勢的一種映射——

之前都是大模型技術(shù)探索,需要不斷適配才能落地產(chǎn)品、形成應(yīng)用,最后被用戶感知。

現(xiàn)在這是大模型技術(shù)和產(chǎn)品應(yīng)用,幾乎在同時對齊,技術(shù)推進的時候就瞄準了應(yīng)用場景,應(yīng)用場景也能催生更適合的技術(shù),不是錘子找釘子,而是錘子釘子同時對齊。

大模型依然是AI世界的核心,但天下卻正在變成應(yīng)用為王的天下。

百度,或者說中國AI玩家,開始找到自己的節(jié)奏了。

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
每株都有“劇毒!”有人因為吃它患尿毒癥,家家戶戶卻依舊在吃它

每株都有“劇毒!”有人因為吃它患尿毒癥,家家戶戶卻依舊在吃它

胥言
2025-03-21 19:00:21
廣東隊最新消息:徐杰被突擊抽查,任駿飛確定追罰禁賽一場

廣東隊最新消息:徐杰被突擊抽查,任駿飛確定追罰禁賽一場

漫川舟船
2025-04-12 01:07:49
不懂就問,這么厚的雪短褲不冷嗎?

不懂就問,這么厚的雪短褲不冷嗎?

風(fēng)子說個球
2025-03-12 14:28:45
上海花8000吃糞后續(xù),菜品一個比一個離譜,員工:老板研究了7年

上海花8000吃糞后續(xù),菜品一個比一個離譜,員工:老板研究了7年

削桐作琴
2025-04-10 15:25:10
簽字!不回NBA了,NBA棄將成歐洲超巨,3年1350萬,第一高薪啊

簽字!不回NBA了,NBA棄將成歐洲超巨,3年1350萬,第一高薪啊

球童無忌
2025-04-11 16:41:57
美聯(lián)儲出手相助,美股大漲!

美聯(lián)儲出手相助,美股大漲!

風(fēng)風(fēng)順
2025-04-12 08:51:00
驚!鋼鐵大王菲律賓撕票案后續(xù):索要7700萬,熟人涉案細節(jié)曝光!

驚!鋼鐵大王菲律賓撕票案后續(xù):索要7700萬,熟人涉案細節(jié)曝光!

小毅說事
2025-04-11 22:02:39
張?zhí)鞇坭べぱ澝麍雒妫褐灰约翰粚擂危瑢擂蔚木褪莿e人!

張?zhí)鞇坭べぱ澝麍雒妫褐灰约翰粚擂危瑢擂蔚木褪莿e人!

云端書館
2025-04-10 09:10:37
深圳男公關(guān)被富婆看上,約定百萬包養(yǎng)費,1月后男子崩潰報警

深圳男公關(guān)被富婆看上,約定百萬包養(yǎng)費,1月后男子崩潰報警

罪案洞察者
2025-04-07 14:15:08
直指中國,關(guān)稅戰(zhàn)不行來硬的,美軍要在太平洋打仗,中方放棄幻想

直指中國,關(guān)稅戰(zhàn)不行來硬的,美軍要在太平洋打仗,中方放棄幻想

健身狂人
2025-04-12 09:01:59
為什么網(wǎng)上的藥,比實體藥店便宜?是不是假藥?現(xiàn)在就告訴你真相

為什么網(wǎng)上的藥,比實體藥店便宜?是不是假藥?現(xiàn)在就告訴你真相

小熊侃史
2025-01-21 07:05:14
首節(jié)11分奠定基調(diào)但無奈被逆轉(zhuǎn)!布倫森16中9空砍全場最高的27分

首節(jié)11分奠定基調(diào)但無奈被逆轉(zhuǎn)!布倫森16中9空砍全場最高的27分

直播吧
2025-04-12 10:10:22
陳曉離婚后判若兩人,染金發(fā)變身潮男,暴瘦15斤重回顏值巔峰

陳曉離婚后判若兩人,染金發(fā)變身潮男,暴瘦15斤重回顏值巔峰

歸史
2025-04-11 12:51:05
年過完了,突然發(fā)現(xiàn)一個扎心的現(xiàn)象:同學(xué)聚會沒有人參加了不說,大家竟然從各自的朋友圈都銷聲匿跡了…

年過完了,突然發(fā)現(xiàn)一個扎心的現(xiàn)象:同學(xué)聚會沒有人參加了不說,大家竟然從各自的朋友圈都銷聲匿跡了…

老板手記
2025-03-06 20:14:22
徐杰談和哈維沖突:賽前杜導(dǎo)說這場比賽就是摔跤和打架,這里是東莞,他只配在上海囂張

徐杰談和哈維沖突:賽前杜導(dǎo)說這場比賽就是摔跤和打架,這里是東莞,他只配在上海囂張

雷速體育
2025-04-11 22:27:07
19歲巴倫·特朗普現(xiàn)身校園,變胖了,跟老爹似像非像

19歲巴倫·特朗普現(xiàn)身校園,變胖了,跟老爹似像非像

譯言
2025-04-12 00:07:51
丈夫升為縣長后有了新歡,拋棄我三年后,我的哥哥調(diào)來任市委書記

丈夫升為縣長后有了新歡,拋棄我三年后,我的哥哥調(diào)來任市委書記

喬生桂
2024-04-15 09:21:03
這真是突發(fā)消息,續(xù)約關(guān)頭拉菲尼亞二選一,巴薩不排除高價出售

這真是突發(fā)消息,續(xù)約關(guān)頭拉菲尼亞二選一,巴薩不排除高價出售

老樂說球
2025-04-12 09:55:03
美突然改口,英偉達主流AI芯片解除限制,國內(nèi)專家發(fā)出警告

美突然改口,英偉達主流AI芯片解除限制,國內(nèi)專家發(fā)出警告

一個有靈魂的作者
2025-04-11 12:25:29
掉粉近40萬!被央視打碼后本人道歉,相關(guān)理發(fā)店回應(yīng)

掉粉近40萬!被央視打碼后本人道歉,相關(guān)理發(fā)店回應(yīng)

大象新聞
2025-04-07 17:49:32
2025-04-12 10:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10303文章數(shù) 176094關(guān)注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態(tài)非常好”

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態(tài)非常好”

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經(jīng)要聞

造假累計數(shù)百億 揭秘東旭集團造假手法

汽車要聞

25款風(fēng)云A8/T9/T10齊上市 多款車型發(fā)布一口價

態(tài)度原創(chuàng)

時尚
房產(chǎn)
手機
藝術(shù)
公開課

繼德訓(xùn)鞋、老爹鞋之后,今年輪到這雙運動鞋刷屏!

房產(chǎn)要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

手機要聞

OPPO Find X8 Ultra體驗:Ultra旗艦的最高境界

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 开鲁县| 含山县| 澄迈县| 汉沽区| 曲沃县| 炉霍县| 闵行区| 三台县| 乐东| 玉环县| 汉源县| 乐亭县| 平阴县| 昌乐县| 清涧县| 洱源县| 大厂| 太谷县| 清徐县| 瑞昌市| 余干县| 嘉义县| 潼关县| 武清区| 德保县| 文登市| 蓝山县| 长葛市| 兴国县| 乌审旗| 西宁市| 福泉市| 荆门市| 和政县| 石门县| 淮滨县| 尉犁县| 荣成市| 噶尔县| 县级市| 交城县|