99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

百度端到端語音語言大模型破局出圈,對話超逼真、成本最高降90%

0
分享至



作者 | 程茜
編輯 | 漠影

語音交互又被玩出新花樣?!

智東西4月2日報道,本周一,百度發布業界首個基于全新互相關注意力(Cross-Attention)的端到端語音語言大模型,已首發上線文小言,可免費體驗。



用幾個關鍵詞概括新升級的文小言就是:語音交互超逼真、超低時延、超低成本

超逼真指的是,搭載語音語言大模型的文小言,既能聽得懂重慶、廣西、河南、廣東、山東等特色方言,還能實現情感飽滿對話;超低時延是其對話中可將用戶等待時長從行業常見的3-5秒降低至1秒左右,幾乎與真人對話無異;超低成本指在電話語音頻道的語音問答場景中,調用成本較行業均值下降約50%-90%。

百度語音首席架構師賈磊透露,該模型可以部署到L20卡上,在滿足語音交互延遲要求的情況下,雙L20卡的并發可以做到幾百以上。目前,語音語言大模型的訓練流程便捷,基本上基于文心大模型幾百片卡優化一周就可以實現,且本身的優化工作也并不復雜。

相比于大模型在語音交互場景的應用,這一語音語言大模型的獨特之處是什么?又是如何做到最高降低達到90%的調用成本?其背后的創新點該如何解讀?智東西與百度語音首席架構師賈磊進行了深入交流,試圖找到這些問題的答案。

一、真人對話體驗,升級版文小言語音交互更絲滑

大模型在語音交互場景的發展,正朝著更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗,我們在新升級的文小言上窺到了雛形,搭載了端到端語音語言大模型的文小言,已經化身情感陪伴、全能助手。

首先,文小言已經集成了包含天氣查詢、日歷查詢、單位換算、股票股價等信息查詢的38個垂類助手,可以看出這些特殊場景下,語音交互的效率要遠高于文本交互。

其次,文小言對于時效性和非時效性問題均能應對,百科查詢、時政知識類時效性問答內容,文小言可以進行實時檢索,并做到精準的指令跟隨,降低幻覺;常識問答等非時效性問題也不在話下。

最后,也是語音交互與文本最大的區別所在,文小言可以與用戶進行情感自然充沛的交流,并能做到快速響應反饋,實現逼真擬人的交互效果。

話不多說,來看看文小言的實際效果。

語音識別的一大難點莫過于方言識別。方言的發音特點豐富多樣,同一方言在不同地區可能存在發音差異,甚至同一個字在不同語境下發音也有所不同。這使得語音識別系統難以準確捕捉和解析所有的發音變體,增加了識別的難度。當下的文小言,已經可以應對重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽得懂,還能使用對應的方言進行回復。

語音交流還有一大特點就是需要多輪交互,例如下面的例子中,文小言既從成年、幼年不同維度給出了分辨虎皮鸚鵡的方法,還在用戶打斷提出新問題時,及時給予正確的反饋。

即使回復中包含分辨虎皮鸚鵡性別、需要從某一固定特征辨別等諸多要素,文小言也給出了簡明扼要的答案,并且在最后還提醒用戶可以邊觀察邊記錄。

此外,人機交互往往伴隨著中途打斷的情況,如用戶獲得了自己想要的核心信息或者對其目前輸出的內容不滿意等等,當用戶打斷語音播放進行輸入時,語音識別系統可能會因為環境噪音、用戶發音不清晰或與之前的語音內容混淆等原因,出現誤識別的情況。

在面對小朋友多次打斷的情況下,文小言可以準確識別出其“換一個故事”的需求,并且當小朋友說出“媽媽已經講過”時,并不是機械選擇更換故事,而是適時給出有情感的回復,營造出自然對話的氛圍。

文小言這一情感飽滿的交互形式,也使得其在知識問答等助手場景下,向著陪伴場景下的應用外延。當用戶提到“我的心情有點不好”,文小言的語音帶有擔心等,并引導用戶說出自己心情不好的原因,進一步進行開導。

二、全新互相關注意力,打造極低訓推成本優勢

不同于語言模型,語音語言大模型的核心差異點就是可以產生情感。

賈磊談道,文本大模型只產生文字,而語音語言大模型可以有情感,其關鍵就是語音語言大模型架構圖中的兩個特殊環節,TN韻律和人設、風格情感控制,這是為語音合成而準備,可以讓大模型在生成答案的同時擁有適配內容的情感,這也是百度此次端到端語音語音大模型的關鍵創新點所在。



具體來看,其關鍵創新點有4個。

首先,這是百度發布的業界首個基于Cross-Attention跨模態的語音語言大模型;其二是該模型將Encoder和語音識別結合,使得KV計算節省到1/10;第三是Encoder和語音合成結合,輸出內容可進行情感控制;最后是高效的全查詢注意力EALLQA,使得KV cache降低到幾十分之一。

在此基礎上,該模型實現了識別文本一體化、文本合成一體化,這些相互耦合的技術在系統性端到端打通之上,使得模型在快速問答、快速理解的基礎上,能實現自然、逼真、情感豐富的交互體驗。

賈磊解釋說,聲學模型也是語音模型,只是通常大語言模型都是文字連接。因此在整合語音識別和大語言模型的過程中,研究人員將大語言模型中的Encoder和語音識別的過程融合共享,達到降低語音交互硬延遲的目的,其創新性引入跨模態建模,從Self-Attention切換到Cross-Attention,完成了語音識別和大語言模型的融合。

百度提出用Cross-Attention來解決語音、語言跨模態的難題。這一過程中,由于現存Attention技術在Cross-Attention的語音語言建模中存在速度方面的局限性,百度研發了適合Cross-Attention的EALLQA技術,采用隱式RNN兩級位置編碼,訓練時在128空間上的MHA,推理在模型各層共享的512空間上的MQA,以達到充分利用有限訓練資源,降低推理成本的目的



模型基礎訓練中,百度基于Self-Attention的成熟的文心語言的預訓練模型,采用自蒸餾方式進行post-train來訓練Cross-Attention端到端語音語言大模型。

事實上,在語音模型中,KV cache和KV計算的壓力遠大于文本模型。賈磊解釋說,語音識別相對于文本大模型的本質差異就是,句首第一個token決定了語音識別的延遲。對于文本大模型,其可以在用戶輸入一段文字后等待2~3秒鐘給出答案,而語音語言大模型中,用戶對于回復延遲的可容忍度更低,他們希望在0.5~1秒內聽到答案。



在此基礎上,端到端語音語言大模型實現了低成本訓練、低成本高速推理。除此以外,語音語言大模型還需要快速響應、有情感的回應,這就是其另一項關鍵技術發力的場景——流式逐字的LLM驅動的多情感語音合成。賈磊談道,多輪有情感地持續溝通才能讓人有欲望繼續交流。



基于流式逐字的方式,其語音合成是看到一個字蹦一個字,大模型可以幫助語音合成輸出其需要的文本歸一化輸出、韻律停頓輸出、情感輸出,使得語音合成的過程像人說話時一樣流動起來,其根據文本輸出自適配的情感覆蓋可達17種。

此外,語音識別中還有一大痛點是,其無法判斷用戶說話的起點和終點,而大模型加持可以使其基于語義分析用戶說的話是否已經結束,語義不完整需繼續等待。

賈磊進一步解釋道,語音場景被激活需要極交互成本、極快交付速度、聰明富有情感的人性化的問答。百度將語音識別和大模型一體化,解決了預存預取、猶豫、內容理解和快速問答的問題,將文本合成一體化與大模型融合,輸出語音和中所需的韻律情感,解決了合成中的上下文理解和情感控制問題。這就使得語音場景的應用潛力大幅提升。

三、直擊語音交互難點,百度端到端語音語言大模型放大招

大模型不斷優化在語音的穩健性、自然度和說話人相似度方面顯著提升,但此前的技術路徑仍有許多痛點,這也是百度聚焦于端到端語音語言大模型的原因。

相比于人和人之間的交流,大語言模型響應速度慢,用戶需要等待一段時間才能得到回復。此外,語音交流往往伴隨著多輪對話交互,而模型完成口語化多輪交互的難度極大,且相比于文本,用戶使用語音交互的場景更多,其交互量激增會導致大模型應用成本上升,大規模應用普及的難度也會隨之增高。

而在傳統語音交互路線上,又會受限于上下文記憶、噪音場合、猶豫發問和打斷之間的準確響應。



因此這成為語音交互領域的一個核心矛盾點,語音交互的便捷性決定了其有大規模應用的潛力,而這些痛點又正在阻礙其普及。賈磊認為,語音和文本兩個跨模態之間相互關聯的化學反應,就是未來大模型在特定領域找到突破口的關鍵

語音語言模型的出現是質變,其創新合成技術使得模型不需要看到一句話的整個文本,而是看到一個字的文本就可以合成一個字,在此基礎上,百度挖掘到了獨特的應用場景。他舉了一個例子,如詢問天氣時,用戶獲得了天氣的溫度區間就可以快速打斷問下一個問題,其好處就是大幅降低了模型的使用成本,而文本模型想要實現如此高效應用就需要強大的硬件,但語音語言模型可以使用低成本的硬件就能實現高效并發。

與此同時,從整個語音交互領域來看,大模型語音識別部分的準確度已經大幅提升,賈磊認為更多在于速度、成本、回答準確度的一種比拼,當下成本降低,就是大規模使用跨模態語音交互的關鍵

賈磊說:“成本降低是技術進步的必然方式。” 百度語音語言大模型的極低成本也就意味著大規模工業化的可能,AI落地應用是2025大模型產業發展的核心,而該模型就是解決語音問題的關鍵。

百度在語音識別領域的積累由來已久。

2018年,百度語音發布的Deep Peak 2模型突破了沿用十幾年的傳統模型,大幅提升各場景下識別準確率。2019年初,百度語音技術團隊公布在線語音領域全球首創的流式多級的截斷注意力模型SMLTA, 相對準確率提升15%。2021年,百度發布基于歷史信息抽象的流式截斷conformer建模技術——SMLTA2,解決了Transformer模型應用于在線語音識別任務時面臨的問題。

這些技術創新已經應用于汽車、消費電子、手機等諸多領域。此次,為了推動語音語言模型的規模化應用,目前,百度已經將其上線文小言并免費開放,并且計劃4月上線到開放平臺,后續將接入呼叫中心、音箱等業務線上

賈磊提到:“科學可能有國界,但沒有公司邊界。”后續,百度將端到端語音語言大模型開放出來,就是想推動大語言模型在語音領域的應用,有利于整個行業和生態的發展。

結語:百度語音語言大模型出鞘,開啟低本高效新篇

便捷高效、自然友好、廣泛應用于多場景的語音交互在數字化時代地位至關重要,但從目前的實際效果來看,語音交互在識別的準確度等方面已經有了很大提升,現在業界的競爭焦點集中于其識別的速度、成本以及回答的準確度。

這樣的背景下,百度端到端語音語言大模型的發布進一步突破了成本,且提出了全新技術路徑,將語音交互的行業競爭推上了新的高度。與此同時,百度將其上線到開放平臺,將加速大模型在語音交互場景的應用與普及。

本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:今天,周五,行情不太對勁,釋放了兩個信息!

A股:今天,周五,行情不太對勁,釋放了兩個信息!

明心
2025-04-11 12:13:23
用“說服”而非“脅迫”?美媒:白宮正動員多部門協作,推進特朗普“得到格陵蘭島”計劃

用“說服”而非“脅迫”?美媒:白宮正動員多部門協作,推進特朗普“得到格陵蘭島”計劃

環球網資訊
2025-04-11 15:55:10
特朗普大廈里幾乎都是中國制造!毛寧在社媒曬出圖片

特朗普大廈里幾乎都是中國制造!毛寧在社媒曬出圖片

大象新聞
2025-04-11 15:19:22
賽力斯,不想再當華為的附庸

賽力斯,不想再當華為的附庸

花朵財經
2025-04-11 18:05:32
中美一旦開戰,美軍將全面轟炸中國?基辛格曾稱:中美正走向懸崖

中美一旦開戰,美軍將全面轟炸中國?基辛格曾稱:中美正走向懸崖

科學知識點秀
2025-04-09 08:20:07
單位老同志被逼退休后默默離開,第二天單位被罰款600萬,領導懵了

單位老同志被逼退休后默默離開,第二天單位被罰款600萬,領導懵了

紅豆講堂
2025-04-07 12:35:09
特朗普已把馬斯克拋棄?不需要馬斯克做任何事,只是碰巧喜歡而已

特朗普已把馬斯克拋棄?不需要馬斯克做任何事,只是碰巧喜歡而已

靚仔情感
2025-04-11 23:30:35
時間旅行真相曝光?科學家發現:穿越者無法改變歷史的真正原因

時間旅行真相曝光?科學家發現:穿越者無法改變歷史的真正原因

Science科學
2025-04-02 12:25:03
絕不向中國低頭!寧愿裁員9000破產,也不接受中國的幫助

絕不向中國低頭!寧愿裁員9000破產,也不接受中國的幫助

南南說娛
2025-03-06 18:32:38
轟炸庫爾斯克俄軍機庫群!澤連斯基:我們正在把戰爭送回俄羅斯

轟炸庫爾斯克俄軍機庫群!澤連斯基:我們正在把戰爭送回俄羅斯

鷹眼Defence
2025-04-09 18:24:54
不出意外,今年五一假期,將出現5個現象,和往年大不同,了解下

不出意外,今年五一假期,將出現5個現象,和往年大不同,了解下

小談食刻美食
2025-04-10 16:19:15
浙江一醫生手術間隔休息時去世,年僅35歲

浙江一醫生手術間隔休息時去世,年僅35歲

九方魚論
2025-04-08 15:38:49
網友:這業主的心態要崩了吧!一套房掛了兩年,幾十萬幾十萬的降

網友:這業主的心態要崩了吧!一套房掛了兩年,幾十萬幾十萬的降

火山詩話
2025-04-10 11:56:51
你和異性有哪些旖旎時刻?網友:小伙子別害羞,姐是過來人

你和異性有哪些旖旎時刻?網友:小伙子別害羞,姐是過來人

娛樂圈人物大賞
2025-04-12 00:05:31
原來店二代也有這么多的煩惱!網友:家里開公寓,我卻沒有房間住

原來店二代也有這么多的煩惱!網友:家里開公寓,我卻沒有房間住

特約前排觀眾
2025-04-12 00:20:05
小S二女兒Lily曬旅行照被嘲,網友:連嘴巴弧度都在模仿林志玲!

小S二女兒Lily曬旅行照被嘲,網友:連嘴巴弧度都在模仿林志玲!

清游說娛
2025-04-10 10:02:04
北京已出現9級大風!石景山最大風在——

北京已出現9級大風!石景山最大風在——

石景山區新媒體
2025-04-11 19:01:42
普特朗當眾糾正馬斯克發言!媒體捕捉到一個信號:權力下降了

普特朗當眾糾正馬斯克發言!媒體捕捉到一個信號:權力下降了

大風文字
2025-04-11 08:29:30
馮紹峰帶高燒兒子就醫,剛進醫院,趙麗穎便飛奔而來,兩人被盛贊

馮紹峰帶高燒兒子就醫,剛進醫院,趙麗穎便飛奔而來,兩人被盛贊

手工制作阿殲
2025-04-11 01:15:41
加關稅能讓“耐克們”回流美國嗎?專家:此類美企基本上在本土已不具備生產能力

加關稅能讓“耐克們”回流美國嗎?專家:此類美企基本上在本土已不具備生產能力

環球網資訊
2025-04-11 06:53:20
2025-04-12 02:00:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
9693文章數 116737關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

時尚
手機
健康
旅游
游戲

那些認真生活的人,才最時髦!

手機要聞

iQOO Z10 Turbo系列再次被確認:真機已現身,性能配置也已清晰

在中國,到底哪些人在吃“偉哥”?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

LPL觀眾徹底絕望?BLG爆冷不敵AL,涵藝連發多條微博開噴!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安国市| 尼木县| 阳朔县| 深泽县| 鹤山市| 临泽县| 长子县| 庆阳市| 湖南省| 香格里拉县| 兖州市| 南郑县| 正定县| 和政县| 普洱| 视频| 呼和浩特市| 阿坝| 双城市| 望奎县| 西丰县| 耿马| 定州市| 达州市| 泰和县| 多伦县| 旬邑县| 汕尾市| 武乡县| 天峨县| 海门市| 高阳县| 上林县| 阳高县| 庆阳市| 嘉鱼县| 上蔡县| 砀山县| 邯郸市| 攀枝花市| 三穗县|