記者|何己派
編輯|鄢子為
一家上海公司,幫助DeepSeek像真人一樣開口說話。
3月上旬,聲網發布對話式AI引擎,只要兩行代碼,15分鐘,可令任意文本大模型“能說會道”。
這是個“新物種”。
按團隊所說,它擁有多項獨家功能,放眼全球,難找出對標的。對話1分鐘,成本不到1毛錢。
“之前,大模型都是文字輸入,將來,我們要讓大模型懂你。”聲網產品線負責人和利鵬說。
為了這次的新產品,聲網AI RTE產品線負責人姚光華向《21CBR》記者透露,從春節開始,公司瘋狂趕工,像高考一樣備戰,2月18日掏出Public Beta版本,這次的發布,已達到可商用狀態。
截至3月7日美股收盤,聲網市值為36億元人民幣。
黑屋作戰
DeepSeek爆火時,聲網的產品團隊,悄然啟動一場關鍵戰役。
春節期間,聲網內部調度不同部門的十幾位核心骨干,組建一個專門團隊,只干一件事:做一款能跟AI實時互動的工具產品。
早在半年前,這個想法就開始醞釀,順應DeepSeek掀起的這波浪潮,項目陡然提速。
“大家關在‘小黑屋’里,產品、研發等不同條線的負責人湊在一起,快速決策、快速推進。”姚光華形容,像是高考備戰,室內放著一塊白板,每天更新著倒計時日期,提醒所有人,必須一鼓作氣。
大模型從單一模態走向多模態,勢不可擋,語音被視為關鍵切入點之一。
做實時互動云服務起家的聲網,在音視頻領域有較深積累,期望將自家RTE技術與生成式AI結合,以新產品搶占制高點。
緊趕慢趕,除夕那天,對話式AI引擎上線Private Beta版本,首批開發者和客戶來了,做的第一件事,算意料之中——讓DeepSeek開口拜年。
對聲網而言,這款產品的意義不一般。
和利鵬告訴《21CBR》,聲網多年專注的,是人與人的交流,做對話式AI引擎,轉向人與機器的交流,且要做到實時互動,交流模式變了,底層的技術要求也不一樣了,“工程化落地上,存在很多挑戰。”
姚光華提到,讓AI語音秒回提問,模擬真人對話的節奏,隨時打斷AI,這些功能構想來自于客戶需求的抽絲剝繭,實際落地則需要邊走邊試,查漏補缺。
“比如對話人聲鎖定這個功能,就是靠客戶提出來的。”姚光華說,某種程度上,客戶是最好的導師。
拆解引擎
“之所以叫‘對話式AI引擎’,就在于我們不做Agent,只想構建對話式工具。”姚光華向《21CBR》強調。
定產品名字時,團隊一度考慮用“轉換器”,寓意接入即可令AI聽懂人說話,但最終拍板的是“引擎”。
這沒有“轉換器”聽上去通俗,但更能亮明聲網的態度:只提供能力,與大模型廠商合作而非競爭。
“大家都在說AI Infrastructure,我們認為,實時互動也是其中一部分。聲網的角色,就是AI Infrastructure里的交互。”和利鵬透露,公司跟國內幾家模型廠商都有合作。
他提到,大模型廠商自己從頭做交互,設備、網絡等各種要求很高。聲網做實時互動十幾年,方案和產品的成熟度高,更具優勢。
能讓大模型開口說話的“引擎”,拆解下來,有AI語音秒回、對話人聲鎖定、智能打斷、全模型適配等多項能力,姚光華說,轉化成產品語言就是四個字,“多快好省”。
其中,響應延遲方面,以毫秒為單位壓縮,中位數能達到650ms。
姚光華指出,市面上一些產品,宣傳能做到毫秒級,實際測量延遲很大。
對話體驗方面,“選擇性注意力鎖定”功能可屏蔽95%環境人聲、噪聲干擾,精準識別對話人聲,80%丟包率、斷網3-5s等情況下,保持穩定流暢對話。
開發部署上,程序員只需兩行代碼、15分鐘,填入與復制LLM與TTS相關的URL與Key后,就可實現快速部署。
至于外界關心的價格,聲網團隊有過激烈討論、反復商量,最終決定,AI語音對話0.098元/分鐘,自研的“智能打斷”功能作為增值服務,定價0.042元/分鐘。
此外,一次性增予所有開發者1000分鐘免費額度。
姚光華表示,經過一段時間的打磨及實際使用場景調研,團隊發現,用戶與AI每產生1次對話,平均會有約3輪問答,計算下來平均對話時長約為21.1s,單次成本為3分錢。
若每月對話次數15次,那么月成本不到5毛錢,年成本只要5元。
“這是個足夠便宜到大家用得起的價格。”姚光華說。
人機未來
對話式AI引擎,到底能做點啥?
和利鵬表示,開發者可部署的場景,包括智能助手、虛擬陪伴、口語陪練等,公司已落地十幾種場景,比較多的是陪伴類,智能硬件的需求也不少。
比如,讓能開口對話的DeepSeek陪伴孩子,應對他們天馬行空的十萬個為什么,同時交流像與父母對話那樣自然。
“小孩子想要的是快速互動,不在于答案是否足夠準確,而是先玩起來。”和利鵬說。
在他看來,實時互動從人與人的交互,走向人與機器的交互,對聲網深耕的RTE賽道而言,是個很大的延展。
“或許下一個變革,是所有觸摸式和鍵盤式的交互,都變成語音式。現在我們已經看到了一些苗頭。”和利鵬向《21CBR》表示。
姚光華說,關于AI Agent,去年李飛飛博士團隊寫了七八十頁的論文,團隊每個成員都要讀,大家最后總結的一句話,是“從感知到智能”。
其將Agent劃分為兩類,陪伴類Agent,主要為用戶提供情緒價值,服務類的,則提供智能價值,二者合而為一,再多一層時間價值,讓用戶效率提升。
由此,對話式AI引擎所推動的對話式Agent,橫跨模態感知和模態融合,是吸收以上三重價值的載體。
技術革新,轉瞬間天翻地覆。
和利鵬援引OpenAI產品經理所說,“AI時代,只要想通60%,產品就應該發布”,認為產品的發布必須緊跟技術走,及時進入市場檢驗,再根據反饋不斷迭代。
“現在這個版本,雖然不是任何場景都萬能,但用戶體驗已經達標。未來我們會繼續做好功能的橫向拓展。”姚光華表示。
DeepSeek引爆賽道,聲網團隊專攻音頻細分方向,至少可以喝到湯。
題圖來源:視覺中國
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.