99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,OpenAI 一口氣發布三個新模型!還為此做了一個新網站

0
分享至

就在剛剛,OpenAI 宣布在其 API 中推出全新一代音頻模型,包括語音轉文本和文本轉語音功能,讓開發者能夠輕松構建強大的語音 Agent。

新產品的核心亮點概述如下

  • gpt-4o-transcribe (語音轉文本):單詞錯誤率(WER)顯著降低,在多個基準測試中優于現有 Whisper 模型
  • gpt-4o-mini-transcribe (語音轉文本):gpt-4o-transcribe 的精簡版本,速度更快、效率更高
  • gpt-4o-mini-tts (文本轉語音):首次支持「可引導性」(steerability),開發者不僅能指定「說什么」,還能控制「如何說」

據 OpenAI 介紹,新推出的 gpt-4o-transcribe 采用多樣化、高質量音頻數據集進行了長時間的訓練,能更好地捕獲語音細微差別,減少誤識別,大幅提升轉錄可靠性。


因此,gpt-4o-transcribe 更適用于處理口音多樣、環境嘈雜、語速變化等挑戰場景,比如客戶呼叫中心、會議記錄轉錄等領域。

gpt-4o-mini-transcribe 則基于 GPT-4o-mini 架構,通過知識蒸餾技術從大模型轉移能力,雖然 WER(越低越好)稍高于完整版模型,但仍舊優于原有 Whisper 模型,更適合資源有限但仍需高質量語音識別的應用場景。

這兩款模型在 FLEURS 多語言基準測試中的表現超越了現有的 Whisper v2 和 v3 模型,尤其在英語、西班牙語等多種語言上表現突出。



定價方面,GPT-4o-transcribe 與之前的 Whisper 模型價格相同,每分鐘 0.006 美元,而 GPT-4o-mini-transcribe 則是前者的一半,每分鐘 0.003 美元。


與此同時,OpenAI 還發布了新的 gpt-4o-mini-tts 文本轉語音模型。首次讓開發者不僅能指定「說什么」,還能控制「如何說」。

具體而言,開發者可以預設多種語音風格,如「平靜」、「沖浪者」、「專業的」、「中世紀騎士」等,它還能根據指令調整語音風格,如「像富有同情心的客服 Agent 一樣說話」,定價親民,僅為每分鐘 1 美分。

安全不能馬虎,OpenAI 表示,gpt-4o-mini-tts 將接受持續監控,以保證其輸出與預設的合成風格保持一致。

這些技術進步的背后源于 OpenAI 的多項創新:

  • 新音頻模型建立在 GPT-4o 和 GPT-4o-mini 架構之上,采用真實音頻數據集進行預訓練
  • 應用 self-play 方法創建的蒸餾數據集的知識蒸餾方法,實現從大模型到小模型的知識轉移
  • 在語音轉文本技術中融入強化學習(RL),顯著提升轉錄精度并減少「幻覺」現象。

在凌晨的直播中,OpenAI 向我們展示了一款 AI 時尚顧問 Agent 的應用案例。

當用戶詢問「我最近的訂單是什么?」時,系統流暢回應:用戶于 2 月 9 日訂購的 Patagonia 短褲已發貨,并在后續提問中準確提供了訂單號「A.D. 507」。


值得一提的是,OpenAI 演示人員還介紹了兩種構建語音 Agent 技術路徑,第一種「語音到語音模型」采用端到端的直接處理方式。

系統可直接接收用戶語音輸入并生成語音回復,無需中間轉換步驟。這種方式處理速度更快,已在 ChatGPT 的高級語音模式和實時 API 服務中得到應用,非常適合對響應速度要求極高的場景。

第二種「鏈式方法」則是本次發布會的重點。

它將整個處理流程分解為三個獨立環節:首先使用語音轉文本模型將用戶語音轉為文字,然后由大型語言模型(LLM)處理這些文本內容并生成回應文本,最后通過文本轉語音模型將回應轉為自然語音輸出。

這種方法的優勢在于模塊化設計,各組件可獨立優化;處理結果更穩定,因為文本處理技術通常比直接音頻處理更成熟;同時開發門檻更低,開發者可基于現有文本系統快速添加語音功能。

OpenAI 還為這些語音交互系統提供了多項增強功能:

  • 支持語音流式處理,實現連續音頻輸入和輸出
  • 內置噪音消除功能,提升語音清晰度。
  • 語義語音活動檢測,能夠識別用戶何時完成發言
  • 提供追蹤 UI 工具,方便開發者調試語音代理

目前,這些全新音頻模型已向全球開發者開放。


你還可以在 http://OpenAI.fm 上體驗并制作 gpt-4o-mini-tts 的相關音頻,這個演示網站可謂是功能齊全,左下角是官方的預設模板,主要包括人設、語氣、方言、發音等設置。


我們也實測了一段八百標兵奔北坡的繞口令,emmm,中文效果馬馬虎虎。至于英文效果,聽它念著詩歌,倒是挺有真人那味了,但無論是與此前走紅的 Hume AI 亦或者 Sesame 相比,「肉耳可聽」地還差點火候。

此外,OpenAI 推出了與 Agents SDK 的集成,進一步簡化開發流程。

值得一提的是,OpenAI 還舉辦了一個廣播比賽。用戶可以在 http://OpenAI.fm 制作音頻,接著使用 OpenAI.fm 上的「分享」按鈕生成鏈接,然后在 X 平臺分享該鏈接。

最具創意的前三名將各獲一臺限量版 Teenage Engineering OB-4。音頻時長建議控制在 30 秒左右,可在語音、表達、發音或劇本語調變化上盡情發揮創意。


實際上,今年 AI 的風向也在悄然發生變化,除了依舊強調智商,還多出一股趨勢,強調情感。

GPT-4.5、Grok 3 的賣點是情商,寫作更有創意,回應更個性化,而冷冰冰的機器人(智元機器人),也強調更擬人,主打一個情緒價值。

由于直接觸及人類最本能的溝通方式,語音領域在這方面的發力則更加顯著。

最近在硅谷走紅的 Sesame AI 能夠實時感知用戶情緒,并生成情感共鳴的回應,迅速俘獲了一大批用戶的心。圖靈獎得主 Yann lecun 最近也在強調,未來的 AI 需要擁有情感。

而無論是 OpenAI 今天發布的全新語音模型、還是即將發布的 Meta Llama 4 都有意往原生語音對話靠攏,試圖通過更自然的情感交互拉近與用戶的距離,靠「人味」圈粉。

AI 需要有人味嗎?長期以來。聊天機器人通常被定義為沒有情感的工具,它們也會在對話中提醒你,它是一個沒有靈魂的模型。然而,我們卻往往能從中解讀出情緒價值,甚至不自覺地與之建立情感聯結。

或許人類天生渴望被理解、被陪伴,哪怕這種理解來自一臺機器。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
桑切斯哭了!給貝佐斯當了五年備胎,首富哥轉頭愛上了她閨蜜

桑切斯哭了!給貝佐斯當了五年備胎,首富哥轉頭愛上了她閨蜜

小魚愛魚樂
2025-03-12 19:55:47
傳三星斷供7nm! 大廠緊急回應!

傳三星斷供7nm! 大廠緊急回應!

中國半導體論壇
2025-04-08 20:46:02
遼寧信息學奧賽16歲選手于行健墜樓離世,讀高二,3月份落選省隊

遼寧信息學奧賽16歲選手于行健墜樓離世,讀高二,3月份落選省隊

凡知
2025-04-08 15:14:50
國家隊開始托市!4月9號,深夜爆出的三大重要消息沖擊市場!

國家隊開始托市!4月9號,深夜爆出的三大重要消息沖擊市場!

風口招財豬
2025-04-09 01:10:41
絕殺廣東,盧偉:球員們最后時刻卸下了包袱,大家表現得很棒

絕殺廣東,盧偉:球員們最后時刻卸下了包袱,大家表現得很棒

懂球帝
2025-04-08 22:34:21
普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經驗

普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經驗

阿紿聊社會
2025-03-26 15:04:14
真不怕啊!青島隊23分慘敗,賽后代理教練這樣說,劉維偉要復出?

真不怕啊!青島隊23分慘敗,賽后代理教練這樣說,劉維偉要復出?

籃球專區
2025-04-08 07:55:56
女星賈靜雯回應股票受損情況

女星賈靜雯回應股票受損情況

大象新聞
2025-04-09 00:18:04
擊潰美國的時機已經成熟了

擊潰美國的時機已經成熟了

荊棘阿甘
2025-02-08 22:09:00
情人見面就發生關系,所有的聊天和接觸只是鋪墊

情人見面就發生關系,所有的聊天和接觸只是鋪墊

加油丁小文
2025-02-23 08:00:10
李溪芮,胸不大,但人家腿好看啊……

李溪芮,胸不大,但人家腿好看啊……

印象逍遙子
2025-04-08 10:29:20
世界上唯一的JJ博物館,每個雄性都想被收藏

世界上唯一的JJ博物館,每個雄性都想被收藏

beebee
2025-02-26 15:05:35
濟南一廢棄廠房"聚眾蹦迪",派出所稱需報備,網友:廣場舞報備沒

濟南一廢棄廠房"聚眾蹦迪",派出所稱需報備,網友:廣場舞報備沒

派大星紀錄片
2025-04-08 18:41:26
王力宏突傳消息!官方宣布:取消!

王力宏突傳消息!官方宣布:取消!

臺州交通廣播
2025-04-07 22:37:17
突發!Shams:掘金主帥邁克-馬龍已被解雇

突發!Shams:掘金主帥邁克-馬龍已被解雇

雷速體育
2025-04-09 01:33:14
10人排隊9人托!央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

10人排隊9人托!央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

寒士之言本尊
2025-04-07 23:22:59
A股:都做好準備吧,不出所料,股市將會迎來更大的上漲?

A股:都做好準備吧,不出所料,股市將會迎來更大的上漲?

財經大拿
2025-04-09 02:10:02
小米股價暴跌!11個交易日跌幅超過33%

小米股價暴跌!11個交易日跌幅超過33%

大象新聞
2025-04-07 17:10:15
乒乓太原賽:4月9日賽程公布!國乒首戰日本,對決14歲“小伊藤”

乒乓太原賽:4月9日賽程公布!國乒首戰日本,對決14歲“小伊藤”

安海客
2025-04-09 00:03:24
劉維偉妻子再曬聊天記錄截圖,怒斥辛莎莎!劉媽哭著勸兒媳別離婚

劉維偉妻子再曬聊天記錄截圖,怒斥辛莎莎!劉媽哭著勸兒媳別離婚

籃球掃地僧
2025-04-08 18:29:01
2025-04-09 04:35:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
37106文章數 2597909關注度
往期回顧 全部

科技要聞

馬斯克財富跌破3000億美元 怨特朗普?

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財經要聞

央地國資聯手護盤 國家隊領銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預售13.28萬起

態度原創

手機
家居
數碼
藝術
時尚

手機要聞

據傳iPhone 17 Pro機型將在相機應用中提供前后雙視頻錄制功能

家居要聞

現代風格 年輕簡約

數碼要聞

中國特供 RTX 5090D游戲性能普遍強于5090,影馳HOF顯卡新品曝光

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

可持續時裝的多維棱鏡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 郎溪县| 湖口县| 来宾市| 高雄县| 安福县| 丰镇市| 扎囊县| 鄂伦春自治旗| 虎林市| 鱼台县| 萨嘎县| 长春市| 大田县| 东至县| 梨树县| 讷河市| 新密市| 连城县| 托克托县| 冀州市| 呼伦贝尔市| 民和| 武乡县| 乌鲁木齐市| 上蔡县| 塔城市| 元谋县| 台东市| 林芝县| 邵东县| 闽清县| 寿阳县| 巴青县| 宁远县| 临江市| 乐都县| 敦化市| 加查县| 信阳市| 西盟| 天等县|