今天凌晨,阿里巴巴發布并開源首個端到端全模態大模型通義千問Qwen2.5-Omni-7B,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。
在權威的多模態融合任務OmniBench等測評中,Qwen2.5-Omni刷新業界紀錄,全維度遠超Google的Gemini-1.5-Pro等同類模型。Qwen2.5-Omni以接近人類的多感官方式「立體」認知世界并與之實時交互,還能通過音視頻識別情緒,在復雜任務中進行更智能、更自然的反饋與決策。
現在,開發者和企業可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕松部署運行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.