品玩4月23日訊,據 marktechpost 報道,英偉達近日推出多模態視覺語言 AI 模型Eagle 2.5,模型性能堪比GPT-4O。
該模型專注于理解大規模視頻和圖像,尤其擅長處理高分辨率圖像和長視頻序列。盡管參數規模僅為 8B,Eagle 2.5 在 Video-MME 基準測試(512 幀輸入)中得分高達 72.4%,媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大規模模型。
英偉達表示,Eagle 2.5-8B 在多項視頻和圖像理解任務中表現出色。在視頻基準測試中,MVBench 得分為 74.8,MLVU 為 77.6,LongVideoBench 為 66.4;在圖像基準測試中,DocVQA 得分為 94.1,ChartQA 為 87.5,InfoVQA 為 80.4。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.