蘋果公司終于推出了期待已久的多模態(tài)AI模型MM1,蘋果公司揚帆起航,攜帶著MM1—一款集文本與圖像生成于一身的多模態(tài)AI神器,正式加入了人工智能的領(lǐng)域。在經(jīng)歷了無數(shù)猜想與期待后,蘋果研究團(tuán)隊精心打造了MM1這個家族,它不僅能誦讀文字,還能繪制畫面,無所不能。根據(jù)上周發(fā)布的一份研究報告,這是一個跨越視覺與文本界限的大型多模態(tài)語言模型家族。
多樣化數(shù)據(jù)對AI性能的影響
蘋果的研究實驗室深入挖掘,通過精心設(shè)計的實驗,解剖了建造高效多模態(tài)語言模型的秘密。他們發(fā)現(xiàn),在這個視覺與文字交織的世界中,圖像分辨率和視覺編碼器的能力對模型性能影響最大,而具體如何結(jié)合視覺和文本數(shù)據(jù)的方法影響較小。
在這場技術(shù)的探索中,他們還揭示了多樣化數(shù)據(jù)的重要性:混搭的圖文文檔助力少量樣本學(xué)習(xí),有標(biāo)注的圖片提升了模型的零樣本能力,純文本數(shù)據(jù)則鞏固了語言理解的基石。
MM1家族:從億級參數(shù)到前沿性能的跨越
MM1的大規(guī)模多模態(tài)預(yù)訓(xùn)練賦予了它超凡脫俗的能力,從數(shù)數(shù)到執(zhí)行OCR,從日常物品的常識到基礎(chǔ)數(shù)學(xué)運算,無所不能。
蘋果團(tuán)隊基于這些發(fā)現(xiàn),創(chuàng)造了從三億到三十億參數(shù)范圍內(nèi)的MM1模型家族,涵蓋了密集型與混合專家型變體。在擴(kuò)展訓(xùn)練的助力下,MM1在多個多模態(tài)基準(zhǔn)測試中,展示了前所未有的能力。經(jīng)過更深層次的調(diào)優(yōu)與專門設(shè)計的一百萬示例數(shù)據(jù)集的訓(xùn)練后,MM1在12個多模態(tài)任務(wù)上展現(xiàn)了強(qiáng)大的競爭力,從視覺問題回答到圖像描述無所不能。特別值得一提的是,MM1展現(xiàn)了在多圖像推理與少樣本學(xué)習(xí)方面的關(guān)鍵能力,這都得益于團(tuán)隊在多模態(tài)預(yù)訓(xùn)練方面的深入研究。
研究人員希望他們的見解能夠得到加速進(jìn)展,據(jù)有關(guān)報道,蘋果公司正在計劃將谷歌的Gemini 生成人工智能模型集成到即將推出的 iPhone 軟件中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.