蘋果終于推出AI模型MM1!該模型是文本和圖像生成的多模態(tài)模型

2024-03-20 21:43:55　來源: AI變革

黑龍江舉報

分享至

蘋果公司終于推出了期待已久的多模態(tài)AI模型MM1，蘋果公司揚帆起航，攜帶著MM1—一款集文本與圖像生成于一身的多模態(tài)AI神器，正式加入了人工智能的領(lǐng)域。在經(jīng)歷了無數(shù)猜想與期待后，蘋果研究團(tuán)隊精心打造了MM1這個家族，它不僅能誦讀文字，還能繪制畫面，無所不能。根據(jù)上周發(fā)布的一份研究報告，這是一個跨越視覺與文本界限的大型多模態(tài)語言模型家族。

多樣化數(shù)據(jù)對AI性能的影響

蘋果的研究實驗室深入挖掘，通過精心設(shè)計的實驗，解剖了建造高效多模態(tài)語言模型的秘密。他們發(fā)現(xiàn)，在這個視覺與文字交織的世界中，圖像分辨率和視覺編碼器的能力對模型性能影響最大，而具體如何結(jié)合視覺和文本數(shù)據(jù)的方法影響較小。

在這場技術(shù)的探索中，他們還揭示了多樣化數(shù)據(jù)的重要性：混搭的圖文文檔助力少量樣本學(xué)習(xí)，有標(biāo)注的圖片提升了模型的零樣本能力，純文本數(shù)據(jù)則鞏固了語言理解的基石。

MM1家族：從億級參數(shù)到前沿性能的跨越

MM1的大規(guī)模多模態(tài)預(yù)訓(xùn)練賦予了它超凡脫俗的能力，從數(shù)數(shù)到執(zhí)行OCR，從日常物品的常識到基礎(chǔ)數(shù)學(xué)運算，無所不能。

蘋果團(tuán)隊基于這些發(fā)現(xiàn)，創(chuàng)造了從三億到三十億參數(shù)范圍內(nèi)的MM1模型家族，涵蓋了密集型與混合專家型變體。在擴(kuò)展訓(xùn)練的助力下，MM1在多個多模態(tài)基準(zhǔn)測試中，展示了前所未有的能力。經(jīng)過更深層次的調(diào)優(yōu)與專門設(shè)計的一百萬示例數(shù)據(jù)集的訓(xùn)練后，MM1在12個多模態(tài)任務(wù)上展現(xiàn)了強(qiáng)大的競爭力，從視覺問題回答到圖像描述無所不能。特別值得一提的是，MM1展現(xiàn)了在多圖像推理與少樣本學(xué)習(xí)方面的關(guān)鍵能力，這都得益于團(tuán)隊在多模態(tài)預(yù)訓(xùn)練方面的深入研究。

研究人員希望他們的見解能夠得到加速進(jìn)展，據(jù)有關(guān)報道，蘋果公司正在計劃將谷歌的Gemini 生成人工智能模型集成到即將推出的 iPhone 軟件中。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.