最近一年來(lái),智能眼鏡越來(lái)越成為科技圈的新寵兒。從今年的 CES 到 AWE,這些時(shí)尚小物已經(jīng)成了展會(huì)上的焦點(diǎn),引得無(wú)數(shù)參觀者駐足體驗(yàn)。與幾年前那些笨重、功能單一的早期產(chǎn)品相比,如今的智能眼鏡已經(jīng)變得既時(shí)尚又實(shí)用,開(kāi)始真正融入人們的日常生活。
然而,我們心中那個(gè)理想中的 AI 助手——能陪你度過(guò)一整天,在你餓了的時(shí)候推薦符合你口味的餐廳,在你工作時(shí)提醒你不要錯(cuò)過(guò)重要會(huì)議,甚至能預(yù)測(cè)你可能忘記購(gòu)買(mǎi)的日用品——這樣的場(chǎng)景還停留在科幻電影中。要實(shí)現(xiàn)這一愿景,我們需要突破目前 AI 在理解人類長(zhǎng)期行為模式和復(fù)雜社交互動(dòng)方面的局限。
最近,南洋理工大學(xué)劉子緯助理教授領(lǐng)導(dǎo)的聯(lián)合團(tuán)隊(duì),就開(kāi)發(fā)了一個(gè)名為“EgoLife”的研究項(xiàng)目,試圖填補(bǔ)這一空白。該項(xiàng)目旨在開(kāi)發(fā)一種基于可穿戴設(shè)備的智能助手,通過(guò)第一人稱視角理解并輔助用戶的日常生活。
圖丨相關(guān)論文(來(lái)源:arXiv)
一個(gè)偶然誕生的研究項(xiàng)目
這個(gè)項(xiàng)目的誕生頗有些偶然。一切源于 Meta 公司送出的六副 Aria 智能眼鏡。拿到這些設(shè)備后,研究團(tuán)隊(duì)起初只是嘗試了一些零散的個(gè)人錄制場(chǎng)景,如音樂(lè)會(huì)和足球比賽,但效果并不理想。
隨后,他們想到了一個(gè)大膽的想法:何不讓六個(gè)人一起生活一周,全程佩戴這些眼鏡記錄他們的生活?這樣就能獲得豐富、真實(shí)的第一人稱視角數(shù)據(jù)。
隨后通過(guò)小紅書(shū),團(tuán)隊(duì)在兩天內(nèi)收到了 32 份申請(qǐng),但有意思的是,其中 29 位是女性,僅有的 3 位男性申請(qǐng)者又恰巧在拍攝期間無(wú)法參與。最終,項(xiàng)目負(fù)責(zé)人不得不親自上陣,而另一位男性參與者則是在開(kāi)拍前一天臨時(shí)找到的。否則,這個(gè)項(xiàng)目可能就變成了“EgoLife:我被美女包圍了”。
而且這些參與者們?cè)?MBTI 人格測(cè)試中大多展現(xiàn)出直覺(jué)型 (N) 和感知型 (P) 的特質(zhì),這表明他們天生就適合開(kāi)放式、探索性的體驗(yàn),這一點(diǎn)對(duì)于項(xiàng)目的順利開(kāi)展起到了積極作用。
招募完成后,研究團(tuán)隊(duì)開(kāi)始著手構(gòu)建一個(gè)專門(mén)的環(huán)境——“EgoHouse”,讓所有參與者在此共同生活。這個(gè)生活空間經(jīng)過(guò)精心設(shè)計(jì),不僅滿足日常生活所需,還在各個(gè)角落安裝了攝像頭和毫米波雷達(dá),為多角度數(shù)據(jù)采集做好準(zhǔn)備。
為了給數(shù)據(jù)采集提供自然而有目的性的框架,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)任務(wù):讓六位參與者在一周內(nèi)共同籌備一場(chǎng)“地球日”慶祝活動(dòng)。
圖丨 EgoLife 項(xiàng)目概覽(來(lái)源:GitHub)
實(shí)際數(shù)據(jù)采集開(kāi)始于參與者入住“EgoHouse”的那一刻。每位參與者佩戴 Meta Aria 智能眼鏡,這種設(shè)備集成了高清攝像頭、空間音頻麥克風(fēng)和 IMU(慣性測(cè)量單元)傳感器,能夠全方位捕捉佩戴者的視覺(jué)、聽(tīng)覺(jué)和運(yùn)動(dòng)信息。團(tuán)隊(duì)要求每人每天至少記錄 6 小時(shí)的清醒活動(dòng),以確保數(shù)據(jù)的連續(xù)性和代表性。
除了參與者佩戴的智能眼鏡外,“EgoHouse”內(nèi)還布置了 15 個(gè)外部 GoPro 攝像頭,分布在公共區(qū)域,從第三人稱角度記錄所有互動(dòng)。這些攝像頭與智能眼鏡同步工作,提供多角度視角,有助于后期對(duì)自我中心視頻內(nèi)容的驗(yàn)證和擴(kuò)充。此外,兩個(gè)毫米波雷達(dá)設(shè)備安裝在二樓,用于提供空間和運(yùn)動(dòng)數(shù)據(jù),進(jìn)一步豐富了多模態(tài)數(shù)據(jù)采集的維度。
整個(gè)數(shù)據(jù)采集過(guò)程持續(xù)了七天,期間參與者們進(jìn)行了各種的活動(dòng):從討論地球日主題、排練音樂(lè)和舞蹈表演,到共同烹飪、外出購(gòu)物和布置場(chǎng)地。這些活動(dòng)自然而然地產(chǎn)生了大量有價(jià)值的社交互動(dòng)和協(xié)作場(chǎng)景,為數(shù)據(jù)集提供了真實(shí)、豐富的內(nèi)容。最終,團(tuán)隊(duì)收集了約 300 小時(shí)的自我中心視頻,以及大量同步的第三人稱視角數(shù)據(jù),構(gòu)成了 EgoLife 數(shù)據(jù)集的原始素材。
數(shù)據(jù)集和基準(zhǔn)測(cè)試構(gòu)建
原始數(shù)據(jù)收集完成后,研究團(tuán)隊(duì)開(kāi)發(fā)了一套完整的數(shù)據(jù)處理流程,包括 EgoSync(數(shù)據(jù)同步)、EgoBlur(隱私保護(hù))、EgoCaption(密集描述)和 EgoTranscript(轉(zhuǎn)錄)等多個(gè)模塊,從而將這些海量、多源的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、可用數(shù)據(jù)集。
具體來(lái)說(shuō),研究團(tuán)隊(duì)首先將所有自我中心視頻同步,將六位參與者的音軌合并,并應(yīng)用語(yǔ)音識(shí)別技術(shù)生成初步的時(shí)間戳轉(zhuǎn)錄文本。使用開(kāi)源的分辨算法區(qū)分不同說(shuō)話者后,將音軌分成六個(gè)獨(dú)立的軌道,進(jìn)行進(jìn)一步細(xì)化,確保每段轉(zhuǎn)錄準(zhǔn)確反映每位參與者能聽(tīng)到的對(duì)話內(nèi)容。
除此之外,研究團(tuán)隊(duì)還對(duì)數(shù)據(jù)進(jìn)行了詳細(xì)的標(biāo)注。他們將視頻分成 5 分鐘的片段,以 0.8 倍速播放,讓注釋員通過(guò)連續(xù)、詳細(xì)的口述為每個(gè)片段提供高密度信息。這些口述內(nèi)容被轉(zhuǎn)換成文本后,形成了 361,000 條簡(jiǎn)短的“旁白”片段,平均每條持續(xù) 2.65 秒。隨后,團(tuán)隊(duì)使用 GPT-4o-mini 將相關(guān)片段合并成 25,000 條“合并字幕”,形成與特定視頻段落對(duì)齊的連貫句子。最后,這些字幕與每秒抽樣的代表性畫(huà)面和對(duì)應(yīng)的轉(zhuǎn)錄文本配對(duì),經(jīng) GPT-4o 總結(jié),創(chuàng)建了豐富的“視聽(tīng)字幕”,最終由人類注釋員驗(yàn)證準(zhǔn)確性。
這些精心創(chuàng)建的注釋不僅直接用于訓(xùn)練 EgoGPT 模型,還成為自動(dòng)生成 EgoLifeQA 問(wèn)答數(shù)據(jù)的基礎(chǔ),為研究團(tuán)隊(duì)構(gòu)建長(zhǎng)情境、面向生活的問(wèn)答基準(zhǔn)測(cè)試提供了堅(jiān)實(shí)支持。
基于這些豐富的注釋,研究團(tuán)隊(duì)開(kāi)發(fā)了 EgoLifeQA 基準(zhǔn)測(cè)試,這是一套專門(mén)設(shè)計(jì)用來(lái)評(píng)估 AI 在長(zhǎng)情境、生活導(dǎo)向的問(wèn)答任務(wù)中的表現(xiàn)能力。EgoLifeQA 與現(xiàn)有的基準(zhǔn)測(cè)試如 EgoSchema、EgoPlan-Bench 等有本質(zhì)區(qū)別:它要求 AI 系統(tǒng)能夠處理遠(yuǎn)超 2 小時(shí)的超長(zhǎng)視頻內(nèi)容,在某些問(wèn)題上甚至需要追溯數(shù)天前的信息。
EgoLifeQA 包含五種類型的問(wèn)題,每一種都針對(duì)生活助手的不同核心能力:
圖丨 EgoLifeQA 基準(zhǔn)中的問(wèn)題類型和示例(來(lái)源:GitHub)
EntityLog(實(shí)體日志)專注于測(cè)試 AI 對(duì)物品細(xì)節(jié)的長(zhǎng)期記憶能力。例如,“我們付的酸奶價(jià)格最接近哪個(gè)選項(xiàng)?A. 2 元 B. 3 元 C. 4 元 D. 5 元”。要回答這個(gè)問(wèn)題,AI 需要回憶起購(gòu)物場(chǎng)景中的具體價(jià)格信息,這可能發(fā)生在幾天前的某個(gè)片段中。
EventRecall(事件回憶)考驗(yàn) AI 回憶過(guò)去事件的能力。如“在計(jì)劃跳舞后第一首被提到的歌是什么?”這類問(wèn)題需要 AI 在海量視頻中定位特定會(huì)話內(nèi)容,理解對(duì)話上下文并提取關(guān)鍵信息。
HabitInsight(習(xí)慣洞察)要求 AI 能夠識(shí)別和分析個(gè)人行為模式。比如“我喝咖啡時(shí)通常同時(shí)做什么活動(dòng)?”回答這類問(wèn)題需要 AI 系統(tǒng)對(duì)用戶的日常習(xí)慣有全面了解,能夠從多天的數(shù)據(jù)中歸納出規(guī)律。
RelationMap(關(guān)系映射)測(cè)試 AI 理解人際互動(dòng)模式的能力。像“Shure 正在彈吉他,還有誰(shuí)通常和我們一起彈吉他?”這樣的問(wèn)題需要 AI 能夠識(shí)別不同人物,并記住他們之間的社交互動(dòng)歷史。
TaskMaster(任務(wù)管理)評(píng)估 AI 基于過(guò)去行為提供建議的能力。例如“我的購(gòu)物車(chē)?yán)镆呀?jīng)有很多東西了,我們之前討論過(guò)但我還沒(méi)買(mǎi)的是什么?”這要求 AI 不僅能記住購(gòu)物清單,還能追蹤已完成的購(gòu)買(mǎi)和未完成的意圖。
這些看似日常的問(wèn)題對(duì) AI 提出了極高要求,因?yàn)榛卮鹚鼈冃枰獜男r(shí)甚至數(shù)天前的記錄中檢索相關(guān)信息,這遠(yuǎn)超出當(dāng)前大多數(shù) AI 系統(tǒng)的能力范圍。
融合視聽(tīng)理解與長(zhǎng)期記憶的 AI 助手
與 EgoLifeQA 的一系列挑戰(zhàn)相對(duì)應(yīng)的是,研究團(tuán)隊(duì)開(kāi)發(fā)了 EgoButler 系統(tǒng)以解決這些問(wèn)題,它由兩個(gè)核心組件組成:EgoGPT 負(fù)責(zé)片段級(jí)的全模態(tài)理解,EgoRAG 負(fù)責(zé)長(zhǎng)情境問(wèn)答。這兩個(gè)系統(tǒng)協(xié)同工作,共同實(shí)現(xiàn)對(duì)超長(zhǎng)視頻內(nèi)容的理解和問(wèn)答能力。
圖丨 EgoBulter 架構(gòu)(來(lái)源:GitHub)
EgoGPT 是 EgoButler 系統(tǒng)的基礎(chǔ)組件,它在系統(tǒng)中承擔(dān)兩項(xiàng)關(guān)鍵任務(wù):一是持續(xù)視頻描述,處理每個(gè) 30 秒的視頻片段,利用視覺(jué)和音頻輸入生成詳細(xì)描述;二是協(xié)助問(wèn)答,利用從 EgoRAG 檢索到的線索提供精準(zhǔn)回答。
為了使模型更好地適應(yīng)自我中心視頻領(lǐng)域并整合音頻理解能力,研究團(tuán)隊(duì)專門(mén)開(kāi)發(fā)了 EgoIT-99K 數(shù)據(jù)集。這是一個(gè)多樣化、具有代表性的自我中心視頻集合,涵蓋 9 個(gè)經(jīng)典自我中心視頻數(shù)據(jù)集,包括 Ego4D、Charades-Ego、HoloAssist 等。團(tuán)隊(duì)精心挑選了 1,529 個(gè)視頻(其中 686 個(gè)帶音頻),總時(shí)長(zhǎng)達(dá) 43.16 小時(shí),并基于原始注釋生成了 99,480 個(gè)問(wèn)答對(duì),涵蓋視頻描述、音視頻描述、多項(xiàng)選擇題和多輪對(duì)話等多種類型。
EgoGPT 的構(gòu)建基于 LLaVA-OneVision 模型(該模型本身基于 Qwen2 架構(gòu))。為了增強(qiáng)音頻處理能力,團(tuán)隊(duì)參考 Ola 模型的設(shè)計(jì),開(kāi)發(fā)了一個(gè)音頻分支,使用 Whisper Large v3 編碼音頻,并在 LibriSpeech 數(shù)據(jù)集上訓(xùn)練音頻投影模塊。從音頻投影模塊到 LLaVA-OneVision 的整合過(guò)程中,團(tuán)隊(duì)使用 EgoIT-99K 進(jìn)行最終階段微調(diào)。為實(shí)現(xiàn)個(gè)性化,他們還在 EgoLife 第一天的視頻上對(duì) EgoGPT 進(jìn)行了特定訓(xùn)練,使模型能夠進(jìn)行身份識(shí)別,這對(duì)于 EgoLifeQA 中的人際關(guān)系理解至關(guān)重要。
另一方面,針對(duì)長(zhǎng)時(shí)間跨度、長(zhǎng)情境場(chǎng)景的挑戰(zhàn),研究團(tuán)隊(duì)開(kāi)發(fā)了 EgoRAG 檢索增強(qiáng)生成系統(tǒng),它增強(qiáng)了記憶和查詢能力,實(shí)現(xiàn)了個(gè)性化和長(zhǎng)期理解。這個(gè)系統(tǒng)的工作原理可以類比為人類的記憶組織方式。比如說(shuō),如果有人問(wèn)我們“三天前的早餐你吃了什么”,我們通常不會(huì)從三天前的每一分鐘開(kāi)始回憶,而是先回想到大致的那一天(星期幾),然后定位到早上的時(shí)間段,最后才想起具體的早餐內(nèi)容。EgoRAG 正是模擬了這種分層記憶檢索的過(guò)程。
EgoRAG 采用兩階段方法:記憶庫(kù)構(gòu)建和內(nèi)容檢索響應(yīng)生成。
在記憶庫(kù)構(gòu)建階段,EgoRAG 不斷收集 EgoGPT 對(duì)每個(gè) 30 秒視頻片段生成的詳細(xì)描述,這些描述包含了視頻中發(fā)生的事件、對(duì)話和環(huán)境細(xì)節(jié)。然后,它會(huì)定期對(duì)這些片段描述進(jìn)行“總結(jié)”,形成不同層級(jí)的記憶:
·細(xì)粒度記憶:原始的 30 秒片段描述,保留了最詳細(xì)的信息
·小時(shí)級(jí)摘要:對(duì)每小時(shí)內(nèi)容的概括,匯總了主要事件和活動(dòng)
·天級(jí)摘要:對(duì)每天內(nèi)容的總結(jié),捕捉了一天中的關(guān)鍵點(diǎn)和模式
這種層級(jí)結(jié)構(gòu)使得系統(tǒng)能夠高效地管理和檢索海量信息,就像給記憶建立了一個(gè)多層索引系統(tǒng)。
當(dāng)用戶提出問(wèn)題時(shí),EgoRAG 的智能檢索回答階段開(kāi)始工作:
首先,它會(huì)分析問(wèn)題,提取關(guān)鍵詞和時(shí)間線索。例如,如果問(wèn)題是“昨天我們?cè)诔匈I(mǎi)了什么牌子的酸奶?”,系統(tǒng)會(huì)識(shí)別出“昨天”、“超市”和“酸奶”是關(guān)鍵信息。
接著,它會(huì)先在天級(jí)摘要中尋找與“昨天”和“超市”相關(guān)的內(nèi)容,快速縮小搜索范圍到特定的時(shí)間段。
然后,它深入到那個(gè)時(shí)間段的小時(shí)級(jí)摘要和細(xì)粒度記憶,精確定位與“酸奶”相關(guān)的片段。
最后,它將找到的相關(guān)片段送入 EgoGPT,由 EgoGPT 整合這些信息,生成一個(gè)準(zhǔn)確、上下文相關(guān)的回答。
這種層級(jí)檢索策略極大地提高了效率。要是系統(tǒng)需要在一周的視頻內(nèi)容(約 300 小時(shí))中逐幀搜索“酸奶”,這顯然極其低效。而通過(guò)先確定大致時(shí)間段,再細(xì)化搜索,EgoRAG 能夠在幾秒鐘內(nèi)完成這個(gè)過(guò)程。
EgoButler 系統(tǒng)的整體架構(gòu)將 EgoGPT 和 EgoRAG 有機(jī)結(jié)合,形成了一個(gè)功能完整的 AI 助手系統(tǒng)。EgoGPT 持續(xù)收集個(gè)性化的自我中心數(shù)據(jù),而 EgoRAG 檢索并提供相關(guān)線索,共同實(shí)現(xiàn)準(zhǔn)確、上下文感知的響應(yīng)。這種協(xié)同工作模式使系統(tǒng)能夠處理復(fù)雜的長(zhǎng)情境問(wèn)答任務(wù),理解用戶的長(zhǎng)期行為模式和社交互動(dòng)。
性能表現(xiàn)如何?
研究團(tuán)隊(duì)對(duì) EgoButler 系統(tǒng)進(jìn)行了全面的性能評(píng)估。在現(xiàn)有的自我中心基準(zhǔn)測(cè)試(如 EgoSchema、EgoPlan 和 EgoThink)上,EgoGPT 展現(xiàn)出了與 GPT-4v、Gemini-1.5-Pro 和 GPT-4o 等商業(yè)模型相當(dāng)甚至超越的性能。尤其是經(jīng)過(guò) EgoLife 第一天數(shù)據(jù)微調(diào)的 EgoGPT(EgoIT+EgoLifeD1) 在 EgoSchema 上達(dá)到了 75.4% 的準(zhǔn)確率,超過(guò)了 GPT-4o 的 72.2% 和 LLaVA-OV 的 60.1%。
在 EgoLifeQA 基準(zhǔn)測(cè)試上,EgoButler 系統(tǒng)同樣表現(xiàn)出色。與單獨(dú)使用通用視頻語(yǔ)言模型相比,集成了 EgoRAG 的系統(tǒng)在長(zhǎng)情境問(wèn)答方面取得了顯著提升。實(shí)驗(yàn)結(jié)果表明,對(duì)于需要 2 小時(shí)以上認(rèn)證長(zhǎng)度的問(wèn)題,EgoGPT+EgoRAG 的準(zhǔn)確率達(dá)到 35.7%,而單獨(dú)使用 Gemini-1.5-Pro 僅為 14.8%,EgoGPT 為 29.1%。這一差距在超過(guò) 24 小時(shí)認(rèn)證長(zhǎng)度的問(wèn)題上更為顯著,EgoGPT+EgoRAG 達(dá)到 35.4%,遠(yuǎn)高于 Gemini-1.5-Pro 的 18.4% 和 EgoGPT 的 25.0%。
(來(lái)源:GitHub)
不過(guò),雖然 EgoButler 系統(tǒng)在多個(gè)任務(wù)上表現(xiàn)出色,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了系統(tǒng)面臨的挑戰(zhàn)。定性分析表明,EgoGPT 在個(gè)性化和生成上下文相關(guān)描述方面表現(xiàn)優(yōu)異,但也存在明顯的局限性。
首先是 EgoGPT 的語(yǔ)音理解仍然不完整,它在理解人類笑聲和情感方面存在困難,這可能是由于其依賴于 ASR 訓(xùn)練數(shù)據(jù)。身份識(shí)別是另一個(gè)挑戰(zhàn)。由于模型僅在 EgoLife 第一天的數(shù)據(jù)上進(jìn)行微調(diào),它傾向于過(guò)度擬合早期觀察。例如,如果某人在第一天穿藍(lán)色襯衫,EgoGPT 可能會(huì)錯(cuò)誤地將后來(lái)穿藍(lán)色衣服的不同人識(shí)別為同一個(gè)人,這暴露了目前個(gè)性化策略的局限性。
EgoRAG 雖然能夠檢索長(zhǎng)情境證據(jù),但其檢索機(jī)制缺乏多步推理能力。它執(zhí)行單次搜索,沒(méi)有迭代優(yōu)化或逐步推理,當(dāng)直接檢索中缺少相關(guān)信息時(shí)容易失敗。這種缺乏容錯(cuò)性的特點(diǎn)意味著,如果 EgoRAG 無(wú)法找到支持證據(jù),它就無(wú)法提供答案,而不是圍繞缺失信息進(jìn)行推理。
而這些不足,也將是研究團(tuán)隊(duì)未來(lái)研究的關(guān)鍵方向。他們計(jì)劃進(jìn)一步擴(kuò)展數(shù)據(jù)集,涵蓋更廣泛的語(yǔ)言、地點(diǎn)和活動(dòng),并開(kāi)發(fā)更復(fù)雜的模型,推動(dòng) AI 理解和增強(qiáng)日常生活的能力邊界。
目前,項(xiàng)目已經(jīng)在 Hugging Face 上開(kāi)源。(項(xiàng)目地址:https://huggingface.co/papers/2503.03803)
參考資料:
1.https://arxiv.org/abs/2503.03803
2.https://egolife-ai.github.io/blog/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.