99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一文讀懂:從RAG到多模態RAG

0
分享至

思源Source報道

編輯:seefun

如果說2023年見證了大語言模型的“寒武紀大爆發”,那么2024年則是多模態大模型“元年”。GPT-4o的出現讓大家見識到多模態能力引入,給下游應用生態帶來的巨大改變。隨之而來的,RAG技術也將逐漸從單語言模態的RAG進化到多模態RAG。本文將帶大家速覽多模態RAG技術的原理及實現。


什么是RAG

什么是RAG:Retrieval Augmented Generation,檢索增強生成。是一種結合了信息檢索技術和大型語言模型提示功能的框架。它通過從數據源檢索信息來輔助LLM生成答案,提高了模型在知識密集型任務中的準確性和可信度。

我們為什么需要RAG:大型語言模型通?;诠潭ǖ臍v史數據集進行訓練,這意味著它們的知識是過時的,無法涵蓋最新的信息或特定領域的專業知識。RAG的目的是通過引入額外知識庫,檢索其中的相關信息,并根據檢索結果給予用戶回答。這也可以顯著減少大模型因為并不具備相關知識,而出現的“幻覺”現象。當然我們也可以直接把整個數據庫作為LLM的prompt輸入,但由于transformer架構O(N2)復雜度的限制,LLM支持的最長輸入長度通常有限,多數支持到128k token已經是極限,使得在面臨更長知識庫輸入時,RAG依然是當下唯一可行的解決方案。

如何實現RAG:在實際應用時,我們常需要給定一系列文檔,并使用RAG方法,讓LLM針對這些文檔進行檢索與交互。RAG的實現主要包含以下幾個步驟:

  • 數據準備階段:包括數據提取、分塊(chunking)、向量化(embedding)、數據入庫等環節。數據提取涉及將不同格式的數據(如PDF、Word、數據庫等)處理為統一的格式。分塊是將大文檔分割成較小的、語義完整的單元,以便于后續處理和檢索。

  • 檢索階段:系統根據輸入查詢檢索相關文檔或信息。這個階段依賴于搜索算法和索引方法來快速識別大量集合中最相關的數據 。

  • 增強階段:將用戶查詢和檢索到的額外上下文放入一個提示模板中,以增強提示 。

  • 生成階段:使用大型語言模型來針對檢索結果,生成對用戶的回復。

走向多模態RAG

從RAG的應用可以看出,多數時候,我們需要把一些文檔作為RAG的輸入,用于檢索和生成。而現實應用中,文檔通常是以圖文交錯的形式存在的,比如網頁、PDF、PPT文件等等。

通常的做法是,只保留文檔中的文本信息。對于PDF文檔,則進行OCR文字識別,讀取其中的文本。但這樣會導致大量圖片中至關重要的信息被丟失,以及很多結構化內容的錯亂,比如標題、表格、頁眉頁腳等格式錯亂。

改進的做法是,把所有模態信息都轉換為純文本,再進行RAG。我們可以使用多種計算機視覺模型,比如檢測模型對文檔結構進行識別,然后對文檔中不同的模塊,使用不同的“廣義OCR模型”進行解析。比如對于文本段落,使用OCR模型進行文本識別;對于表格,可以用表格模型進行識別轉換為Markdown或LaTeX文本;對于公式,則套用公式識別轉換為LaTeX;對于圖片,則可使用多模態大模型如GPT-4o進行文本解讀(caption),保存為文本描述。有很多開源的工具可以完成這些事情,比如MinerU等。通過解析算法,多模態數據就被完全轉換為純文本的格式了,也就可以照葫蘆畫瓢套用純文本的RAG方法了。


圖像來源: 張穎峰 | 所見即所得:多模態RAG正在向我們走來

我們注意到,使用上述的方法,信息不可避免會存在丟失,而且依賴過多的解析模型。而時間來到2024年,多模態大模型實現了爆發式的技術突破,高分辨率的視覺輸入已經取得了巨大突破,使用單一的多模態大模型做廣義OCR也變得非常容易。比如QWen2-VL以及InternVL-2等開源多模態大模型,在文檔的廣義OCR上都有非常好的效果。


多模態大模型成功,讓端到端(end-to-end)的算法已經成為了主流。原生多模態的RAG算法也成為了可能:既然多模態大模型有能力理解文本,那我們其實即無需再把圖像轉換為文本,而可以直接使用圖像,提取embedding去做RAG。


即從圖(a)轉變為圖(b)的模式

DSE

https://arxiv.org/abs/2406.11251


DSE,即Document Screenshot Embedding,是一個不使用廣義OCR的多模態RAG方法,直接把原始文檔的掃描圖片,切片后,使用視覺語言模型的編碼器編碼。其對query和docunment使用了雙編碼的架構。驗證了這一想法的可行性。

ColPali

https://arxiv.org/abs/2407.01449


ColPali架構也是利用視覺語言模型來從文檔頁面的圖像中產生高質量的上下文化嵌入。ColPali使用了延遲交互(late interaction)技術,大大提高了檢索效率,同時在檢索性能上超越了現有的文檔檢索系統,并且具有更快的處理速度和可端到端訓練的特點。上圖對比了傳統的文檔RAG與多模態RAG的區別。因為減少了廣義OCR的解析過程,使得處理速度也有了質的提升。


CoPali其實從名字上看,就知道靈感來源于兩個工作,PaliGemma和CoBERT。PaliGemma 是 Google 開發的一款具有多模態功能的視覺語言模型,它結合了視覺模型 SigLIP 和大型語言模型 Gemma?!癈ol” 則來自于ColBERT 的延遲交互編碼器。ColPali 算是延遲交互編碼器在多模態 RAG 檢索的應用,并且極大提高了檢索召回的精度。

延遲交互編碼結合了雙編碼器和交叉編碼器的優點。在這種架構中,query和文檔被分別編碼成獨立的embedding集合,然后通過一個高效的交互機制來計算它們之間的相似度。


延遲交互編碼的核心思想是將查詢和文檔的編碼過程分開,這樣文檔的編碼可以離線完成,而查詢的編碼則在在線階段進行。這種方法的優點是可以在查詢時僅對查詢進行編碼,從而大大提高了處理速度。此外,由于文檔的編碼是預先完成的,可以將其存儲在數據庫中,這樣就可以對更多的文檔進行排序,從而提高查詢的精度。

在延遲交互編碼中,一個關鍵的計算是最大相似性(MaxSim)函數,它計算每個查詢Token向量與所有文檔Token向量之間的相似度,并跟蹤每個查詢Token的最大得分。查詢和文檔的總相似度分數是這些最大余弦相似度分數的總和。這種方法允許模型在保持較高排序質量的同時,也具備較高的性能。

隨著多模態大語言模型能力的增強,以它為基礎的多模態RAG,也早已突破了傳統的圖像檢索的應用方式,而是真正具備大規模非結構化多模態數據深度理解的能力,將會有更多toB的商業應用價值。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
盧靖姍節目首稱和韓庚前任女朋友成為閨蜜,嘆:我們會一起吐槽他

盧靖姍節目首稱和韓庚前任女朋友成為閨蜜,嘆:我們會一起吐槽他

阿廢冷眼觀察所
2025-04-26 14:03:59
飯圈沖擊張繼科直播間,留言:教曼昱霸王擰也沒用,莎莎宇宙第一

飯圈沖擊張繼科直播間,留言:教曼昱霸王擰也沒用,莎莎宇宙第一

二月侃事
2025-04-26 11:24:40
皇馬發爭議判罰決賽主裁流淚:我的孩子被人指著說你爸是小偷

皇馬發爭議判罰決賽主裁流淚:我的孩子被人指著說你爸是小偷

直播吧
2025-04-25 21:26:44
大量圖紙被竊取,數千部手機被植入間諜軟件!國安部披露形勢嚴峻

大量圖紙被竊取,數千部手機被植入間諜軟件!國安部披露形勢嚴峻

知鑒明史
2025-04-25 17:33:11
詹姆斯:東契奇生病對我們打擊很大 失誤19次丟掉30分就很難贏

詹姆斯:東契奇生病對我們打擊很大 失誤19次丟掉30分就很難贏

直播吧
2025-04-26 14:38:07
笑死了,找工作被要求得過諾貝爾獎,趕緊發給莫言,年齡又卡了

笑死了,找工作被要求得過諾貝爾獎,趕緊發給莫言,年齡又卡了

小人物看盡人間百態
2025-04-16 09:10:39
男朋友性功能不行,到底能不能嫁?過來人掏心窩子的大實話!

男朋友性功能不行,到底能不能嫁?過來人掏心窩子的大實話!

墻頭草
2025-04-25 08:46:24
霍里:哈利伯頓的投籃姿勢很丑 讓他走左路他都得不了分

霍里:哈利伯頓的投籃姿勢很丑 讓他走左路他都得不了分

直播吧
2025-04-25 21:36:17
整容失敗不可怕,一股姨味才尷尬!51歲蘇有朋給所有男星提了個醒

整容失敗不可怕,一股姨味才尷尬!51歲蘇有朋給所有男星提了個醒

書雁飛史oh
2025-04-25 18:37:45
北理工男教授和男學生性丑聞:52分鐘內部視頻流出,骯臟細節披露

北理工男教授和男學生性丑聞:52分鐘內部視頻流出,骯臟細節披露

博士觀察
2025-04-25 21:55:02
我每天都會穿進一個男人身體里面,可待夠十分鐘之后,我又會恢復

我每天都會穿進一個男人身體里面,可待夠十分鐘之后,我又會恢復

風月故事匯
2024-08-29 23:33:25
不負眾望!國乒女單獨苗3:0大獲全勝,國乒1人晉級,日本7人晉級

不負眾望!國乒女單獨苗3:0大獲全勝,國乒1人晉級,日本7人晉級

國乒二三事
2025-04-26 12:26:59
三大龍脈被破壞的城市,廣州富而不王,南京貴而不尊,還有一個......

三大龍脈被破壞的城市,廣州富而不王,南京貴而不尊,還有一個......

神奇故事
2025-04-24 22:30:39
國務院同意,在福建一市設立!

國務院同意,在福建一市設立!

共青團福建省委
2025-04-26 09:55:14
70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

蘇大強專欄
2024-03-27 22:12:23
油價大跌0.71元/升,92號汽油降入“6元時代”,下次4月30日調價

油價大跌0.71元/升,92號汽油降入“6元時代”,下次4月30日調價

豬友巴巴
2025-04-26 14:55:03
為啥娃七八歲后家長就不熱衷于曬娃了?網友:自己看!

為啥娃七八歲后家長就不熱衷于曬娃了?網友:自己看!

有趣的火烈鳥
2025-04-09 16:25:09
70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現京城神秘大佬!

70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現京城神秘大佬!

牛鍋巴小釩
2025-04-24 11:39:45
先投彈再撞擊,烏軍這次干得漂亮!臭顯擺果然讓“莫斯科城”被炸

先投彈再撞擊,烏軍這次干得漂亮!臭顯擺果然讓“莫斯科城”被炸

鷹眼Defence
2025-04-25 18:00:16
為了700萬中國游客,日本最大餐飲平臺Tabelog“搬進”微信小程序

為了700萬中國游客,日本最大餐飲平臺Tabelog“搬進”微信小程序

21世紀經濟報道
2025-04-23 17:22:12
2025-04-26 15:36:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
258文章數 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

手機
家居
時尚
旅游
軍事航空

手機要聞

CounterPoint 報告 2024 全球手機攝像頭出貨量:索尼領銜

家居要聞

清徐現代 有溫度有態度

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吴川市| 平遥县| 许昌市| 略阳县| 灵石县| 武城县| 新安县| 扶绥县| 汨罗市| 北碚区| 日喀则市| 靖宇县| 邛崃市| 饶阳县| 奉贤区| 和平县| 盐亭县| 望谟县| 永靖县| 金平| 松桃| 西和县| 延长县| 林芝县| 寿宁县| 辉南县| 岐山县| 井研县| 宜阳县| 墨江| 洱源县| 东兰县| 宜城市| 长乐市| 盖州市| 浑源县| 会宁县| 墨脱县| 四平市| 松桃| 诸城市|