99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態大語言模型空間智能新探索:單圖或一句話,生成3D建模代碼

0
分享至

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者來自上海交通大學電子信息與電氣工程學院 i-WiN 中心團隊,團隊負責人是上海交通大學講席教授關新平。本文的第一作者為上海交通大學博士生王思宇,研究方向涉及多模態大模型、大模型的可靠生成及其工業應用。本文的通訊作者和主要指導老師為i-WiN中心陳彩蓮教授、樂心怡副教授和許齊敏副研究員。

計算機輔助設計(CAD)已經成為許多行業設計、繪圖和建模的標準方法。如今,幾乎每一個制造出來的物體都是從參數化 CAD 建模開始的。CAD 構造序列是 CAD 模型表示的一種類型,不同于 Mesh 類型的三角網格、B-rep 格式的點、線、面表示,它被描述為一系列建模操作,包括確定草圖 3D 起點和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實體形狀的完整參數和過程,以 JSON 代碼格式儲存和表示。這類表示方法與專業建模工程師構建 CAD 模型的過程最為近似,可以直接被導入 AutoDesk、 ProE 等建模軟件。構建這些 CAD 模型需要領域專業知識和空間推理能力,也需要較高的學習成本。



圖 1. CAD 建模代碼示意圖

作為空間智能的關鍵能力之一,空間建模能力對 MLLM 提出了嚴峻的挑戰。盡管 MLLM 在生成 2D 網頁布局代碼等方面展現出了卓越的性能,這類方法在 3D 建模領域仍然存在問題,比如生成 4 個平行于車底方向車輪的小車。這是因為 MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性,難以理解復雜數字背后真正的空間含義。



圖 2. 原始多模態大模型 3D 建模效果差原因分析

近期,來自上海交通大學的 i-WiN 研究團隊提出了專門用于 CAD 建模的多模態大語言模型 CAD-GPT,結合專門設計的 3D 建模空間定位機制,將 3D 參數映射到 1D 語言信息維度,提高了 MLLM 的空間推理能力,實現了基于單張圖片或一句話描述的精準 CAD 建模構造序列生成。該項研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題,被 AAAI 2025 接收。



  • 論文標題:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 論文地址:https://arxiv.org/abs/2412.19663
  • 項目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介紹

3D 建模空間定位機制

我們把關鍵的 3D、2D 建模參數定義為大語言模型可以理解的建模語言,便于大模型理解和生成。具體來說,設計了 3 個系列的定位 token 來代替 3D 草圖平面起點坐標、3D 草圖平面角度和 2D 草圖曲線坐標的參數。通過將全局空間 3D 坐標、草圖平面 3D 旋轉角度的特征展開到一維語言特征空間,將它們轉換為兩類不同的 1D 位置 tokens。此外,2D 草圖被離散化并轉換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時,納入了 3 類適配 3 種 token 的自定義可學習的位置嵌入,以彌合語言和空間位置之間的差距。

數據集構建

基于 DeepCAD 數據集,生成了 160k 固定視角渲染的 CAD 模型圖像和 18k 相應的自然語言描述數據集,構建專門用于訓練多模態大語言模型的 CAD 建模數據集,便于后續其他工作訓練大模型生成 CAD 模型建模序列。

訓練策略與細節

我們采用 LLaVA - 1.5 7B 版本作為基礎模型。訓練包括兩個階段:首先在 image2CAD 任務上進行訓練,然后在 text2CAD 任務上降低學習率進行微調。此外,因 CAD 建模序列長度較長,我們基于外推法,通過超參調整,擴展 LLM 的窗口長度到 8192。



圖 3. CAD-GPT 原理框架圖

實驗效果展示



圖 4. CAD-GPT 生成的各種 CAD 模型展示

圖 4 中的模型展示了包含精準語義草圖生成能力(如心形和字母 “E”)、帶有類別的 CAD 生成能力(如桌子、椅子和鑰匙)、空間推理能力(如桌子和相互垂直的圓柱體),以及生成不同尺寸的相同模型的能力(如三個有兩個圓孔的不同尺寸連接器)。

基于單張圖片的生成效果

將 CAD-GPT 與三種代表性方法進行了比較。第一個是 DeepCAD,它演示了 CAD 建模中的先進生成技術。第二個是 GPT-4,代表了閉源多模態大型模型的前沿。第三個是 Qwen2-VL-Max,這是領先的開源多模態大型模型之一。相比之下,CAD-GPT 產生的輸出既準確又美觀。



圖 5. 基于圖片的 CAD 生成效果對比



基于一句話描述生成效果展示

本文選擇了兩個有代表性的大型語言模型:領先的閉源模型 GPT-4 和最先進的開源模型 LLaMA-3.1(405B)。如圖 6 所示,我們的模型始終生成高精度、美觀的輸出,并且展示出了與文本描述對應的語義信息。



圖 6. 基于文本描述的 CAD 生成效果對比



消融實驗

圖 7 展示了是否添加 3D 建模空間定位機制訓練模型的差異。如圖所示,添加定位機制后,CAD-GPT 可以精準的推理空間角度、位置變化,以及生成準確的 2D 草圖。



圖 7. 消融實驗效果展示



總結

本文提出 CAD-GPT,一種具有三維建模空間定位機制的多模態大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現出卓越的性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大妹尷尬了吧!謝浩男媽媽說出這句話的時候,說明她不是個糊涂人

大妹尷尬了吧!謝浩男媽媽說出這句話的時候,說明她不是個糊涂人

阿矗論古今
2025-04-11 23:57:38
汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

火之文
2025-02-04 13:22:59
火爆沖突!任駿飛擊打王哲林頭部奪權被驅逐 洛夫頓出頭吃T

火爆沖突!任駿飛擊打王哲林頭部奪權被驅逐 洛夫頓出頭吃T

醉臥浮生
2025-04-11 21:11:57
均價只有380塊?國產輪胎的悲哀:只要預算夠,車主只買米其林!

均價只有380塊?國產輪胎的悲哀:只要預算夠,車主只買米其林!

少數派報告Report
2025-02-19 06:42:50
關稅145%?川普威脅去美元國家,話音剛落,中阿簽署貨幣互換協議

關稅145%?川普威脅去美元國家,話音剛落,中阿簽署貨幣互換協議

小晨同學啊
2025-04-11 15:30:59
太罕見,90年前德國人拍攝的北京故宮!那時的故宮,和今天不一樣

太罕見,90年前德國人拍攝的北京故宮!那時的故宮,和今天不一樣

渺滄海一粟
2025-04-07 09:57:03
44歲陳冠希骨相殺瘋香港!醫美機構慌了:明星的丑真是限時體驗

44歲陳冠希骨相殺瘋香港!醫美機構慌了:明星的丑真是限時體驗

觀察鑒娛
2025-03-23 09:15:03
北京一戶人家曬出89平的家,堅持斷舍離,全屋一塵不染太干凈!

北京一戶人家曬出89平的家,堅持斷舍離,全屋一塵不染太干凈!

一起讀裝修
2025-04-10 22:03:10
泰國拒絕了中國,把800億高鐵訂單交給日本,10年后卻攜款跪求合作

泰國拒絕了中國,把800億高鐵訂單交給日本,10年后卻攜款跪求合作

睡前講故事
2025-04-10 14:58:14
河北首次發布大風紅色預警:局地陣風可達13級以上

河北首次發布大風紅色預警:局地陣風可達13級以上

魯中晨報
2025-04-11 19:15:14
24歲國家級健將馬章浩去世,死因曝光,目擊者發聲,本打算結婚!

24歲國家級健將馬章浩去世,死因曝光,目擊者發聲,本打算結婚!

古希臘掌管松餅的神
2025-04-11 09:42:21
艾克森宣布退役后,做出2大新決定,他的孩子會為中國隊效力嗎?

艾克森宣布退役后,做出2大新決定,他的孩子會為中國隊效力嗎?

何老師呀
2025-04-11 23:29:35
中美是否談判?中方態度很堅決,特朗普的計劃,已經失敗了一半

中美是否談判?中方態度很堅決,特朗普的計劃,已經失敗了一半

劉勇教授
2025-04-12 10:17:28
世體:亞馬爾年滿18歲續約后將成為隊內薪水最高的球員之一

世體:亞馬爾年滿18歲續約后將成為隊內薪水最高的球員之一

懂球帝
2025-04-11 18:01:11
深夜!美債又現拋售

深夜!美債又現拋售

證券時報
2025-04-11 23:45:03
當年說出“不是你撞的,干嘛去扶”的法官,18年后,他過得怎樣?

當年說出“不是你撞的,干嘛去扶”的法官,18年后,他過得怎樣?

大佬日志
2024-03-26 08:00:10
任天堂Switch 2發布:幾乎沒人要的microSD Express卡在日本銷售一空

任天堂Switch 2發布:幾乎沒人要的microSD Express卡在日本銷售一空

快科技
2025-04-12 09:49:33
執教皇馬?阿隆索:關于我的未來都只是猜測,我沒什么新消息要說

執教皇馬?阿隆索:關于我的未來都只是猜測,我沒什么新消息要說

直播吧
2025-04-12 10:20:15
過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
“美輸華商品已無市場接受可能性”,又一例證?

“美輸華商品已無市場接受可能性”,又一例證?

觀察者網
2025-04-11 21:09:10
2025-04-12 10:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10345文章數 142293關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態非常好”

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態非常好”

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

游戲
數碼
房產
藝術
健康

PS5 Pro獨家享受:熱門大作表現領先其他平臺!

數碼要聞

三星 Haean 智能眼鏡被曝延至 2026 年推出

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在中國,到底哪些人在吃“偉哥”?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石门县| 江源县| 遂宁市| 肃宁县| 甘肃省| 营山县| 门源| 雷波县| 宣化县| 富裕县| 肇庆市| 西昌市| 共和县| 新营市| 象山县| 霍山县| 扶沟县| 桃源县| 福泉市| 天柱县| 布拖县| 龙山县| 林州市| 成武县| 西平县| 太谷县| 石家庄市| 盖州市| 盘山县| 乡宁县| 静海县| 凤城市| 呈贡县| 新安县| 隆尧县| 石嘴山市| 古浪县| 碌曲县| 凭祥市| 莱州市| 喀喇沁旗|