今天凌晨,OpenAI 丟出兩個新模型:o3、o4mini。
相比于之前的 o1/o3mini,新模型的整體能力有了不小的進步。
不過,直播發布會通篇看下來,我感覺最值得關注的地方應該是——o3 的圖像推理能力。
嚴格來講,o3可以說是首個真正意義上的“圖像推理大模型”。
o3 不僅能通過文字進行復雜推理,還能直接從圖像中獲取信息并進行深度思考。
與以往的 AI 模型不同,o3 可以像偵探一樣"看圖破案"——
它能分析照片中的細節,推理出背后的邏輯關系,甚至解決需要多步驟視覺分析的復雜問題。
無論是手寫數學題、醫學影像,還是生產線質檢,o3都能勝任。
這是 OpenAI 官方 po 出的數據,o3 在視覺推理基準測試中表現驚人:
?MMMU(多模態多學科理解):82.9%
?MathVista(數學視覺推理):86.8%
o3是如何"思考"圖片的?
據 OpenAI 官方研究顯示,o3 的圖像推理能力主要體現在以下幾個方面:
- 長鏈視覺推理:o3 能夠在處理圖像時進行多步驟的邏輯思考。例如,面對一張復雜的迷宮圖片,o3 通過逐步分析可能的路徑最終找到正確答案。
- 圖像操作能力:o3 不僅能看懂圖片,還能對圖像進行裁剪、縮放、旋轉等操作,以便更好地分析細節。
- 模糊圖像處理:即使面對質量不佳的圖片,o3 也能通過上下文線索和局部特征進行有效推理。
- 工具輔助分析:在處理復雜圖像時,o3 可以調用編程工具進行輔助分析,例如通過 Python 代碼提取圖像中的關鍵數據。
- 多模態理解:o3 能同時理解圖像和文字的關系,例如分析包含圖表和說明文字的科學論文。
適合 o3 發揮“火眼金睛”能力的 10 大場景
1. 教育:智能輔導
學生只需拍下自己的手寫筆記或習題,o3 就能識別出公式、圖表,并一步步推導出解題思路。
2. 醫療:輔助診斷
醫生上傳患者的 X 光片、CT 掃描、病理切片圖像,o3 能夠識別異常特征,結合患者病史進行多維度分析,提供初步診斷建議。
3. 制造業:智能質檢
在生產線上,o3 可分析產品圖像,檢測表面缺陷、尺寸偏差或組裝錯誤。
4. 零售:智能庫存管理
零售商只需用手機拍攝貨架照片,o3 便能識別商品種類、數量和擺放情況,推理出庫存狀態并提供補貨建議。
5. 交通:智能分析
利用 o3 分析交通攝像頭捕捉的道路圖像,識別交通擁堵模式,預測潛在事故風險,并優化信號燈控制。
6. 農業:精準監控
農民通過無人機或手機拍攝田間作物照片,讓 o3 分析葉片顏色、形態和生長狀況,識別病蟲害跡象,并提供針對性的處理建議。
7. 建筑:施工監督+安全管理
定期拍攝施工現場照片,o3 可分析施工進度、材料使用情況和潛在安全隱患。
8. 金融:欺詐檢測
銀行和保險公司利用 o3 分析交易相關的圖像證據,如收據、合同或事故照片,檢測潛在的欺詐行為。
9. 法律:證據分析
律師和調查人員利用 o3 分析案件相關圖像證據,如犯罪現場照片、監控錄像或文件照片。
10. 創意設計:智能設計輔助
設計師上傳產品原型或空間布局草圖,o3 能分析設計的美學和功能性,提出改進建議。
目前,o3 模型已向 ChatGPT Plus、Pro 和 Team 用戶開放。
普通賬號可以通過“Think”功能試用能力稍有不同的 o4-mini 模型(o4-mini 同樣具備圖像處理能力,更側重效率和成本)。
從理解文本到“看懂”世界,OpenAI o3 將正式推開 AI “視覺推理”的大門。
雖然“看圖破案”的比喻略帶夸張,但 o3 所展現的圖像理解與推理能力,確實讓我們離那個“AI之眼”洞察萬物的未來,又近了一大步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.