今日速覽
行業動態
1. 谷歌欲 AI 技術封鎖:不愿對外分享前沿成果
2. OpenAI 學院正式上線:AI 知識、技能免費學
3. GPT-4o 生圖功能已向所有用戶開放
4. 工作 8 年后,Meta AI 主管即將辭職
5. 軟銀:計劃為“星際之門”籌集 160 億美元
熱門論文
1. Meta 提出“多 token 注意力”
2. 清華、耶魯提出 ZI:高效的「測試時擴展」
3. Agent S2:Computer Use agent 通才-專家框架
4. 綜述:實現 LLM 的「推理經濟性」
5. AI 推理全靠背?o1、R1 答不對小學推理問題
行業動態
1.谷歌欲AI技術封鎖:不愿對外分享前沿成果
據外媒消息,Google DeepMind 已開始不愿發布其前沿研究成果,因為它試圖在爭奪人工智能(AI)行業主導地位的競爭中保持優勢。
7 位在職和已離職研究科學家稱,由諾獎得主 Demis Hassabis 領導的這一團隊引入了更嚴格的審查程序,這使得發表有關 AI 的研究變得更加困難。他們稱,該團隊最不愿意分享那些可能被競爭對手利用、讓 Gemini AI 處于競爭劣勢的論文。“一位前研究人員表示:“不能發表論文,對研究人員來說就是毀掉職業生涯的行為。”
值得一提的是,當前使得生成式 AI 領域爆發的基礎便來自谷歌的 Transformers 論文。
2.OpenAI學院正式上線:AI知識、技能免費學
今日凌晨,OpenAI 正式上線了 OpenAI 學院(OpenAI Academy)。每個人都可以通過視頻和活動學習人工智能(AI)知識或技能,而且是免費的。目前,OpenAI 學院已經提供了幾十個小時的內容,還在持續更新中。
3. GPT-4o生圖功能已向所有用戶開放
OpenAI 首席執行官 Sam Altman 在 X 上發帖稱,由 GPT-4o 模型驅動的圖片生成功能現已向所有用戶開放。
由于該工具可以被用于將圖片轉換成日本動畫公司吉卜力工作室(Studio Ghibli)的風格,吸引了越來越多的用戶使用,同時也引發了人們對版權和該公司所使用的訓練數據的關注,因為兩者風格相似。
此外,OpenAI 昨日表示,它以 3000 億美元的估值獲得了由軟銀領投的 400 億美元融資。目前,ChatGPT 的周活躍用戶已達 5 億,月活躍用戶達 7 億,付費用戶達到了 2000 萬。
4. 工作8年后,Meta AI主管即將辭職
據外媒報道,在 Meta 工作 8 年的 AI 研究部門負責人 Joelle Pineau 表示,她計劃于今年 5 月離職。
她在社交媒體上寫道:“今天,隨著世界發生重大變化,隨著 AI 競賽加速,隨著 Meta 準備開啟新的篇章,現在是時候為其他人創造空間去從事這項工作了。”
Pineau 在麥吉爾大學擔任計算機科學教授,她一直是 Meta 以“開源”方式構建 AI 系統(如開源大語言模型 Llama)的代表。
5. 軟銀:計劃為“星際之門”籌集160億美元
據外媒報道,軟銀正在為“星際之門”項目尋求高達 165 億美元的融資,這將是這家企業有史以來最大的一筆以美元計價的融資。
知情人士表示,這筆過橋貸款可以幫助軟銀主導 OpenAI 的 400 億美元融資,該輪融資被稱為有史以來最大的一輪融資,OpenAI 估值將達到 3000 億美元。
軟銀首席執行官孫正義此前表示,該公司將在未來 4 年內在美國投資 1000 億美元,創造至少 10 萬個以 AI 和相關基礎設施為重點的工作崗位。
熱門論文
1.Meta提出“多token注意力”
軟注意力(Soft attention)是大語言模型(LLM)在給定上下文中定位相關部分的關鍵機制。然而,單個注意力權重僅由單個查詢和 key token 向量的相似性決定。這種“單一 token 注意力”限制了用于將相關部分與上下文其他部分區分開來的信息量。
為此,Meta 團隊提出了多 token 注意力(MTA),其允許 LLM 同時將多個查詢和 key 向量作為其注意力權重的條件。這是通過對查詢、key 和(注意力)頭進行卷積操作來實現的,允許附近的查詢和 key 影響彼此的注意力權重,從而實現更精確的注意力。
廣泛的評估證明,MTA 在一系列主流基準測試中實現了更高的性能。值得注意的是,在標準語言建模任務和需要在長上下文中搜索信息的任務中,它的性能都優于 Transformer 基線模型。
論文鏈接 :https://arxiv.org/abs/2504.00927
2. 清華、耶魯提出ZI:高效的「測試時擴展」
大語言模型(LLM)可以通過測試時計算擴展來實現更強的復雜問題解決能力,但這往往需要更長的上下文和大量的推理 token 成本。
來自清華大學和耶魯大學的研究團隊提出了一種高效的測試時擴展方法,其可以在與代碼相關的推理軌跡上訓練 LLM,從而在保持性能的同時減少多余的思考 token。
Z1-7B 使用長短軌跡數據進行訓練,并配備了 Shifted Thinking Window,可以根據問題的復雜程度調整推理水平,并在不同的推理任務中表現出高效的測試時擴展能力,只需約 30% 的平均思考 token 就能達到 R1-Distill-Qwen-7B 的性能。值得注意的是,Z1-7B 只對代碼軌跡進行了微調,但在更廣泛的推理任務中表現出了通用性。
論文鏈接:https://arxiv.org/abs/2504.00810
3. Agent S2:Computer Use agent通才-專家框架
當前的 agent 面臨著以下挑戰:GUI 元素的不精確接地(grounding)、長程任務規劃困難,以及依賴單一通用模型完成不同認知任務的性能瓶頸。
Simular Research 團隊推出了 Agent S2 框架,其可以將認知責任分派給不同的通才和專才模型。他們提出了一種新穎的混合接地技術(Mixture-of-Grounding),以實現精確的 GUI 定位,并引入了主動分層規劃(Proactive Hierarchical Planning),根據不斷變化的觀察結果,在多個時間尺度上動態完善行動計劃。
評估結果表明,Agent S2 在 Computer use 基準測試中取得了 SOTA 性能。
論文鏈接:https://arxiv.org/abs/2504.00906
4. 綜述:實現LLM的「推理經濟性」
大語言模型(LLM)初步具備了執行復雜推理任務的能力,正在從快速直觀的思維(系統 1)過渡到緩慢深入的推理(系統 2)。然而,平衡性能(收益)和計算成本(預算)之間的權衡至關重要,這就產生了推理經濟性(reasoning economy)的概念。
來自香港中文大學和澳門大學的研究團隊及其合作者全面分析了 LLM 后訓練和測試時推理階段的推理經濟性,包括推理低效的原因、不同推理模式的行為分析,以及實現推理經濟性的潛在解決方案。
論文鏈接:https://arxiv.org/abs/2503.24377
5. AI推理全靠背?o1、R1答不對小學推理問題
按照人類的標準,大語言模型(LLM)的推理能力是否真的來自于真正的智能,還是它們只是在背誦互聯網水平訓練中目睹的解決方案?
字節跳動 Seed 團隊提出了多模態基準 RoR-Bench,用于檢測 LLM 在被問及簡單推理問題但條件發生微妙變化時的背誦行為。他們發現,現有的主流 LLM 一致表現出極其嚴重的背誦行為;只需改變條件中的一個短語,OpenAI-o1 和 DeepSeek-R1 等模型就會在小學水平的算術和推理問題上損失 60% 的性能。
論文鏈接:https://arxiv.org/abs/2504.00509
整理:錦鯉
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.