今日速覽
行業動態
1. 真「AI搶飯碗」,國外大廠CEO不招人了
2. Meta 高管否認人為提高 Llama 4 的基準測試成績
3. 白宮:各機構需在 6 個月內消除 AI 應用障礙
4. IBM 發布新一代大型機 IBM z17
5. 聯合國警告稱,AI 將影響全球 40% 就業崗位
熱門論文
1. UC 伯克利宋曉冬教授團隊:揭露 LLM API 中的模型替換
2. 通過測試時訓練生成一分鐘視頻
3. 港中文、騰訊團隊提出 TransMamba:靈活切換 Transformer 和 Mamba
4. 保衛 agent!芝加哥大學李博團隊提出 ShieldAgent
行業動態
1. 真「AI搶飯碗」,國外大廠CEO不招人了
Shopify 首席執行官 Tobi Lutke 正在改變公司在 AI 時代的招聘方式。他在一份備忘錄中告訴公司員工,他們必須證明某些工作無法由 AI 完成,然后才能要求增加員工數量和資源。他表示,Shopify 對員工在日常工作中使用 AI 抱有“基本期望”,并表示對于那些使用 AI 的人來說,可以實現生產力倍增。“我看到許多人通過對 AI 的反思和巧妙運用,完成了 100 倍的工作,這些任務是我們以前甚至不會選擇去解決的。”
2. Meta 高管否認人為提高 Llama 4 的基準測試成績
Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發表文章稱,Meta 在“測試集”上訓練 Llama 4 Maverick 和 Llama 4 Scout 模型的說法“根本不屬實”。此前,X 和 Reddit 上開始流傳一則未經證實的謠言,稱 Meta 人為提高了其新模型的基準成績。
3.白宮:各機構需在 6 個月內消除 AI 應用障礙
白宮周一表示,將命令聯邦機構任命首席人工智能官,并制定擴大政府使用 AI 的戰略,取消拜登旨在對該技術實施保障措施的命令。管理和預算辦公室指示政府機構在 6 個月內對 AI 的高影響用途實施最低風險管理實踐,并制定一項生成式 AI 政策,以確定和消除他們負責任地使用 AI 的障礙,并提高企業范圍內應用程序成熟度。
4.IBM 發布新一代大型機 IBM z17
為加速 AI 的落地應用,IBM 發布了新一代大型機 IBM z17。該主機采用 IBM Telum II 處理器,支持超過 250 個 AI 用例,包括 AI agent 和生成式 AI。相比前代產品,z17 的性能提升了 50%,并支持 48 個 IBM Spyre AI 加速芯片,未來可擴展至 96 個。此外,IBM z17 也更加節能。
5.聯合國警告稱,AI 將影響全球 40% 就業崗位
在《2025年技術與創新報告》中,聯合國貿易和發展會議(UNCTAD)指出,人工智能市場預計將達到 4.8 萬億美元,但其收益高度集中;全球多達 40% 的就業崗位受到影響;只有不到 1/3 的發展中國家制定了人工智能戰略;118個國家在人工智能治理方面缺乏代表性,限制了全球包容性;發展中經濟體必須投資于人工智能基礎設施、數據和技能,以充分利用其潛力。
熱門論文
1. UC 伯克利宋曉冬教授團隊:揭露 LLM API 中的模型替換
通過黑盒 API 訪問的大語言模型(LLM)的激增帶來了巨大的信任挑戰:用戶根據宣傳的模型能力(如大小、性能)支付服務費用,但提供商可能會暗中用更便宜、質量更低的替代品來替代指定的模型,以降低運營成本。這種缺乏透明度的做法破壞了公平性,削弱了信任度,并使可靠的基準測試變得更加復雜。由于黑箱性質,檢測這種替換非常困難,通常僅限于輸入輸出查詢。
在這項工作中,加州大學伯克利分校 Dawn Song(宋曉冬)教授團隊正式提出了 LLM API 中的模型替換檢測問題。他們系統地評估了現有的驗證技術,包括基于輸出的統計測試、基準評估和日志概率分析,以及模型量化、隨機替換和基準規避等各種現實攻擊場景下的驗證技術。他們揭示了僅依賴文本輸出的方法的局限性,尤其是在應對微妙或自適應攻擊時。雖然對數概率分析在可用時能提供更強的保證,但其可用性往往受到限制。最后,他們討論了基于硬件的解決方案(如可信執行環境 TEE)作為實現可證明模型完整性的途徑的潛力,并強調了安全性、性能和提供商采用之間的權衡。
論文鏈接:https://arxiv.org/abs/2504.04715
2. 通過測試時訓練生成一分鐘視頻
由于自注意力層對于長上下文來說效率低下,如今的 Transformers 仍然難以生成一分鐘的視頻。而 Mamba 層等替代層在處理復雜的多場景故事時也表現一般,因為它們的隱藏狀態表現力較差。
在這項工作中,來自加州大學伯克利分校、斯坦福大學和英偉達的研究團隊及其合作者嘗試使用測試時訓練(TTT)層,其隱藏狀態本身可以是神經網絡,因此更具表現力。將 TTT 層添加到預訓練 Transformer 中,它就能根據文本故事板生成一分鐘的視頻。為了驗證這一概念,他們制作了一個基于湯姆和杰瑞動畫片的數據集。與 Mamba-2、Gated DeltaNet 和滑動窗口注意力層等基線相比,TTT 層生成的視頻更加連貫,能夠講述復雜的故事,在對每種方法生成的 100 個視頻進行的人工評估中,TTT 層以 34 個 Elo 點實現領先。
盡管潛力很大,但結果中仍有人工痕跡,這可能是由于預訓練的 5B 模型能力有限。實施效率也有待提高。研究團隊表示,由于資源限制,他們只對一分鐘的視頻進行了實驗,但該方法可以擴展到更長的視頻和更復雜的故事中。
論文鏈接:https://arxiv.org/abs/2504.05298
3. 港中文、騰訊團隊提出 TransMamba:靈活切換 Transformer 和 Mamba
Transformers 是現代大語言模型(LLM)的基礎,但其二次計算復雜度限制了長序列處理的效率。Mamba 是一種具有線性復雜度的狀態空間模型(SSM),其已有進展有望提高效率,但存在上下文學習和多任務泛化不穩定的問題。
在這項工作中,香港中文大學和騰訊團隊提出了一個新穎的框架 TransMamba,它通過共享參數矩陣(如 QKV 和 CBx)將 Transformer 和 Mamba 統一起來,從而可以在不同 token 長度和層級的注意力和 SSM 機制之間動態切換。他們設計了內存轉換器,通過將注意力輸出轉換為 SSM 兼容狀態,在 Transformers 和 Mamba 之間架起橋梁,確保在發生轉換的 TransPoints 上實現無縫信息流。他們還對 TransPoint 調度進行了深入探討,以便進一步改進。
大量實驗證明,TransMamba 相比基線實現了更高的訓練效率和性能,并驗證了 Transformer 和 Mamba 范式之間更深層次的一致性,為下一代序列建模提供了可擴展的解決方案。
論文鏈接:https://arxiv.org/abs/2503.24067
4. 保衛 agent!芝加哥大學李博團隊提出 ShieldAgent
由基礎模型驅動的自主 agent 在現實世界的各種應用中得到了廣泛采用。然而,它們仍然極易受到惡意指令和攻擊的影響,從而導致隱私泄露和經濟損失等嚴重后果。更關鍵的是,由于 agent 的復雜性和動態性,現有的 LLM 防范措施并不適用。
為了應對這些挑戰,來自芝加哥大學和伊利諾伊大學厄巴納-香檳分校的研究團隊提出了 ShieldAgent,它是第一個護欄 agent,旨在通過邏輯推理對其他受保護 agent 的行動軌跡執行明確的安全策略合規性。
實驗表明,ShieldAgent 在 ShieldAgent-Bench 和三個現有基準上實現了 SOTA,平均性能比之前的方法高出 11.3%,召回率達到 90.1%。此外,ShieldAgent 還減少了 64.7% 的 API 查詢和 58.2% 的推理時間,證明了其在保護 agent 方面的高精度和高效率。
論文鏈接:https://arxiv.org/abs/2503.22738
整理:錦鯉
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.