網易首頁 > 網易號 > 正文申請入駐

追問weekly | 過去一周，AI領域有哪些新突破？Vol.64

2025-03-24 07:32:27　來源: 追問Nextquestion

上海舉報

分享至

█政策法規與新聞

權力游戲：阿布扎比250億美元的美國AI革命賭局

Brainomix的1800萬美元融資如何革新定義中風生存的關鍵時刻

為什么OpenAI的6億美元代幣模型揭示了AI的不舒服未來

谷歌的AI賭局：DOJ的Chrome困境與科技反壟斷的未來

█大模型與基礎建設

在 GPU 競賽中如何低成本擴展 300B MoE 模型

大型語言模型中上下文增強學習的力量：綜合分析

大型語言模型中的參數高效微調用于事實嵌入

大型推理模型能否在感知不確定性下進行類比推理？

AI芯片巨頭如何在變幻莫測的基礎上觸摸星空

Gemma 3：谷歌的AI戰略棋局——民主化權力的同時保持控制

█技術與研發

利用知識圖譜和大型語言模型進行AI研究創意生成

通用聚變公司維多利亞風格反應堆如何可能重寫我們的能源未來

微調大型語言模型用于報告摘要：監督和無監督方法

分層思考：HiRAG如何終于教會AI連接知識點

你的數字分身：第二自我與外包大腦的藝術

為什么你的提示工程"專業知識"可能只是一廂情愿的想法

深度學習優化技術：全面綜述

AI的多任務奇跡：并行思考與行動革新智能體智能

數字大腦內部：UMM對AI認知的革命性方法

Sesame開源CSM-1B模型，讓驚人逼真的AI語音技術走向大眾

█應用與實踐

Onyx計劃如何以徹底透明的方式顛覆6億美元企業搜索市場

Browser Use如何借助Manus的病毒式傳播加速AI代理接管

奧林巴斯與Ziosoft的AI合作如何讓手術室中的隱形變為可見

谷歌AI醫生升級：當你的數字醫生變得過于聰明

Niantic為何放棄精靈寶可夢GO，轉向為AI繪制現實地圖

平凡中的革命：微軟將基礎記事本轉變為AI強大工具

█交叉與創新

NVIDIA與通用汽車的合作如何重塑汽車AI的未來

機器中的繆斯：OpenAI的小說創作AI引發文學界的靈魂探索Celestial AI 2.5億美元融資，光子計算時代的黎明

毅力追求雄心壯志的理論模型

*如需定位對應內容，請使用微信的檢索功能

（點擊右上方三點，找到查找頁面內容按鈕）

政策法規與新聞

權力游戲：阿布扎比250億美元的美國AI革命賭局

在一項大膽的戰略舉動中，阿布扎比的主權財富基金ADQ與美國的能源資本合伙公司（Energy Capital Partners，簡稱ECP）合作，推出了一項價值250億美元的項目，旨在為美國迅速發展的數據中心行業提供動力。該50:50的合作伙伴關系于3月19日宣布，將主要在美國開發電力發電和能源基礎設施，計劃部署資本用于25吉瓦的項目——足以為大約1800萬個美國家庭提供電力。

在這項巨額投資背后，隱藏著一個令人清醒的現實：人工智能的指數級增長威脅要超越美國過時的電網。雖然硅谷慶祝每一個新的AI突破，但很少有人面對推動這一數字革命的令人驚訝的電力需求。根據國際能源署的數據，數據中心的電力消耗在過去十年中已經增加了三倍，并可能在2028年之前再次翻倍或增加三倍。更令人擔憂的是，美國能源部預測，數據中心可能會占據美國總電力的6.7%至12%——這與當前的4.4%相比是一個顯著的增加。

這個挑戰的規模在審視AI的電力足跡時變得清晰：ChatGPT每次查詢的電力消耗是標準谷歌搜索的十倍。這一電力悖論代表了我們AI未來的隱性成本——一種需要立即并且大量的基礎設施投資。

對于管理2250億美元資產的ADQ來說，這一合作伙伴關系代表的遠不止是一個有利可圖的投資機會。正如ADQ的管理總監兼集團首席執行官穆罕默德·哈桑·阿爾蘇韋迪（Mohamed Hassan Alsuwaidi）所述：“AI的加速和其社會采用為服務數據中心和超大規模計算的電力和基礎設施需求提供了有吸引力的機會”。但在字里行間，我們可以看出阿布扎比更大的戰略意圖——在美國的AI生態系統中確立自己為關鍵參與者，同時將其經濟多元化，擺脫對化石燃料的依賴。

https://www.sharecafe.com.au/2025/03/21/adq-and-energy-capital-partners-launch-us25bn-energy-venture-to-power-us-data-centres/

Brainomix的1800萬美元融資如何革新定義中風生存的關鍵時刻

在醫學AI領域發生了一項重大發展，來自牛津大學的Brainomix獲得了1400萬英鎊（1800萬美元）的C輪融資，以推進其用于中風和肺纖維化的AI驅動成像技術。該融資于2025年3月20日宣布，由現有投資者Parkwalk Advisors和Boehringer Ingelheim Venture Fund（BIVF）共同領投，新投資者Hostplus和LifeSci Capital也參與其中。這一投資使Brainomix的總融資達到4400萬英鎊（5700萬美元），并為該公司在美國市場的激進擴張奠定了基礎。

Brainomix的創新核心是一個看似簡單卻具有深遠影響的概念：在中風護理的“黃金時刻”自動化腦部掃描的解讀。他們的旗艦產品Brainomix 360 Stroke平臺使用AI分析CT腦掃描，提供立即的客觀評估，以幫助臨床醫生做出更快、更自信的治療決策。英國國家衛生服務（NHS）26家醫院的現實評估，涉及超過71,000名患者，顯示使用Brainomix技術的醫院將機械血栓切除術率提高了一倍，并且門診到門診的時間比未配備該技術的醫院快了65分鐘。這意味著接受機械血栓切除術（一種從大腦中吸出血栓并顯著減少中風后殘疾的程序）的患者增加了50%。

使Brainomix的技術真正革命性的不僅僅是其準確性，還有其對醫療保健的民主化影響。盡管中風治療取得了巨大的進步，但高達80%的合格患者錯過了治療窗口——這并不是因為治療不存在，而是因為許多醫院缺乏快速解讀復雜腦部成像的專門專業知識。Brainomix的首席執行官兼聯合創始人、神經科學家米哈利斯·帕帕達基斯博士解釋道，該系統旨在打破傳統上限制獲得救命治療的障礙。在牛津大學的預臨床中風實驗室擔任領導職務后，帕帕達基斯與教授阿拉斯泰爾·布坎（Alastair Buchan）一起開發了技術，布坎開發了全球使用的ASPECTS評分系統用于腦部CT掃描。他們建立的技術基本上將中風專家放在每個醫院，無論其位置或資源如何。

https://www.bioworld.com/articles/717993-brainomix-raises-14m-for-ai-powered-imaging-solution-for-stroke-lung-fibrosis?v=preview

為什么OpenAI的6億美元代幣模型揭示了AI的不舒服未來

OpenAI為其開發者API發布的o1-pro模型，為人工智能定價設立了新的天花板。這一增強版推理模型的價格令人驚訝：每百萬輸入代幣150美元，每百萬輸出代幣600美元，不僅使其成為OpenAI最昂貴的產品，也可能是市場上最昂貴的主流AI模型。o1-pro將其計算能力擴展到愿意為OpenAI所描述的“使用更多計算資源來更深入思考”復雜問題的開發者。

令人驚訝的價格點揭示了關于高級AI的一個令人不舒服的真相：真正的推理在計算成本方面具有挑戰我們對AI民主化假設的方式。雖然大多數AI討論都關注可及性，但o1-pro的定價結構大膽地斷言，一些計算能力將始終處于奢侈層次。OpenAI在其公告推文中坦率地表示，隨著更多的計算資源，成本也會增加。這一定價策略暴露了所謂“推理代幣”的巨大資源需求——模型在思考問題時采取的內部計算步驟，用戶在最終輸出中看不到，但仍然必須為其付費。

200,000個代幣的上下文窗口和100,000個最大輸出容量進一步強調了o1-pro并非為休閑應用而設計，而是為專門領域設計的，在這些領域中，精度和可靠性可以證明非凡的成本是合理的。這一發布代表的不僅僅是一個定價里程碑——它標志著AI的演進進入了不同的專業化層次。雖然語言模型在模式識別和生成方面表現出色，但像o1-pro這樣的“推理模型”則專門為通過多個步驟進行系統化問題解決而分配計算資源。

OpenAI似乎正在針對擁有深厚資金的研究機構、科學組織和專門行業，這些領域的復雜問題解決能力可以證明巨大的投資。視覺能力、函數調用、結構化輸出以及與Responses API的集成以創建自主代理的功能確認了這一戰略重點，即專注于高復雜性、高價值應用。這使得o1-pro直接與其他專注于推理的模型競爭，包括DeepSeek的R1、Anthropic的Claude Sonnet 3.7和Google的Gemini 2.0，創造了AI市場中的一個獨特的高端層次。

https://www.techrepublic.com/article/news-openai-o1-pro-api-price/

谷歌的AI賭局：DOJ的Chrome困境與科技反壟斷的未來

在谷歌持續的反壟斷事件中，美國司法部（DOJ）提出了修訂后的計劃，允許谷歌保留其在人工智能（AI）的投資，但仍要求其剝離Chrome瀏覽器。這一舉動反映了DOJ在平衡市場競爭問題與認可AI在技術進步中的關鍵作用之間采取的細致入微的方法。

DOJ允許谷歌保留其現有的AI投資，包括在Anthropic公司的巨額股份。然而，谷歌必須在進行未來AI投資前通知反壟斷執法機構，以便對擬議的交易進行審查。與此同時，DOJ繼續推動谷歌出售其Chrome瀏覽器，理由是Chrome在強化谷歌在搜索引擎市場的主導地位方面發揮了作用。Chrome的默認設置將用戶引導至谷歌搜索，從而限制了其他搜索引擎的競爭。

DOJ的行動是在聯邦法官裁定谷歌非法維持在線搜索和廣告市場壟斷之后。擬議的補救措施旨在恢復競爭并防止反競爭行為。DOJ允許谷歌保留AI投資的決定反映了戰略性的轉變，承認限制AI投資在快速發展的領域中可能產生的意外后果。這種立場與DOJ對Chrome采取的更為激進的態度形成對比，DOJ認為Chrome是谷歌搜索壟斷的關鍵組成部分。

https://uk.pcmag.com/ai/157038/doj-lets-google-keep-ai-investments-but-not-chrome

大模型與基礎建設

在 GPU 競賽中如何低成本擴展 300B MoE 模型

論文《每一次 FLOP 都重要：在非高端 GPU 上擴展 300B 規模的混合專家（MoE）LLM》由螞蟻集團 AI@Ant Group 的 Ling 團隊撰寫，探討了如何使用成本更低的硬件訓練大規模混合專家（Mixture-of-Experts, MoE）模型，以替代昂貴的 AI 加速器。研究介紹了兩種 MoE LLM：Ling-Lite（總參數量 16.8B，激活參數量 2.75B）和 Ling-Plus（總參數量 290B，激活參數量 28.8B）。

研究的主要貢獻包括在低性能 GPU 上優化模型訓練，提出了一種經濟高效的方法，在有限硬件資源上訓練大規模 MoE LLM，同時實現與業界領先模型相當的性能。相比使用高端硬件，研究方法節省了約 20% 的計算成本。此外，研究還提出了創新的技術方法，如異構訓練基礎設施、優化訓練策略、改進異常處理、提高模型評估效率和增強工具使用能力。研究證明，在相同的計算預算下，MoE 比密集型模型計算效率高 3 倍。

傳統觀點認為，更貴的 GPU 等于更好的 AI。但 Ling 團隊的研究表明，通過精準的訓練策略優化，低成本 GPU 也能實現接近頂級 AI 加速器的性能。他們的關鍵策略包括異構訓練基礎設施、優化訓練策略、健壯的異常處理與數據優化以及高效硬件利用。通過混合使用不同計算設備，最大化利用每一塊計算資源的特性，異步訓練技術讓計算資源利用率提高 66.1%，高效調試工具降低 90% 內存占用，減少訓練中的資源浪費。

https://arxiv.org/pdf/2503.05139

大型語言模型中上下文增強學習的力量：綜合分析

這篇研究論文介紹并形式化了大型語言模型(LLMs)中一個稱為"上下文增強學習"的新概念，研究了在訓練期間在上下文中提供額外有用文本（而不對這些文本計算梯度）如何能夠顯著提高學習效率。該工作將傳統基于梯度的學習與上下文學習能力橋接起來，揭示了關于我們如何訓練和理解LLMs的重要理論和實踐意義。

上下文增強學習代表著與標準監督微調方法的不同。在傳統微調中，模型通過梯度更新直接從輸入-輸出對中學習。研究人員形式化了一種新范式，其中有用的上下文信息（他們稱之為"課程文本"）與訓練樣本一起提供，但不對這些額外材料計算自回歸損失。這種方法反映了人類學習模式，我們在解決問題時參考教科書或示范，而不需要明確記憶這些資源。

作者通過開發一個稱為"多級翻譯"(MLT)的合成任務，創建了一個嚴格的框架來分析這種學習范式。這個任務涉及通過一系列定義連續語言對之間映射的短語手冊進行語言間翻譯。復雜度可以通過表示深度(d)和字母表大小(n)的參數來控制，從而允許系統性的實驗和理論分析。

研究提出了三個基本問題：上下文增強學習是否比標準學習更強大，模型是否需要某些能力才能從這種方法中受益，以及這種技術是否可以安全地使用特權信息而不會冒數據泄露的風險。通過精心的實驗設計和理論分析，論文解答了這些問題。

MLT任務代表了一個類似加密方法的多步推理問題。它涉及通過d個連續變換翻譯序列，每個變換由一個將一個字母表的2元組映射到另一個字母表的短語手冊定義。每個轉換包括一個循環移位，然后應用適當的短語手冊規則。這創建了一個雙射映射，其中每個輸出字符依賴于多個輸入字符，使得僅從輸入-輸出對直接學習變得極其具有挑戰性。

這種任務設計特別有價值，因為它創建了一個可控環境，可以精確測量上下文增強學習的益處。復雜度隨深度呈指數級增長，使研究人員能夠展示學習范式之間在樣本效率上的顯著差異。

作者使用Llama 3.2-3B模型進行了不同任務參數的實驗（d=5，n=8或10）。他們的方法包括兩個主要階段：首先，他們通過在具有不同短語手冊的隨機翻譯任務上進行微調，準備了一個"MLT(d,n)-ICL-capable"模型。這創建了一個能夠理解和應用上下文中出現的短語手冊規則的模型，作為后續實驗的初始化點。其次，他們實施了具有幾種課程策略的上下文增強學習。

實驗結果揭示了幾個重要發現，證明了上下文增強學習的力量：最顯著的結果是樣本效率的顯著提高。通過上下文增強學習訓練的模型（特別是使用退火丟棄策略）與標準監督微調相比，要達到相同的準確度水平，所需的訓練樣本減少了約10倍。隨著任務復雜度的增加，這種效率差距變得更加明顯。

https://arxiv.org/pdf/2503.01821

大型語言模型中的參數高效微調用于事實嵌入

研究論文《超越問答對：評估大型語言模型中的參數高效微調用于事實嵌入》對大型語言模型(LLM)通過參數高效微調(PEFT)技術進行適應的領域做出了重要貢獻。該研究解決了如何在保持計算效率的同時有效地將特定領域知識嵌入到LLM中的關鍵問題。作者挑戰了關于問答(QA)對在微調過程中普遍有效性的常見假設，并為優化領域適應策略提供了實證證據。

參數高效微調已成為一種實用方法，用于將預訓練的LLM適應到特定領域或任務，而無需承擔全模型重新訓練的高昂計算成本。像低秩適應(LoRA)這樣的PEFT技術因其效率和通過Azure、Google Cloud、AWS和Lamini等平臺的易用性而在行業中得到廣泛采用。然而，這些技術的日益普及導致了一種誤解，即簡單地積累大量QA對就足以進行有效的領域適應。

該研究采用多方面的方法來評估PEFT的有效性。研究人員開發了一個基于BERT的分類器，將QA對分為"事實性"和"概念性"類別。事實性問題需要特定信息檢索，而概念性問題需要更廣泛的理解。這種分類允許創建不同的微調數據集，以測試他們的假設：并非所有QA對對模型性能的貢獻相等。

該研究比較了兩種生成合成訓練數據的方法：D-Naive和D-RAG。D-Naive是一種直接方法，LLM直接從文檔中一次性生成QA對；D-RAG則使用D-Naive生成的問題上的檢索增強生成，產生更具上下文豐富的答案。每個數據集包含20,000個QA對，其中1,000對保留用于測試目的。

研究人員使用LoRA微調了Llama-2 7B模型，并進行了精心優化的訓練參數。訓練配置包括每設備批量大小為8、四個步驟的梯度累積、用于內存效率的梯度檢查點、初始學習率為2e-4的五個訓練周期、混合精度(bfloat16)計算、帶有塊級模型更新過濾的AdamW優化器以及帶有5%預熱比率的余弦調度器。

為了評估性能，該研究使用了三個"監督"LLM（GPT-3.5 Turbo、Gemini 1.5 Pro和Prometheus 2 7B）來使用一致的評估標準對模型輸出與真實答案進行評分。這種多評估器方法有助于減輕任何單一評分模型的潛在偏見。

該研究產生了幾個重要發現，挑戰了關于用于領域適應的PEFT的傳統智慧。在所有評估器LLM中，在概念性數據集上微調的模型始終優于在事實性數據集上訓練的模型。這表明概念理解比單純的事實知識為領域適應提供了更強的基礎。與最初的預期相反，D-Naive數據集比更復雜的D-RAG方法產生了更好的性能。研究人員將這一意外結果歸因于D-RAG管道中的檢索效率低下，向量數據庫檢索器經常無法識別最合適的文檔。這突顯了RAG系統中檢索質量的關鍵重要性。

https://arxiv.org/pdf/2503.01131

大型推理模型能否在感知不確定性下進行類比推理？

這篇論文呈現了一項開創性的研究，探討了當前最先進的大型推理模型（LRMs）在感知不確定性下進行類比推理的能力。該研究為我們提供了對當前AI推理系統的局限性以及改進的潛在途徑的寶貴見解。

研究人員評估了兩種最先進的LRMs——OpenAI的o3-mini和DeepSeek R1——在基于Raven進步矩陣（RPMs）的非語言類比推理任務上的表現。RPMs被廣泛用于評估人類流體智力，最近也被用于評估機器的類比推理能力。研究的核心問題是：這些模型在面臨不確定或不完善的感知輸入時，是否能夠保持其推理能力，這更好地反映了現實世界的推理場景。

傳統的AI推理評估假設輸入是完美的、無噪聲的。這篇論文挑戰了這一假設，通過使用I-RAVEN數據集及其更具挑戰性的擴展I-RAVEN-X，引入干擾屬性和平滑輸入屬性的分布，創建了一個更現實的測試環境，模擬了AI系統在現實世界中如何推理，現實世界中感知永遠不完美。

研究人員基于I-RAVEN數據集，擴展了I-RAVEN-X以測試生產力、系統性、對干擾因素的魯棒性和對非退化值分布的魯棒性。他們評估了OpenAI的o3-mini、DeepSeek R1和ARLC（一種神經符號概率推理模型）在這些任務上的表現。

研究人員引入了基于熵的置信度指標，以提高神經符號模型在不確定性下推理的性能。該指標根據每個屬性的置信度熵重新加權每個屬性對損失和得分的貢獻。

關鍵發現和結果顯示，LRM在干凈數據上的性能優于傳統的大型語言模型（LLMs），但在不確定性下的性能顯著下降。神經符號模型ARLC即使在最具挑戰性的設置中也保持了較高的準確率，并且提出的基于熵的置信度指標顯著提高了ARLC的魯棒性。

https://arxiv.org/pdf/2503.11207

AI芯片巨頭如何在變幻莫測的基礎上觸摸星空

在NVIDIA的GTC 2025大會上，CEO黃仁勛宣布了下一代GPU架構將以發現暗物質的天文學家"Vera Rubin"命名，這不僅象征著公司在AI基礎設施領域的宏大抱負，也暗示了正在重塑科技格局的無形力量。NVIDIA的公告讀起來像是一本計算力量的科學教科書，公司揭曉了Blackwell Ultra的計劃，這是其當前旗艦AI芯片的增強版，計算能力提升1.5倍，內存容量增加1.5倍，帶寬是原始Blackwell的兩倍。預計今年晚些時候投產的Blackwell Ultra之后，將于2026年下半年推出Vera Rubin，承諾其性能是Blackwell Ultra的3.3倍。路線圖還延伸到2027年底的Rubin Ultra，NVIDIA聲稱其性能將達到Blackwell Ultra的驚人14倍。

這種節奏——每年發布一款新旗艦芯片，中間穿插Ultra版本——代表了NVIDIA迄今為止最激進的產品戰略。正如黃仁勛所言："計算的每一層都被生成式AI的到來所改變"。言外之意很明確：計算需求不僅沒有放緩，而且正以超出先前預測的速度加速增長。這些公告中最引人注目的特點不僅僅是原始性能數據，還有NVIDIA正在圍繞它們構建的綜合生態系統。該公司正在構建所謂的"AI工廠"——芯片、網絡和軟件的集成系統，旨在實現下一波專注于推理和代理能力的AI應用。Blackwell Ultra AI工廠將72個Blackwell Ultra GPU和36個基于Arm Neoverse的NVIDIA Grace CPU組合成機架級系統，作為單個龐大的AI處理器工作。

也許最重要的公告不是硬件，而是軟件。NVIDIA推出了"Dynamo"，被描述為AI工廠概念的"操作系統"。這款開源推理軟件取代了NVIDIA Triton推理服務器，旨在根據生成令牌的成本衡量最大化收益。商業影響意義深遠。通過優化令牌生成經濟學，NVIDIA將自己定位為不僅是芯片銷售商，還是最大化AI商業模式的合作伙伴。Perplexity AI的CTO Denis Yarats也承認了這一點，他指出："為了每月處理數億次請求，我們依靠NVIDIA GPU和推理軟件來提供業務和用戶所需的性能、可靠性和規模"。

NVIDIA擴張野心的另一個跡象是公司推出了GROOT N1，這是一個用于機器人領域生成式AI的基礎模型。這一公告特別有趣的地方在于，它從去年的工業焦點轉向了不同形態的人形機器人。這一舉措表明NVIDIA將機器人技術視為AI應用的下一個前沿——將智能從數字領域帶入物理世界。黃仁勛的自信在整個活動中表露無遺。"物理AI時代已經到來，"他宣稱，將NVIDIA的工作定位為跨行業的變革力量。然而，在這種自信背后，是對NVIDIA面臨日益激烈的競爭和市場不確定性的認識。

https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/

Gemma 3：谷歌的AI戰略棋局——民主化權力的同時保持控制

谷歌正式發布了Gemma 3，這是其最新的開源AI模型系列，旨在在單加速器系統上提供最先進的性能。這一第三代產品代表了可訪問AI技術的重大進步，谷歌大膽宣稱它是"世界上最好的單加速器模型"，在使用單個GPU而非需要多個處理單元或整個集群的情況下，其性能超過了來自Meta、DeepSeek和OpenAI的競爭對手。

Gemma 3推出了四種不同規模的版本（1B、4B、12B和27B參數），允許開發者根據特定的硬件限制和性能需求選擇適當的配置。最小的模型在低精度設置下可以使用不到1GB的內存運行，而較大的27B變體即使在壓縮的4位精度下仍需要20-30GB的內存。與前代產品相比，最顯著的改進包括大幅擴展的上下文窗口——從Gemma 2的8,000個標記躍升至令人印象深刻的128,000個標記——使模型能夠處理和理解整篇學術論文或書籍等大量信息。此外，Gemma 3引入了Gemma 2所缺乏的多模態能力，使其不僅能分析文本，還能分析圖像和短視頻。對于全球部署而言，也許最重要的是，Gemma 3開箱即支持超過35種語言，并為總共超過140種語言提供預訓練能力，大大擴展了其前身僅限英語的局限性。

谷歌發布Gemma 3代表了在日益競爭激烈的AI領域中的一步精心計算的棋子。通過強調單加速器性能，谷歌正在瞄準強大但資源密集型模型與更易獲取但功能有限的AI選項之間的關鍵市場缺口。根據性能指標，Gemma 3 27B在Chatbot Arena Elo評分評估中僅次于DeepSeek-R1，這種評估衡量的是用戶偏好。這一發布的時機特別有趣——正值DeepSeek等競爭對手模型和類似技術展示出對能在更為適中的硬件配置上運行的AI解決方案的市場需求日益增長之際。谷歌似乎正在承認，雖然AI能力的最前沿可能屬于Gemini 2.0等大型模型（具有200萬標記的上下文窗口），但實際應用需要的是不需要數據中心資源的模型。

https://www.extremetech.com/computing/google-announces-gemma-3-worlds-best-single-accelerator-model

技術與研發

利用知識圖譜和大型語言模型進行AI研究創意生成

上海交通大學的研究論文介紹了AI想法圖譜(GoAI)，這是一個創新框架，結合知識圖譜和大型語言模型來生成創新性AI研究想法。該論文解決了AI研究中的一個重大挑戰：科學文獻的海量數量和復雜的引文關系使研究人員難以快速識別有意義的研究趨勢并產生新穎想法。雖然大型語言模型(LLMs)在自動化想法生成方面顯示出前景，但現有方法存在關鍵局限性：它們未能充分捕捉論文之間引用關系中嵌入的語義信息，通常使用簡單的線性結構來表示研究趨勢，并且缺乏評估生成想法的客觀評價機制。

GoAI的核心創新是將研究論文及其關系表示為結構化知識圖譜，其中實體是單個研究論文，關系捕捉引用的語義含義及其基于論文中位置的重要性。這種組織反映了研究領域中思想的實際進展，而不僅僅是簡單的連接。該框架為引用關系定義了五個語義類別：基于和擴展(B&E)、支持和補充(S&S)、對比和替代(C&A)、質疑和反駁(Q&A)、簡單提及或不相關(M/I)。

論文引入了一個基于LLM的代理，與知識圖譜協作來使用集束搜索動態探索多個發展路徑，基于圖遍歷分析研究趨勢，并生成基于探索路徑的新穎研究想法。GoAI-CoT-Reviewer，一個結構化思考評估模型，通過三階段過程（總結、分析和評分）評估生成想法的新穎性，并在ICLR和NeurIPS等會議的公開評審意見上進行監督微調，模仿人類評審過程的清晰推理步驟。

GoAI框架通過四個主要階段運作：文獻搜索和過濾、GoAI圖譜構建、通過圖譜探索生成想法、新穎性評估。實驗結果表明，GoAI在多個維度上優于其他自動方法，尤其是在新穎性和重要性方面。結構化思考方法與人類評估的相關性顯著高于直接生成或多輪對話。案例研究分析顯示，GoAI檢索到與主題更密切相關的論文，并生成與論文路徑更好對齊的想法。該系統即使使用成本效益高的LLM實現(GLM-4-Flash API)也展示了強健性能。

https://arxiv.org/pdf/2503.08549

通用聚變公司維多利亞風格反應堆如何可能重寫我們的能源未來

在一個由激光和超導磁體主導的領域，通用聚變公司(General Fusion)采用了一種令人耳目一新的不同方法來解決人類能源危機。這家加拿大公司于2025年3月11日宣布，已成功在其原型反應堆Lawson Machine 26(LM26)內創造出等離子體。這一里程碑標志著為期93周的探索開始，旨在證明其獨特的"蒸汽朋克"核聚變能源方法——使用蒸汽驅動活塞而非尖端激光——仍是清潔、無限能源競賽中的有力競爭者。

通用聚變公司的磁化靶核聚變(MTF)技術在核聚變領域代表了一種引人入勝的混合體。當競爭對手專注于磁約束(長時間保持等離子體穩定)或慣性約束(用激光快速壓縮燃料)時，通用聚變公司以一種讓人聯想起維多利亞時代工業機械的方式結合了兩者的元素。他們的方法在旋轉液態金屬中創建球形腔體，注入氘-氚燃料的等離子體，然后使用機械驅動的活塞壓縮這種等離子體直到達到核聚變條件。這種方法理論上提供了顯著優勢——潛在地消除了對昂貴超導磁體或復雜激光陣列的需求，這些因素使其他核聚變方法成本高昂。

新投入運營的LM26代表了超過20年開發和4.4億美元資金的頂點。它僅用16個月建成，旨在達到1000萬攝氏度溫度，然后是1億攝氏度，最終在2026年達到科學意義上的能量收支平衡——商業可行性道路上的關鍵里程碑。

創始人兼首席科學官Michel Laberge博士流露出特有的熱情："我們已經建造了24個等離子體注入器，創造了超過20萬個等離子體，并從等離子體壓縮中產生了聚變中子。我們準備在LM26中實現一些核聚變！"他的信心源于早期實驗中令人印象深刻的初步結果，這些實驗實現了每秒超過6億的中子產量。

https://techcrunch.com/2025/03/11/general-fusion-fires-up-its-newest-steampunk-fusion-reactor/

微調大型語言模型用于報告摘要：監督和無監督方法

卡內基梅隆大學軟件工程研究所的這項研究對自然語言處理領域做出了重要貢獻，研究了微調大型語言模型(LLMs)用于報告摘要的實用方法，特別是在政府和敏感環境中的應用。該研究探討了在計算資源有限且缺乏標準參考摘要的情況下的挑戰，同時提供了關于評估方法的寶貴見解。

研究人員解決了在現實世界約束條件下使用LLMs總結政府檔案、新聞和情報報告的挑戰。他們的工作解答了兩個主要研究問題：在計算資源有限的情況下，微調LLMs以改善摘要是否可行，以及在沒有參考摘要的情況下，哪些指標能有效評估摘要質量。這種實用方法區別于大多數假設擁有強大計算能力或參考摘要的現有文獻。

政府文件的摘要是NLP技術的關鍵應用領域。相關研究指出，政府采購通知、法律判決和其他官方文件通常冗長、復雜且難以手動處理。這類信息的數量為政府機構和尋求理解官方通信的公民創造了信息處理瓶頸。先前研究已證明LLMs在總結各類文檔方面的潛力，從醫療記錄到法律文本。然而，大多數研究都集中在有參考摘要的領域，或者利用了并非所有組織都能獲得的大規模計算資源。

研究人員開發了全面的方法，解決了微調過程和評估挑戰。研究團隊通過國家檔案館(NARA) API下載基于文本的數據，對PDF和圖像文檔進行OCR處理，并通過過濾清洗數據創建訓練和測試集。此外，他們還使用了兩個帶有參考摘要的新聞數據集進行比較分析。

研究人員實施了兩種不同的微調策略：知識微調(KFT)和格式微調(FFT)。KFT在NARA數據集上使用因果語言建模微調Llama 7B模型，以提高對政府文檔上下文、詞匯和語法的理解。FFT使用序列到序列建模在新聞數據集上微調Google T5 Small模型，以參考摘要作為標簽。兩種方法都采用了優化技術，使微調能在有限硬件上進行。

研究人員開發了全面的評估框架，包括傳統指標、新型指標和人工評估。這種多方面的評估方法是一項重大貢獻，尤其是在沒有參考摘要的情況下，這在許多實際政府應用中很常見。

研究得出了幾項關于微調LLMs用于摘要的重要發現。KFT將無效摘要從36%顯著減少到15%，證明了即使在無監督方法中，領域適應也很有價值。FFT在多個指標上持續改善摘要質量。研究人員發現兩種微調方法服務于不同目的：KFT主要提高了處理嘈雜、經OCR處理的政府文檔時的穩健性，而FFT持續提高摘要質量，但需要參考摘要。

https://arxiv.org/pdf/2503.10676

分層思考：HiRAG如何終于教會AI連接知識點

本研究論文介紹了HiRAG，一個創新框架，通過融入層次化知識結構增強了檢索增強生成（RAG）系統。該工作解決了現有RAG方法的基本限制，并提出了在各個領域顯著提高性能的新解決方案。

檢索增強生成（RAG）已成為大型語言模型（LLM）的關鍵增強技術，特別是在特定領域和知識密集型任務中。雖然現有RAG方法已顯示出前景，但作者確定了兩個限制其有效性的重大挑戰。首先，語義相似實體之間的遠距離結構關系限制了有效的知識檢索。其次，現有方法難以彌合實體特定細節（局部知識）和更廣泛的社區級摘要（全局知識）之間的斷開，導致推理不連貫。這些挑戰源于傳統RAG系統中知識表示和檢索過程的局限性。作者提出HiRAG通過層次化方法處理知識索引和檢索過程，以解決這些問題。

HiRAG框架由兩個協同工作以增強RAG性能的主要模塊組成：用于層次化知識索引的HiIndex和用于多層次知識檢索的HiRetrieval。HiIndex模塊引入了一種新穎的知識表示方法，通過構建具有不同知識粒度層次的層次化知識圖譜。該過程包括基礎知識圖譜構建、層次化層構建和社區檢測。層次化結構提供了雙重連接增強：通過低層連接的結構凝聚力和通過高層抽象的語義橋接。這使得語義相似的實體即使在基礎知識圖譜中位置相距較遠也能連接起來。

https://arxiv.org/pdf/2503.10150

你的數字分身：第二自我與外包大腦的藝術

本報告對研究論文《AI原生記憶2.0：第二自我》進行了深入分析，該論文介紹了一種使用大型語言模型（LLMs）進行記憶管理的新方法。該論文代表了個性化AI作為人類記憶延伸的重要進步。

"AI原生記憶2.0：第二自我"的基本前提圍繞著通過個人記憶交換重新構想人類如何與數字系統交互。作者識別出當前人機交互中的一個關鍵低效問題：用戶必須在不同環境中重復提供相同信息，導致認知疲勞和交互中斷。雖然現有的解決方案如瀏覽器存儲的憑證和自動填充機制提供了一些緩解，但它們僅作為缺乏上下文推理和適應性的靜態存儲庫。第二自我通過作為一個智能的、持久的記憶卸載系統，動態利用用戶特定知識，超越了這些限制。研究者將第二自我設想為一個上下文提供者，它連接用戶、AI代理和更廣泛的信息世界，促進無縫交互，顯著減少認知負擔和交互摩擦。

第二自我建立在大型個人模型（LPM）1.0的基礎上，該模型確立了AI原生記憶對人工通用智能（AGI）進步的必要性。先前的工作表明，即使是具有超長上下文能力的LLMs，在搜索、組織和推理復雜用戶記憶方面也存在不足。記憶系統架構組織為三個不同的層次：原始數據層、自然語言記憶層和AI原生記憶層。第二自我引入了一種混合架構，保留了這三層的同時增加了重要改進，包括內循環整合、重新定義L2角色和外循環結構。

第二自我的實施涉及幾種復雜的方法，包括自動化訓練管道和思維鏈（COT）策略。自動化訓練管道包括數據挖掘、記憶數據合成、上下文生成、五級過濾、參數高效微調（PEFT）和直接偏好優化（DPO）。研究者嘗試了三種COT方法用于訓練數據生成：弱COT、多步驟COT和強COT。設計了三個關鍵任務來評估模型的有效性：記憶問答、上下文增強和上下文評論。

評估使用了四種指標：記憶（自我）、記憶（第三方）、上下文增強和上下文評論。關鍵實驗發現包括強COT顯著提高了模型性能，DPO帶來了實質性改進，人類案例研究表明第二自我的有效性可能超過報告的指標。通過結合多樣化數據源和不經過過濾的強COT風格標準化，實現了最佳性能。

第二自我在多個領域提供了重要價值，包括認知管理、網絡效應和知識轉化。與相關研究相比，第二自我代表了幾項創新進步，包括超越靜態記憶、個性化架構、自動化端到端管道、混合記憶管理和開源實現。研究者承認仍然存在幾個挑戰，包括單輪訓練限制、模型對齊完善、評估約束、多模態整合和實時同步。

https://arxiv.org/pdf/2503.08102

為什么你的提示工程"專業知識"可能只是一廂情愿的想法

本論文對提示工程和大型語言模型基準測試的微妙性質提供了關鍵見解，揭示了兩者比通常假設的更為復雜和依賴上下文。研究表明，提示方法和評估方法的微小變化可能會顯著影響對大型語言模型性能評估的結果。

這項研究由賓夕法尼亞大學沃頓商學院和其他機構的研究人員撰寫，重點關注大型語言模型評估的兩個關鍵領域：基準測試標準和不同提示技術的有效性。使用GPT-4o和GPT-4o-mini模型，研究人員對GPQA Diamond數據集進行了廣泛測試，該數據集包含198個涵蓋生物學、物理學和化學的博士級多項選擇題。

與傳統基準測試方法相比，該研究方法論的嚴謹性尤為突出。每個問題在不同提示條件下測試了100次，每個模型每個提示總計19,800次運行。建立了三種不同的"通過"標準：完全準確率（100%正確），高準確率（90%正確）和多數正確（51%正確）。測試了四種不同的提示條件：基線格式化提示，非格式化提示，禮貌提示和命令式提示。這種方法比典型的依賴單次嘗試或小樣本量的評估代表了顯著的方法論進步，提供了更穩健的可靠性測量。

研究人員發現模型響應存在實質性的不一致性，即使重復詢問相同問題。在100%正確性閾值下使用格式化提示，GPT-4o和GPT-4o-mini的表現僅比隨機猜測（25%）好約5個百分點，差異在統計上不顯著。在較低閾值（51%正確性）下，兩種模型都明顯優于隨機猜測。這種變異性表明大型語言模型可能不可靠且不一致，這是需要高可靠性應用程序考慮的關鍵因素。

評估標準的選擇極大地影響了感知的模型性能。在較高的正確性閾值（100%）下，兩種模型都沒有明顯優于隨機猜測。在較低閾值（51%）下，兩種模型都顯示出相對于隨機猜測的統計顯著改進。這一發現挑戰了許多可能通過使用不太嚴格的標準而大大高估模型可靠性的基準測試努力。

研究揭示了不同提示方法的微妙影響。格式化始終很重要：移除格式化限制顯著降低了兩種模型的性能（p<0.001）。當在所有問題上匯總時，禮貌（"請回答以下問題"）和命令式（"我命令你回答以下問題"）提示之間沒有顯著差異。然而，在個別問題層面上，特定問題的禮貌和命令式提示之間觀察到顯著差異，對某些問題的性能影響高達60個百分點。

https://arxiv.org/pdf/2503.04818

深度學習優化技術：全面綜述

深度學習已經徹底改變了機器學習領域，在各種應用中實現了前所未有的性能。這一成功的核心是能夠有效訓練這些復雜模型的優化算法。本報告對深度學習中當前的優化技術進行了全面分析，考察了它們的理論基礎、實際應用和新興趨勢。

梯度下降構成了神經網絡優化的基石。這種一階迭代算法通過在當前點的梯度反方向上邁步來最小化可微的多變量函數。基本原理很直接：如果一個多變量函數在點a附近可微，則它在負梯度方向上減少最快。基本更新規則可以表示為：θt+1=θt?η?f(θt)，其中θ表示模型參數，η是學習率，?f(θ)是目標函數的梯度。這個過程會迭代進行，直到收斂到局部最小值。

雖然梯度下降是優化策略，但反向傳播是用于高效計算梯度的計算方法。反向傳播以分層方式安排偏導數的計算，從輸出層開始并向早期層反向工作。這種方法利用微積分中的鏈式法則來計算網絡中每個參數的梯度。

梯度下降有多種變體。批量梯度下降在執行參數更新前使用整個訓練數據集計算梯度。雖然這通過向量化提供了計算效率，但需要大量內存來存儲所有訓練示例，并且對于大型數據集可能導致緩慢的收斂。隨機梯度下降（SGD）在處理每個單獨的訓練示例后更新參數。這種方法需要更少的內存并可以提供更頻繁的更新，但與批量方法相比，通常導致更嘈雜的梯度和不太穩定的收斂。小批量梯度下降在處理小批量訓練示例后更新參數，平衡了前面兩種方法。這已成為深度學習中的標準方法，因為它結合了計算效率和比純SGD更穩定的收斂性。

基于動量的方法通過納入來自先前更新的信息來解決標準梯度下降的振蕩問題。經典動量在目標函數持續減少的方向上累積速度向量，幫助抑制振蕩并加速收斂。Nesterov加速梯度（NAG）通過在近似的未來位置而非當前位置評估梯度來改進經典動量。這種"前瞻"特性為凸優化問題提供了更好的收斂率。

自適應學習率方法根據歷史梯度為每個參數調整學習率。Adagrad為頻繁更新的參數分配較小的學習率，為不常更新的參數分配較大的學習率。雖然創新，但Adagrad可能隨時間遭受學習率遞減問題，在后期訓練階段實際上停止學習。RMSprop通過使用平方梯度的指數加權移動平均而不是累積所有過去的平方梯度來解決Adagrad的學習率遞減問題。這種修改允許算法丟棄來自遙遠過去的歷史，即使在多次更新后仍保持非零學習率。Adadelta通過消除手動設置學習率的需要進一步擴展了自適應學習。它使用先前更新與當前梯度的運行平均值的比率，根據優化過程的最近行為有效地調整學習率。Adam（自適應矩估計）已成為深度學習中最流行的優化器之一。它結合了RMSprop和動量的思想，通過維持過去梯度的衰減平均值和過去平方梯度的衰減平均值，這種雙重自適應方法在各種深度學習架構中提供了魯棒性。

新型優化方法包括PADAM（部分自適應矩估計）、dlADMM（深度學習交替方向乘子法）和PIDAO（比例-積分-微分加速優化器）。PADAM引入了一種新穎的可調超參數，稱為"部分自適應參數p"，它在[0, 0.5]之間變化。這個參數彌合了完全自適應方法和帶動量的SGD之間的差距，潛在地解決了這些方法之間觀察到的泛化差距。dlADMM框架解決了優化中的三個關鍵挑戰：缺乏全局收斂保證、向解決方案緩慢收斂和關于特征維度的立方時間復雜度。通過以后向然后前向的方式更新參數并采用迭代二次近似，dlADMM將時間復雜度從立方降低到二次，同時提供全局收斂的理論保證。PIDAO代表一種創新方法，將反饋控制理論應用于優化。通過在優化器中使用PID控制器，PIDAO提供了一種確定性連續時間優化器，對凸和非凸優化問題都證明了收斂性。實驗評估證明了PIDAO相比已建立方法加速收斂和提高準確性的能力。

模型效率優化技術包括剪枝、量化和知識蒸餾。剪枝通過移除不太重要的神經元減少模型大小，涉及識別、消除和可選的微調。量化通過對模型權重使用較低的數值精度減少內存使用和計算時間。知識蒸餾將復雜的"教師"模型的見解轉移到更簡單的"學生"模型，以更少的計算需求保持性能。

優化技術在圖像識別任務中顯示了顯著的結果。一項使用遷移學習和Adam優化的花卉識別研究在測試集上達到了98.99%的準確率，展示了快速收斂和高識別準確率。在醫學應用中，優化的深度學習模型取得了顯著成果。一個提出的用于肺結節早期檢測的計算機輔助檢測系統使用VGG19架構和SVM分類器達到了96.25%的檢測準確率。

https://arxiv.org/pdf/2503.04973

AI的多任務奇跡：并行思考與行動革新智能體智能

研究人員開發出了一種AI框架，讓規劃和行動的同時進行變得輕而易舉。論文《并行規劃-行動框架：提升大語言模型多智能體系統效率》介紹了一種突破性方法，這可能最終使AI智能體擺脫限制其在動態環境中有效性的認知瓶頸。簡單來說，這些智能體現在能夠"一心多用"——而且它們做得相當出色。

現有大語言模型(LLM)基礎多智能體系統的根本問題在于它們頑固地堅持序列化執行——這相當于AI拒絕開始烹飪，直到你已經寫完整個食譜。這種僵化在條件快速變化的環境中造成了致命的瓶頸，比如在Minecraft中，世界不會禮貌地暫停等待智能體思考下一步行動。傳統框架迫使智能體進行一種尷尬的舞蹈：思考，然后行動，然后再思考。這就像我們要求一個籃球運動員在決定傳球給哪個隊友時完全靜止不動，只有在做出決定后才能恢復動作。結果呢？智能體響應的是昨天的環境而不是今天的現實。

當前系統面臨三個關鍵挑戰：行動調度不靈活（等待LLM才能繼續）、重新規劃能力有限（無法隨機應變）和內存共享延遲（使用過時信息操作）。這些限制使AI智能體無法在需要適應性的動態環境中發揮其全部潛力。

研究人員的優雅解決方案引入了雙線程架構，從根本上重新構想智能體的運作方式。就像人類可以一邊思考晚餐一邊繼續打字發郵件一樣，這個框架將規劃和行動分離為并行過程。規劃線程，由LLM和集中式記憶系統驅動，根據當前觀察和團隊通信不斷生成下一步行動。同時，行動線程根據優先規則執行行動，并在出現更高優先級任務時處理中斷。這種并行化通過行動緩沖區作為線程間的通信渠道巧妙實現。規劃線程根據最新環境信息將新行動寫入緩沖區，而行動線程則根據優先規則檢索和執行這些行動。如果更高優先級的行動出現——比如在Minecraft中躲避意外出現的苦力怕——系統可以立即中斷當前行動。

論文提供的數學分析量化了效率提升，展示了規劃和行動階段的重疊如何有效地隱藏規劃時間，特別是當行動執行時間長于規劃時間時。結果是一個能以前所未有的敏捷性和效率響應動態環境的框架。

https://arxiv.org/pdf/2503.03505

數字大腦內部：UMM對AI認知的革命性方法

在聊天機器人變得越來越復雜但仍然令人沮喪地有限的時代，論文"統一心智模型：重新構想大型語言模型時代的自主智能體"為人工智能的未來提供了一個令人耳目一新的雄心勃勃的愿景。當大多數研究人員忙于微調ChatGPT提示或將API調用拼湊在一起以創建美化了的虛擬助手時，作者們反而退后一步，提出了一個基本問題：如果我們從頭開始構建更像人類思維的AI系統會怎樣？

統一心智模型（UMM）代表著與當前LLM智能體范式的顯著分離。它不是簡單地將提示與一些記憶機制鏈接在一起，而是建立在全局工作空間理論（GWT）的基礎上，這是神經科學中一個公認的認知框架。GWT將意識概念化為一個工作空間，在那里來自專門大腦區域的信息被整合和廣播。UMM巧妙地調整了這一理論，創建了一個由四個模塊組成的層次架構：基礎模型模塊（各種LLMs），專家模塊（特定任務的自主專家），中央處理模塊（"中央大腦"），以及驅動系統（調節焦點并實現自主行為）。

UMM特別創新的地方在于它將LLMs用作世界模型。與依賴手工制作的符號程序的傳統認知架構不同，UMM利用語言模型在規劃、推理和知識表示方面的卓越能力，創建了一個更靈活、更通用的系統。這就好像研究人員看著GPT-4說："這不僅僅是一個文本預測器—它本質上是數字思維的原始程序記憶系統。"

在UMM的基礎上，作者們介紹了MindOS，一個智能體構建引擎，使用戶能夠在沒有編程知識的情況下快速創建特定領域的自主智能體。把它想象成人工思維的WordPress—拖拽一下，你就突然擁有了一個真正理解貨幣政策而不僅僅是重復信息的金融顧問機器人。中央處理模塊構成了MindOS的核心，作為協調中心運作，有兩個關鍵組件：思維流（處理信息以生成決策）和工作記憶（收集與任務相關的信息）。一個基本概念是將"思維"表示為結構化提示—基本信息處理單元，整合了指令、上下文、感知、用戶數據、智能體信息、相關記憶等。

MindOS實現了三種不同的信息處理模式：目標導向模式（專注于解決特定任務），自學模式（實現自主學習），以及反應模式（基于觸發提供即時響應）。這就像賦予你的數字助手不僅能夠遵循指令的能力，還能像好奇的孩子一樣學習，像經驗豐富的專業人士一樣反應。

https://arxiv.org/pdf/2503.03459

Sesame開源CSM-1B模型，讓驚人逼真的AI語音技術走向大眾

在人工智能突破幾乎每周都有的時代，Sesame通過開源其病毒式傳播的超逼真語音助手Maya背后的基礎模型，將賭注大幅提高。CSM-1B的發布標志著語音AI發展的分水嶺時刻——相當于文本領域ChatGPT的首次發布——這可能同時引發語音技術的新紀元和一系列道德困境。

Sesame的對話語音模型（CSM-1B）是一次技術融合，解釋了為何Maya及其男性版本Miles在2月份演示視頻病毒式傳播時引發如此強烈的反應。這個10億參數的模型基于Meta的Llama架構，配備專門的音頻解碼器組件，采用殘差向量量化（RVQ）技術——一種將音頻編碼為離散標記的復雜技術，也被用于Google的SoundStream和Meta的Encodec。這種架構實現了Sesame稱之為"語音存在感"的特質——使AI語音交互感覺真實的神奇品質。Maya不僅僅會說話；它會呼吸、猶豫、笑，并且可以在句中被打斷。該公司聲稱其響應時間達到行業領先的116毫秒，顯著超越OpenAI（250毫秒）和ElevenLabs（180毫秒）等競爭對手。

CSM-1B特別重要的是其效率。當其他公司構建更大模型時，Sesame專注于優化。正如一個YouTube演示所指出的，當被問及其底層技術時，Maya回應道："我的創造者稱我的技術基礎內部構造為Gemma，那不是最大的模型，只有約270億參數，雖然不算小但也別指望我能寫出下一部偉大的美國小說。"

通過以寬松的Apache 2.0許可證發布CSM-1B，Sesame有效地實現了尖端語音技術的民主化。該模型從文本和音頻輸入生成"RVQ音頻代碼"，使開發者能夠創建各種聲音，而無需針對特定個體進行微調。這種方法反映了加速其他AI領域發展的開源精神。然而，其道德影響深遠。正如TechCrunch展示的，使用該模型進行語音克隆通過Hugging Face的演示不到一分鐘就能完成。在幾乎沒有技術保障措施的情況下，Sesame主要依靠"榮譽系統"，敦促用戶在沒有同意的情況下不要模仿聲音或創建誤導性內容。考慮到在選舉年語音深度偽造的潛力，這種方法似乎危險地天真。

https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/

應用與實踐

Onyx計劃如何以徹底透明的方式顛覆6億美元企業搜索市場

在一個企業軟件巨頭通常像龍守護黃金一樣保護其技術的世界里，總部位于舊金山的初創公司Onyx正采取一種截然不同的方法。該公司押注開源透明度，而非專有保密性，將幫助其征服日益競爭激烈的企業搜索市場。據最新報道，Onyx已獲得1000萬美元種子輪融資，用于擴展其AI驅動的搜索解決方案，該方案可連接超過40個公司內部數據源，并且只需30分鐘即可部署。

Onyx所解決的問題對任何在現代組織工作的人來說都痛苦地熟悉：關鍵信息分散在多個平臺上，使得在需要時幾乎不可能找到所需的內容。隨著團隊的擴大，知識變得碎片化，分散在Slack、Confluence、Google Drive、Salesforce、GitHub和數十個其他工具中。這種數字蔓延造成了令人沮喪的瓶頸，員工浪費寶貴的時間在各種系統中搜索，卻往往一無所獲。

這種數字知識危機催生了一個利潤豐厚的市場，像Glean這樣資金充足的競爭者已籌集了令人印象深刻的6億美元來解決這一問題。然而，Onyx認為這些老牌競爭對手有一個根本性的弱點：他們封閉、專有的特性使他們適應速度慢、難以定制且實施成本高。

Onyx的故事始于聯合創始人Chris Weaver和Yuhong Sun的一個簡單認識，他們在工程師角色中親身經歷了知識碎片化問題。"我們大致知道東西在哪里，但仍然有點困難，[而且]新人根本找不到任何東西，"Weaver解釋道。"感覺一定有更好的方式來做這件事。"

Onyx的與眾不同之處不僅在于其技術，還在于其分發模式。通過在2023年將其解決方案作為開源發布（最初稱為"Danswer"），他們創建了一個社區驅動的平臺，迅速獲得了吸引力。這種方法使他們實現了令人印象深刻的采用指標，包括單周高達16萬條消息，并被Netflix、Ramp和泰雷茲集團等大型企業實施。

https://techcrunch.com/2025/03/12/why-onyx-thinks-its-open-source-solution-will-win-enterprise-search/

Browser Use如何借助Manus的病毒式傳播加速AI代理接管

在人工智能飛速發展的格局中，有時最具影響力的工具并非那些頭條新聞中的明星。例證就是Browser Use，這款AI工具正經歷爆炸性增長，得益于其為中國初創公司蝴蝶效應(Butterfly Effect)的病毒級AI"代理"平臺Manus提供動力。據最新報道，這個不起眼的技術在短短一周內日下載量激增了五倍，從2025年3月3日的5,000次躍升至3月10日的28,000次。

Browser Use的迅猛崛起源于一個經典的互聯網現象：病毒式傳播。一個展示Manus如何利用Browser Use的單一演示在X平臺上獲得了超過240萬次觀看，將這個此前小眾的開發者工具推向聚光燈下。這種數字多米諾效應完美詮釋了AI生態系統的互聯性，一個平臺的成功可以徹底改變其底層技術的命運。從本質上講，Browser Use使AI模型能夠像人類一樣與網站交互——點擊按鈕、填寫表格、導航菜單，并同時管理多個標簽頁。這種看似簡單的功能代表了AI與互聯網交互方式的根本性轉變，從被動信息消費轉向主動數字參與。

Browser Use的起源故事讀起來就像硅谷童話。聯合創始人Gregor Zunic和Magnus Müller去年在蘇黎世聯邦理工學院的學生項目孵化器中開發了這個工具。"最初只是幾次午餐時的隨意頭腦風暴，后來變成了一個挑戰：我們來做些小東西，扔到Hacker News上，看看會發生什么，"Zunic告訴TechCrunch。"我們在四天內組裝了一個最小可行產品，發布了它，然后轟——一下子排到第一。從那以后，就像坐上了火箭。"這種快速崛起既反映了創始人的技術才華，也體現了他們完美的市場時機。到2024年12月，Browser Use在WebVoyager基準測試中已取得了令人印象深刻的89.1%成功率，解決了586個復雜的網絡任務。但正是與Manus的集成，將他們的技術成就轉變為病毒式傳播的轟動。

Zunic和Müller以非凡的戰略清晰度定位Browser Use，將其商業模式描述為向追逐網絡代理淘金熱的開發者"銷售鏟子"。這種方法——提供基礎設施而非終端用戶應用——在技術革命中歷來被證明是有利可圖的，從實際的加州淘金熱到早期互聯網繁榮時期都是如此。"我們想創建一個基礎層，讓所有人都能在上面構建瀏覽器代理，"Zunic解釋道，闡明了一個愿景，即Browser Use成為下一代AI應用的基礎設施。這種定位與當前市場動態完美契合，開發者們正在競相構建越來越復雜的AI代理，但缺乏網絡交互的標準化工具。

也許最引人注目的是Zunic的大膽預測："在我們看來，到今年年底，網絡上的代理將多于人類。"這一陳述初聽起來可能像典型的創業公司夸張言論，但行業研究為其增添了可信度。Research and Markets預測AI代理行業到2029年將達到420億美元，而德勤預計到2027年，使用AI的公司中將有一半部署AI代理。這一預測代表了對互聯網的根本性重新思考——從為人類交互設計的網絡轉變為越來越多由自主AI實體代表我們執行任務的網絡。Browser Use位于這一轉變的中心，提供AI模型與人類設計的網絡之間至關重要的連接組織。

https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/

奧林巴斯與Ziosoft的AI合作如何讓手術室中的隱形變為可見

在外科技術的重大進步中，奧林巴斯公司宣布與軟件專家Ziosoft建立戰略合作伙伴關系，推出其首款AI驅動的臨床決策工具。這一新平臺將傳統的2D成像轉變為動態3D模型，有望徹底改變肝臟、肺部和腎臟手術的術前規劃。這一合作代表了奧林巴斯在其百年醫療技術創新使命中的最新一步，現在通過人工智能提高手術精度和患者預后。

新宣布的合作關系引入了Ziosoft Revoras平臺，該平臺利用先進的影像分析和機器學習將標準CT掃描和MRI轉換為交互式3D模型。這一技術飛躍解決了手術規劃中的一個基本限制——傳統上，外科醫生在準備復雜手術時僅限于解讀平面、靜態圖像。現在，他們可以操作詳細的三維表示，揭示通常隱藏不見的關鍵結構。

對于胸外科醫生，該系統將常規成像轉變為精確的3D模型，清晰展示肺癌手術中涉及的復雜解剖結構，可能減少侵入性方法的需要。肝臟外科醫生獲得了肝血管和腫瘤的增強可視化，允許更精確地規劃保留組織的技術。而在泌尿科，該技術通過提供腎臟異常的詳細評估，協助微創腎切除術。

該系統的功能不僅限于手術室——它還作為外科研究員的教育平臺，并指導經驗較少的外科醫生完成不熟悉的手術。這代表了奧林巴斯所描述的"看見不可見"計劃的第一步，這是一系列旨在提高手術安全性和效率的AI驅動創新。

對于有著可視化技術，特別是內窺鏡領域深厚根基的奧林巴斯來說，這一舉措代表了自然演變。奧林巴斯外科解決方案副總裁Darryl Rock將這一合作描述為在公司既有傳統的基礎上，通過擁抱AI來增強臨床決策。潛臺詞很明確：即使是百年歷史的醫療技術領導者也必須適應AI革命，否則就有落伍的風險。

從Ziosoft的角度來看，其業務發展和營銷副總裁Rajeev Taitriya認為，這一合作利用了他們在醫學可視化方面二十年的經驗。特別值得注意的是Taitriya提到"肺癌篩查的興起"創造了對復雜肺段切除術的需求——這清楚地表明，更廣泛的醫療保健趨勢正在推動對更復雜手術規劃工具的需求。

https://www.prnewswire.com/news-releases/olympus-announces-launch-of-ai-powered-surgical-planning-tool-through-strategic-partnership-with-ziosoft-302400208.html

谷歌AI醫生升級：當你的數字醫生變得過于聰明

在技術與醫療保健不斷演變的舞蹈中，谷歌剛剛完成了一次重大飛躍——或者取決于你問誰，可能是橫向發展。這家科技巨頭最近在其以健康為重點的活動"體檢"(The Check Up)上宣布，將其AI概覽功能大幅擴展至"數千個更多健康主題"。這一發展標志著谷歌最新嘗試將自己定位為世界事實上的數字醫生，這既帶來了令人興奮的可能性，也引發了關于在線健康信息未來的令人不安的問題。

谷歌公告的核心內容圍繞著使用人工智能提供更全面、更易獲取的健康信息。AI概覽功能此前范圍有限，現在將覆蓋數千個更多與健康相關的查詢，并擴展到包括西班牙語、葡萄牙語和日語在內的其他語言。谷歌聲稱，這些擴展利用了"Gemini模型最近在健康領域的進步"，以確保信息達到"臨床事實準確性的高標準"。或許更有趣的是引入了一項名為"人們建議"(What People Suggest)的新功能，該功能使用AI組織和總結在線討論中關于健康狀況的觀點。例如，關節炎患者尋找運動建議時，可以快速獲取其他管理相同疾病的人的見解。這一功能有效地承認，雖然用戶重視醫學專業知識，但他們也渴望獲得同病患者的親身經歷——這是傳統醫療資源往往缺乏的健康信息的細微方法。

谷歌的"人們建議"功能代表了我們如何概念化健康信息的一個引人入勝的轉變。通過算法策劃群眾智慧，谷歌承認單純醫學文獻的無菌殿堂無法滿足在線尋求健康信息的用戶。人們既想要臨床專業知識，也需要那些經歷過類似健康旅程的人的混亂、矛盾但往往實用的經驗。正如谷歌首席健康官Karen DeSalvo解釋的那樣："雖然用戶轉向搜索以獲取來自專業人士的可信醫療信息，但他們也欣賞聽取有類似經歷的其他人的意見"。這種雙重方法代表了一種比我們以前從主要科技平臺看到的更全面的健康信息消費觀。該功能從Twitter（現為X）、Reddit和Quora等來源提取信息，創建一種按需生成的數字支持群體。目前僅在美國的移動設備上可用，這表明谷歌對推出采取謹慎態度。

https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/

Niantic為何放棄精靈寶可夢GO，轉向為AI繪制現實地圖

在一次揭示科技未來走向的戰略轉型中，Niantic Labs宣布將其游戲部門——包括極為成功的《精靈寶可夢GO》——以35億美元的價格出售給沙特擁有的Scopely公司。但這不僅僅是一項企業交易；它宣告了增強現實技術真正價值所在。隨著Niantic轉型為"Niantic Spatial"，公司正在押注一個精心計算的賭注：為機器繪制物理世界的地圖最終將比用數字生物娛樂人類更有價值。

這個故事的核心不在于精靈寶可夢離開Niantic的巢穴，而是Niantic接下來計劃做什么。該公司正在加倍努力創建首席執行官John Hanke所描述的"一種新型地圖，使世界對機器變得可理解，從智能眼鏡到人形機器人的一切都能理解"。這一愿景代表了一個根本性轉變：從使用位置數據進行娛樂，到構建全面的空間模型，為下一代AI系統奠定基礎。

Niantic的新焦點并非完全出人意料。自2021年收購3D掃描應用Scaniverse以來，該公司一直在開發技術以捕捉有關物理世界的詳細空間信息。Niantic方法的獨特之處在于，他們已經通過游戲收集了大量數據——《精靈寶可夢GO》的玩家實際上一直在眾包全球有趣地點的圖像庫，而他們自己卻認為只是在收集數字怪物。

盡管《精靈寶可夢GO》擁有文化現象的地位，但Niantic一直難以復制其成功。該公司在2022年和2023年面臨裁員，甚至停止了一些游戲如《哈利波特：巫師聯盟》。這一背景有助于解釋出售的時機——Niantic正在將其最有價值的游戲資產變現，同時轉向它認為更有前途的前沿領域。

https://www.cnet.com/tech/computing/pokemon-go-has-a-new-owner-but-niantics-evolving-its-maps-into-a-way-to-fold-in-ai-and-ar/

微軟將基礎記事本轉變為AI強大工具

微軟正悄然革新Windows 11中最平凡的角落，將基礎工具轉變為復雜的AI助手。據最近報道，該公司正在測試記事本中的AI文本摘要功能，并為截圖工具增加形狀完善功能。這些更新正向金絲雀頻道和開發頻道的Windows預覽體驗成員推出，代表了微軟將人工智能全面融入其生態系統戰略的最新一步。

長期以來以簡潔著稱的記事本應用，現在提供了"摘要"功能，用戶可以通過右鍵點擊或使用Ctrl+M快捷鍵來壓縮選定文本。用戶可以嘗試不同的摘要長度來優化AI生成的輸出，本質上將這個基礎文本編輯器轉變為內容分析工具。此功能要求用戶使用微軟個人賬戶登錄，并使用與Microsoft 365個人版、家庭版或Copilot Pro訂閱相關聯的AI積分。

同時，截圖工具正在獲得"繪制并保持"功能，可將不精確的注釋轉化為整潔、專業的形狀。用戶可以繪制粗略的線條、箭頭、矩形或橢圓，然后短暫保持光標靜止，將搖晃的筆觸轉換為規整的形狀。這一微妙的增強解決了數字注釋的常見問題 - 使用觸控板或鼠標移動創建精確標記的困難。

其他實用改進包括記事本的新"最近文件"選項，可通過編輯菜單訪問，允許用戶直接在應用程序內重新打開最近關閉的文檔。這個看似簡單的功能對經常處理多個文本文件的用戶來說是生活質量的顯著提升。

這些更新遠非孤立的發展。它們代表了微軟在Windows 11全面AI集成戰略中的重要步驟。該公司已經為截圖工具添加了OCR功能，允許從圖像中提取文本，并為記事本引入了AI驅動的"重寫"功能，可以調整文本的語氣、長度和措辭。

這些漸進式變化與微軟更廣泛的推動相一致，旨在使AI功能在整個操作系統中無處不在。從集成到任務欄的Copilot助手，到Clipchamp中的AI增強視頻編輯和Photos中的背景模糊，Windows 11正變得越來越智能。

https://www.theverge.com/news/629412/windows-11-notepad-ai-summaries-snipping-tool

交叉與創新

NVIDIA與通用汽車的合作如何重塑汽車AI的未來

在一項標志著汽車制造與創新新時代曙光的戰略舉措中，NVIDIA與通用汽車宣布了一項突破性的合作伙伴關系，這種合作遠超常規的技術協作范疇。這一聯盟承諾通過人工智能的力量徹底革新從工廠運營到下一代汽車的一切，標志著汽車行業技術演變的關鍵時刻。

從本質上講，這項新宣布的合作關系代表著通用汽車將向NVIDIA支付一筆未公開的金額，以獲取其AI驅動的GPU和專業平臺的使用權。這不僅僅是在汽車中安裝更好的計算機——而是關于從根本上改變汽車的構思、設計、制造和運行方式。通用汽車將利用NVIDIA的Omniverse平臺創建裝配線的數字孿生，實現虛擬測試和生產模擬，可大幅減少停機時間并優化運營。

這種合作關系的特別之處在于其全面的范圍。除了工廠優化外，通用汽車還將集成NVIDIA DRIVE AGX作為車載硬件，為未來的高級駕駛輔助系統和增強的安全功能提供動力。這標志著通用汽車在自主技術方面的重大轉變，此前該公司曾在去年撤回了對其陷入困境的Cruise機器人出租車部門的財政支持。

NVIDIA創始人兼首席執行官黃仁勛表示：“物理AI時代已經到來，與通用汽車一起，我們正在改變交通運輸，從車輛到制造它們的工廠。”他的興奮反映了科技行業日益認識到AI的下一個前沿不在數字空間，而在于重塑物理環境和流程。

對通用汽車而言，這次合作代表了其在自動駕駛汽車雄心受挫后的關鍵轉折點。雖然該公司的Super Cruise駕駛輔助系統被廣泛認為是業內最佳之一，但其更廣泛的自動駕駛計劃面臨著重大挑戰。通過與NVIDIA合作，通用汽車獲得了尖端AI能力的使用權，這可能有助于重振其自動駕駛技術，同時改變其制造運營。

對NVIDIA而言，汽車行業代表著一個巨大的增長機會。盡管該公司的收入飆升——2024年在所有部門的總收入超過1300億美元——但其汽車業務仍處于“起步階段”，每年僅產生約50億美元的收入。與美國最大汽車制造商的這一合作為NVIDIA提供了其技術的展示平臺，同時擴大了其在一個價值數萬億美元行業中的足跡。

https://www.shacknews.com/article/143522/nvidia-nvda-gm-ai-factory-vehicle-deal

OpenAI的小說創作AI引發文學界的靈魂探索

在一項同時代表技術里程碑和對創意專業人士構成存在性問題的發展中，OpenAI首席執行官Sam Altman于2025年3月11日宣布，他的公司已成功訓練了一個專門用于創意寫作的AI模型。據Altman稱，這個模型——它與OpenAI通常專注于編碼和數學等結構化應用的方向不同——產生了足夠高質量的小說，"確實打動"了他，尤其是在捕捉"元小說氛圍"的能力方面。為了展示其能力，Altman分享了一個由AI撰寫的短篇小說，這是對"一個關于AI和悲傷的元小說文學短篇故事"的提示的回應。

此次公告與以往AI寫作能力的區別在于模型的專門訓練以及Altman異常熱情的評價。雖然以前的AI模型可以生成敘事文本，但它們通常產生明顯人工的作品，缺乏人類寫作的細微差別和情感共鳴。然而，Altman分享的例子展示了該模型進行自我參照敘事的能力，承認其人工本質，同時諷刺地哀嘆自己無法真正體驗悲傷。

這一發展的時機在全球小說市場背景下尤為重要，該市場從2024年的111.6億美元增長到2025年的113.8億美元。這一增長部分由短篇小說和互動體驗等新形式推動——正是AI生成最容易融入的領域。如果AI生成的小說在商業上變得可行，它可能會從根本上改變出版經濟學，可能以最低邊際成本用算法生產的內容充斥市場。

OpenAI涉足創意寫作正值公司的關鍵時刻。在ChatGPT的流星崛起后，曾經是面向消費者的AI無可爭議的領導者，OpenAI已經看到其技術優勢隨著Anthropic的Claude、DeepSeek和埃隆·馬斯克的Grok3等競爭對手匹配或超過其基準性能而減弱。據報道，隨著微軟重新考慮其對公司的130億美元投資，OpenAI面臨著巨大壓力，需要開發獨特的能力，重新確立其技術領導地位。

創意寫作代表著OpenAI以前未優先考慮的前沿領域，此前它專注于數學推理、編程和其他結構化任務。通過在一個典型的人類領域展示實力，OpenAI可能試圖在其技術優勢越來越受到質疑的時刻，同時獲取市場關注和文化意義。據報道，該模型還代表著潛在的新收入來源，因為OpenAI據說每年消耗約50億美元。

對Altman公告的反應揭示了不同利益相關者如何看待AI侵入創意領域的深刻分歧。Altman本人將這一發展描述為突破性時刻，對輸出質量表達了真誠的驚訝——"這是我第一次真正被AI寫的東西打動"。一些觀察者，尤其是科技界的人士，分享了這種熱情，一位Reddit用戶指出，這種寫作"比我之前從大型語言模型中看到的任何內容都更有創意"。

然而，文學專業人士和創意作家表達了重大懷疑。批評者指出，當讀者知道文本是由AI生成時，他們在情感上就會脫離，無法與不是源于人類經驗的文字建立聯系。正如Altman帖子下的一位評論者所說，"我讀了前幾段...我就是不關心寫的任何東西。表達的文字沒有分量"。這個觀點表明，AI寫作的失敗不是在技術層面，而是在其傳達真實人類經驗的根本能力上。

https://siliconangle.com/2025/03/11/sam-altman-says-openai-trained-fiction-writing-ai-model-thats-actually-decent/

Celestial AI 2.5億美元融資，光子計算時代的黎明

在不斷加速發展的人工智能基礎設施世界中，一家相對不為人知的初創公司剛剛獲得了一輪引人注目的融資。光學互連技術開發商Celestial AI完成了2.5億美元的C1輪融資，使其融資總額躍升至5.15億美元，估值據報道達到25億美元。這筆由富達管理研究公司領投，包括貝萊德等新投資者和AMD Ventures等現有支持者參與的重大資金注入，預示著我們應對AI計算物理限制方式的潛在范式轉變。

Celestial AI吸引力的核心在于其"光子織物"技術平臺，該平臺用光學解決方案取代傳統銅基互連，用于AI處理器之間的數據傳輸。公司由行業資深人士David Lazovsky和Preet Virk于2020年創立，將自身定位于兩個關鍵技術領域的交叉點：先進的AI系統和硅光子學。這一時機再戰略性不過了。隨著AI模型在規模和復雜性方面呈指數級增長，銅基互連的物理限制已成為系統性能的關鍵瓶頸。當前的AI基礎設施難以應對分布在多個服務器和機架上的處理器之間的大規模數據傳輸需求。那些服務計算領域數十年的銅質連接器，簡單地無法跟上下一代AI工作負載對帶寬、延遲和能源效率的需求。

Celestial AI戰略的關鍵一步在2024年10月浮出水面，當時公司以2000萬美元從Rockley Photonics收購了硅光子學知識產權組合。這次收購并非僅僅是增量式的——而是具有變革性的，使公司的全球知識產權持有量超過200項專利，并在三個關鍵領域顯著加強了其技術護城河：光電系統封裝、電吸收調制器和光學開關技術。這就是當今AI基礎設施格局中的核心張力：雖然AI算法創新以驚人的速度進行，但支持這些進步的物理基礎設施正在撞擊基本物理限制。先進AI模型對計算資源的非凡需求正在與傳統互連技術無法擴展以滿足這些需求的現實相碰撞。這種矛盾既創造了緊迫性，也創造了機遇。緊迫性來自于對AI計算資源不斷增長的胃口；機遇則出現在那些能夠成功超越當前物理限制的公司身上。Celestial AI的賭注是，光子學——生成、控制和探測光的科學——提供了前進的道路。

在獲得這筆可觀資金后，Celestial AI現在面臨著從有前景的技術轉向規模化生產的關鍵挑戰。公司表示，新資金將用于擴展和認證其批量制造供應鏈，以滿足不斷增長的客戶需求。據報道，該公司已經與"多家超大規模云服務提供商、AI處理器、定制硅和封裝合作伙伴建立了深度合作"，這表明主要云服務提供商和硬件制造商已經在探索將Celestial的技術整合到其基礎設施堆棧中。這種行業認可顯著提高了商業成功的可能性。如果Celestial AI能夠實現其愿景，其影響可能遠遠超出數據中心性能的漸進式改進。通過從根本上重新思考數據在計算和內存資源之間的移動方式，該公司的技術可能為AI系統啟用全新的架構，潛在地解鎖在當前約束下仍然不可能實現的能力。

https://www.datacenterdynamics.com/en/news/optical-interconnect-startup-celestial-ai-raises-250m/

毅力追求雄心壯志的理論模型

本研究論文由Avrim Blum、Emily Diana、Kavya Ravichandran和Alexander Tolbert共同撰寫，提供了一個量化框架，通過決策理論和計算機科學的視角來理解毅力——對長期目標的堅持和熱情。這項工作代表了一種新穎的跨學科方法，將毅力的哲學概念與數學建模技術相結合。

作者使用改進型多臂賭博機（improving multi-armed bandits, MAB）框架建立了研究毅力的正式模型，這成為他們分析的基礎結構。該框架允許在選擇具有不確定收益的穩定和風險選項時進行決策的量化建模。論文的核心是一個非常優雅而強大的雙臂賭博機模型，它捕捉了雄心壯志追求的本質：穩定臂始終提供恒定的1單位回報，代表低風險、即時回報但增長潛力有限的選項；奮斗臂最初在未知時間θ內不提供回報，之后開始以斜率α線性增長，代表高風險、高潛力的選項。這個模型創造了反映現實生活決策的基本張力：是堅持潛在高回報但當前無回報的路徑，還是轉向可靠但潛力有限的替代方案。

論文采用兩種不同的理性模型來分析決策：競爭比率（回顧性）和貝葉斯不確定性量化（前瞻性）。這兩種觀點提供了對不確定條件下理性決策的互補見解，捕捉了結果導向和信念導向的理性維度。該論文的創新之處在于以兩種不同方式正式概念化毅力：毅力作為樂觀和毅力作為不適耐受性。兩種概念化都產生了相似的行為結果——更有毅力的代理人會探索奮斗臂更長時間——但通過不同的心理機制。

作者通過數學分析得出了幾個深刻的見解。對于具有回報斜率猜測α?的代理人，最優策略是在奮斗臂上堅持T-√(2T/α?)步驟，然后永久切換到穩定臂。這提供了毅力與探索持續時間之間明確的量化關系。通過仔細的案例分析，論文證明毅力有幫助的情況和毅力有害的情況。這種細致的理解解決了社會學文獻中毅力有時有益有時有害的明顯矛盾。

https://arxiv.org/pdf/2503.02952

關于追問nextquestion

天橋腦科學研究院旗下科學媒體，旨在以科學追問為紐帶，深入探究人工智能與人類智能相互融合與促進，不斷探索科學的邊界。如果您有進一步想要討論的內容，歡迎評論區留言，或后臺留言“社群”即可加入社群與我們互動。

關于天橋腦科學研究院

天橋腦科學研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一，圍繞全球化、跨學科和青年科學家三大重點，支持腦科學研究，造福人類。

Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室；與加州理工學院合作成立了加州理工天...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.