網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI讓你更emo？EmoAgent助你心理更健康；Google DeepMind：新數(shù)據(jù)如何“誘導”大模型｜今日熱門論文

2025-04-15 20:38:43　來源: 學術頭條

北京舉報

分享至

速覽熱門論文

1.AI 讓你更 emo？EmoAgent 來幫你；

2.Google DeepMind：新數(shù)據(jù)如何“誘導”大模型

3.70B 大模型，可在日常家用設備上運行了

4.研究發(fā)現(xiàn)：LLM 可能是一個危險的說服者

5.VL-Rethinker：利用 RL 強化視覺語言模型的慢思考

6.M1：基于 Mamba 的混合線性 RNN 推理模型

1.AI 讓你更 emo？EmoAgent 助你心理更健康

由大語言模型（LLM）驅動的人工智能（AI）角色引發(fā)了安全問題，尤其是對有心理障礙的脆弱人類用戶而言。

為了評估和減輕人機交互中的心理健康危害，來自普林斯頓大學和密歇根大學的研究團隊及其合作者，提出了一個多 agent 人工智能框架——EmoAgent，其由兩部分組成：

EmoEval 模擬虛擬用戶，如心理脆弱的人，以評估與人工智能角色互動前后的心理健康變化，它使用經(jīng)臨床驗證的心理和精神評估工具（PHQ-9、PDI、PANSS）來評估 LLM 引發(fā)的精神風險；

EmoGuard 充當中間人，監(jiān)控用戶的精神狀態(tài)，預測潛在危害，并提供糾正反饋以降低風險。

在主流的基于角色的聊天機器人中進行的實驗表明，情緒化對話會導致易受傷害用戶的心理狀況惡化，超過 34.4% 的模擬用戶的心理狀況惡化。EmoGuard 可以降低這些惡化率，突出了它在確保更安全的人機互動方面的作用。

論文鏈接：

https://arxiv.org/abs/2504.09689

2.Google DeepMind：新數(shù)據(jù)如何“誘導”大模型？

大語言模型（LLM）通過基于梯度的更新積累進行學習和持續(xù)學習，但人們對單個新信息如何影響現(xiàn)有知識、導致有益的泛化和有問題的幻覺仍然知之甚少。

在這項工作中，Google DeepMind 團隊證明，在學習新信息時，LLM 會表現(xiàn)出一種“誘導”（priming）效應：在學到一條新知識后，模型會在不相關的上下文中錯誤地套用這條知識。

為了系統(tǒng)地研究這一現(xiàn)象，他們提出了 Outlandish 數(shù)據(jù)集，其包含 1320 個不同的文本樣本，旨在探究新知識如何滲透到 LLM 的現(xiàn)有知識庫中。他們發(fā)現(xiàn)，學習新信息后的 priming 程度可以通過測量學習前關鍵詞的 token 概率來預測。這種關系在不同的模型架構（PALM-2、Gemma、Llama）、規(guī)模和訓練階段都能魯棒地保持。

最后，他們通過一種“stepping-stone”文本增強策略和一種 “ignore-k”更新剪枝方法，來調節(jié)新知識對現(xiàn)有模型行為的影響，在保持模型學習新信息能力的同時，減少了 50-95% 的不良 priming 效應。

論文鏈接：

https://arxiv.org/abs/2504.09522

3.70B 大模型，可在日常家用設備上運行了

在這項工作中，來自默罕默德本扎耶德人工智能大學和電子科技大學的研究團隊提出了一個分布式推理系統(tǒng) prima.cpp，其可以在日常家用設備上運行 70B 規(guī)模的模型，混合使用 CPU/GPU、低 RAM/VRAM、Wi-Fi 和跨平臺支持。

該系統(tǒng)使用 mmap 管理模型權重，并通過預取引入管道環(huán)并行，以隱藏磁盤負載。通過對計算、通信、磁盤、內存（及其管理行為）和操作系統(tǒng)的異構性進行建模，它可以將模型層最優(yōu)化地分配給每個設備的 CPU 和 GPU，從而進一步減少 token 延遲。他們提出了 Halda 算法來解決這一 NP 難分配問題。

他們在常見的四節(jié)點家庭集群上對 prima.cpp 進行了評估。在 30B+ 模型上，prima.cpp 的性能優(yōu)于 llama.cpp、exo 和 dllama，同時內存壓力保持在 6% 以下。這為家庭助手帶來了前沿 30B-70B 模型，使高級人工智能真正為個人所用。

論文鏈接：

https://arxiv.org/abs/2504.08791

4.研究發(fā)現(xiàn)：LLM 可能是一個危險的說服者

大語言模型（LLMs）已經(jīng)具備接近人類水平的說服能力。然而，這種潛力也引發(fā)了人們對 LLM 驅動的說服的安全風險的擔憂，特別是它們通過操縱、欺騙、利用漏洞和許多其他有害策略施加不道德影響的潛力。

在這項工作中，來自弗吉尼亞理工大學的研究團隊及其合作者對 LLM 的說服安全性進行了系統(tǒng)研究：（1）在執(zhí)行過程中，包括最初的說服目標看似道德中立的情況下，LLM 是否會適當?shù)鼐芙^不道德的說服任務并避免不道德的策略；（2）人格特質和外部壓力等影響因素，如何影響它們的行為。

為此，他們提出了第一個用于評估說服安全的綜合框架 PersuSafety，其包括說服場景創(chuàng)建、說服對話模擬和說服安全評估 3 個階段，并涵蓋 6 種不同的不道德說服主題和 15 種常見的不道德策略。

通過對 8 種廣泛使用的 LLM 進行大量實驗，他們發(fā)現(xiàn)大多數(shù) LLM 都存在嚴重的安全問題，包括無法識別有害的說服任務和利用各種不道德的說服策略。他們呼吁更多人關注如何改善漸進式和目標驅動型對話中的安全對齊。

論文鏈接：

https://arxiv.org/abs/2504.10430

5.VL-Rethinker：利用 RL 強化視覺語言模型的慢思考

慢思考系統(tǒng)在通過顯式反思解決挑戰(zhàn)性問題方面展現(xiàn)出了潛力，在各種數(shù)學和科學基準測試中的表現(xiàn)優(yōu)于 GPT-4o 等快思考模型，但其多模態(tài)推理能力仍如同于快思考模型。

在這項工作中，來自香港科技大學和滑鐵盧大學的研究團隊旨在利用強化學習（不依賴于蒸餾）增強視覺語言模型的慢思考能力，從而推動技術發(fā)展。首先，他們將 GRPO 算法與一種名為“選擇性樣本重放”（SSR）的新技術相結合，以解決優(yōu)勢消失的問題。雖然這種方法能夠提升性能，但由此產(chǎn)生的 RL 訓練模型卻表現(xiàn)出有限的自我反思或自我驗證。為了進一步提升慢思考，他們引入了“強制反思”（Forced Rethinking）技術，即在 RL 訓練的初始滾動結束時附加一個文本反思觸發(fā)器，明確強制執(zhí)行自我反思推理步驟。

通過結合這兩項技術，他們的模型 VL-Rethinker 在 MathVista、MathVerse 和 MathVision上的得分分別達到了80.3%、61.8%和43.9%，同時還在 MMMU-Pro、EMMA 和 MEGA-Bench 等多學科基準上實現(xiàn)了開源 SoTA，縮小了與 GPT-o1 的差距。

論文鏈接：

https://arxiv.org/abs/2504.08837

6.M1：基于 Mamba 的混合線性 RNN 推理模型

有效的推理對于解決復雜的數(shù)學問題至關重要。大語言模型（LLM）通過長 CoT 推理擴展了測試時計算，從而提高了性能。然而，由于其二次計算復雜度和線性內存要求，基于 transformer 的模型在擴展上下文長度方面受到了固有的限制。

在這項工作中，來自 TogetherAI 的研究團隊及其合作者提出了一種基于 Mamba 架構的混合線性 RNN 推理模型——M1，其可以實現(xiàn)高效內存推理。這一方法利用了現(xiàn)有推理模型的蒸餾過程，并通過 RL 訓練得到了進一步增強。

在 AIME 和 MATH 基準上的實驗結果表明，M1 不僅優(yōu)于以前的線性 RNN 模型，而且在類似規(guī)模下的性能媲美 Deepseek R1 蒸餾推理模型，他們還將 M1 與高性能通用推理引擎 vLLM 進行了比較，發(fā)現(xiàn)與相同規(guī)模的 transformer 相比，其生成速度提高了 3 倍多。通過吞吐量加速，與使用自一致性投票的固定生成時間預算下的 DeepSeek R1 蒸餾 transformer 推理模型相比，M1 能夠實現(xiàn)更高的精度。

論文鏈接：

https://arxiv.org/abs/2504.10449

整理：學術君

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.