█政策法規(guī)與新聞
AI論文:Springer自然放行一些,一所大學卻嚴厲打擊
英國與Anthropic:一場以AI變革公共服務的大膽聯(lián)盟
歐盟AI法案:邁向人工智能未來監(jiān)管的大膽一步
XAI評估指標:AI透明化之路上的缺失拼圖
█大模型與基礎建設
ParetoQ:將大模型壓縮到極限的藝術(shù)
獎勵引導的推測解碼:重新定義AI推理效率
PathE:通往知識圖譜高效嵌入之路
分層鏈式思維提示:可解釋人工智能新時代,還是復雜性的又一層?
█技術(shù)與研發(fā)
RandLoRA:讓 PEFT 再次智能化--無需全參數(shù)價格的全量功能
為何想太多反而可能搞砸?
AI研究革命:Perplexity的深度研究如何重新定義知識探索
PreGPT 2.0:去中心化AI聊天機器人挑戰(zhàn)科技巨頭壟斷
谷歌AI共科學家:科研的未來,還是高科技實驗室助手?
Gemini的飛躍:谷歌AI記憶升級如何重新定義聊天機器人格局
GPT-5與人工智能的未來:OpenAI在競爭加劇中的戰(zhàn)略轉(zhuǎn)型
EvoFlow:實時進化多樣化智能工作流
人工智能的美麗競賽:當機器超越人類
█應用與實踐
谷歌的冒險之舉:Gemini應用在iOS上的獨立突圍
Meta的AI轉(zhuǎn)型:人類工作崗位要過時了嗎?
人工智能讓我們更聰明還是更愚笨?微軟研究引發(fā)深刻討論
Google NotebookLM Plus:革新生產(chǎn)力的AI助手
█交叉與創(chuàng)新
職業(yè)夢想家:谷歌用AI開啟個性化職業(yè)探索的新篇章
Booking Holdings與生成式AI:重新定義旅行的未來
招聘 2.0:X0PA AI 的智能代理 AI 套件有望重塑招聘
*如需定位對應內(nèi)容,請使用微信的檢索功能
(點擊右上方三點,找到查找頁面內(nèi)容按鈕)
政策法規(guī)與新聞
AI論文:Springer自然放行一些,一所大學卻嚴厲打擊——學術(shù)誠信的新世界?
最近關于AI撰寫論文的新聞,是對學術(shù)出版未來的一次引人入勝,但也有些令人不安的窺視。正如Retraction Watch報道的那樣,斯普林格·自然放行了幾篇被標記為涉及AI的論文,與此同時,一所大學卻大幅增加了對此類論文的撤稿數(shù)量。這種明顯的矛盾引發(fā)了一個至關重要的問題:我們是否為人工智能輔助學術(shù)的時代做好了準備?在這種情況下,我們又該如何定義“作者身份”?
斯普林格·自然的案例表明,人們越來越接受AI作為研究過程中的一種工具,前提是它的作用是透明的,并且人類作者保留對作品的最終責任。另一方面,大學的嚴厲打擊凸顯了潛在的濫用。它表明,一些研究人員可能試圖將AI生成的內(nèi)容冒充為自己的內(nèi)容,這顯然違反了學術(shù)誠信。這引發(fā)了關于學術(shù)評估未來的嚴重問題。我們?nèi)绾尾拍艽_保學生和研究人員真正貢獻了原創(chuàng)思想,而不是僅僅依靠AI來炮制論文?
導致與AI相關爭議激增的根本原因是AI技術(shù)本身的快速發(fā)展。AI工具變得越來越復雜,能夠產(chǎn)生幾乎與人類寫作難以區(qū)分的文本。這使得檢測AI的參與變得困難,尤其是在研究人員故意試圖隱瞞的情況下。斯普林格·自然的觀點似乎是謹慎接受。他們似乎承認AI在研究中不可避免,同時強調(diào)透明度和道德使用的重要性。相反,大學的觀點似乎是更嚴格的控制,強調(diào)需要維持傳統(tǒng)的作者身份和原創(chuàng)性標準。
主要的矛盾在于AI在研究中的潛在好處與其對學術(shù)誠信構(gòu)成的風險之間。AI可以加速研究,產(chǎn)生新的見解,甚至有助于實現(xiàn)知識獲取的民主化。然而,它也為剽竊、欺詐以及對學術(shù)研究的信任的普遍侵蝕創(chuàng)造了機會。預測這個問題未來的發(fā)展軌跡具有挑戰(zhàn)性。我們可能會看到學術(shù)出版標準逐步發(fā)展,更加強調(diào)透明度和披露AI的參與??赡軙_發(fā)新的工具和技術(shù)來檢測AI生成的內(nèi)容,大學將需要調(diào)整其評估方法,以確保學生發(fā)展真正的研究技能。
https://retractionwatch.com/2025/02/10/as-springer-nature-journal-clears-ai-papers-one-universitys-retractions-rise-drastically/
英國與Anthropic:一場以AI變革公共服務的大膽聯(lián)盟
英國政府與硅谷AI公司Anthropic建立了戰(zhàn)略合作關系,旨在將人工智能整合到公共服務中。這一合作由英國的主權(quán)AI部門牽頭,計劃探索Anthropic的AI助手Claude如何提升公共服務效率并推動科學突破。該合作是政府更廣泛“變革計劃”的一部分,旨在利用AI推動經(jīng)濟增長并提高公共行政效率。此舉恰逢英國將其AI安全研究所重新命名為“AI安全研究所”,表明政府對減輕AI技術(shù)相關風險的關注進一步升級。
這一合作帶來了多項變革性機遇。Anthropic的Claude AI可以簡化行政任務,改善公民獲取服務的方式,并加快醫(yī)療保健和基礎設施規(guī)劃等領域的決策速度。通過利用AI進行研究,合作旨在加速醫(yī)學和工程等領域的突破性進展。這一合作符合英國雄心勃勃的AI機會行動計劃,該計劃預計AI每年可帶來高達400億英鎊的生產(chǎn)力提升。Anthropic在優(yōu)先考慮AI模型安全性和可靠性方面的良好聲譽,使其成為此次合作的可信賴伙伴。這一合作也反映了英國政府致力于成為負責任AI部署全球領導者的承諾。
英國政府選擇與Anthropic合作出于以下戰(zhàn)略動機。隨著美國和中國等國家大力投資于AI,英國希望確保自己在這一變革性技術(shù)中的領先地位。面對公共部門效率低下和經(jīng)濟停滯等挑戰(zhàn),AI提供了一條通過減少行政負擔和促進創(chuàng)新實現(xiàn)振興的途徑。將AI安全研究所更名為“AI安全研究所”凸顯了政府對高級AI系統(tǒng)潛在風險的認識。與以道德AI開發(fā)為重點的Anthropic合作,有助于應對這些擔憂。
https://www.anthropic.com/news/mou-uk-government
歐盟AI法案:邁向人工智能未來監(jiān)管的大膽一步
歐盟人工智能法案(EU AI Act)是全球首部全面的人工智能立法,旨在重新定義AI系統(tǒng)在歐盟范圍內(nèi)的開發(fā)、部署和使用方式。該法案將于2025年2月2日正式生效,采用基于風險的監(jiān)管框架,將AI系統(tǒng)分為四個風險等級:不可接受風險、高風險、有限風險和最低風險。關鍵條款包括要求使用AI系統(tǒng)的組織具備AI素養(yǎng)(第4條)以及禁止被認為有害或操控性的高風險AI實踐(第5條)。這些措施旨在提高透明度、降低對基本權(quán)利的威脅,并確保AI始終處于人類控制之下。
該法案還建立了治理機制,例如歐洲人工智能辦公室(European AI Office)和市場監(jiān)督機構(gòu),以確保合規(guī)性。盡管被譽為AI監(jiān)管領域的里程碑式進步,該法案也為企業(yè)帶來了適應復雜要求和調(diào)整運營以實現(xiàn)合規(guī)的挑戰(zhàn)。根據(jù)對個人和社會的潛在風險,AI系統(tǒng)被分為不可接受風險系統(tǒng)(如政府的社會評分系統(tǒng),全面禁止)、高風險系統(tǒng)(如醫(yī)療診斷、執(zhí)法工具,需要嚴格評估和持續(xù)監(jiān)控)、有限風險系統(tǒng)(需滿足透明度義務)和最低風險系統(tǒng)(基本免于監(jiān)管)。
第4條引入了一項開創(chuàng)性要求,規(guī)定使用或部署AI系統(tǒng)的組織必須確保員工具備足夠的“AI素養(yǎng)”,包括了解AI的風險、機遇以及倫理影響的培訓。第5條禁止某些有害的AI使用,例如扭曲決策過程的潛意識操控、利用年齡或社會經(jīng)濟地位等弱點進行剝削、基于行為或個人特征進行評分的社會評分系統(tǒng),以及在工作場所或教育環(huán)境中使用情感識別技術(shù)。法案建立了多方利益相關者監(jiān)督機構(gòu),包括協(xié)調(diào)政策的歐洲人工智能委員會(European Artificial Intelligence Board)、負責執(zhí)法的國家市場監(jiān)督機構(gòu),以及保護基本權(quán)利的專門機構(gòu),用于處理違規(guī)行為。
https://www.jdsupra.com/legalnews/ai-talks-understanding-the-eu-ai-act-ai-6155325/
XAI評估指標:AI透明化之路上的缺失拼圖
從Netflix推薦到醫(yī)療和金融等高風險決策,算法幾乎無所不在。但一個問題始終揮之不去:AI為什么會做出這樣的決定?這正是可解釋人工智能(XAI)的研究領域試圖回答的問題,其目標是揭開機器學習模型的“黑箱”。然而,正如論文《Bridging the Gap in XAI—The Need for Reliable Metrics in Explainability and Compliance》所深刻揭示的那樣,用于解釋AI決策的方法本身也充滿了不一致性、脆弱性,并且缺乏標準化。
論文的核心觀點指出:XAI評估指標目前支離破碎、主觀化,甚至容易被操縱。忠實性(解釋是否真實反映模型的決策過程)、魯棒性(解釋在不同輸入條件下的一致性)和可用性(解釋是否對用戶有意義)仍然只是理想,而非標準化的基準。作者認為,這種缺乏可靠指標的問題不僅是學術(shù)上的不便,更是阻礙XAI在醫(yī)療、金融等高風險領域部署的障礙。像《歐盟人工智能法案》(EU AI Act)這樣的監(jiān)管框架要求透明度和問責制,但現(xiàn)有工具遠遠無法滿足這些法律標準。
論文并未止步于批評,而是提出了解決方案。首先,開發(fā)防篡改指標,避免通過調(diào)整超參數(shù)操縱結(jié)果。其次,創(chuàng)建針對醫(yī)療或金融等行業(yè)的領域?qū)S没鶞?。最后,設計可擴展的評估方法,以應對現(xiàn)代龐然大物般的大語言模型(LLMs)和多模態(tài)系統(tǒng)。論文最具創(chuàng)新性的貢獻之一是強調(diào)防篡改評估指標的重要性。目前的方法可以通過調(diào)整超參數(shù)或選擇性結(jié)果來操縱——這種做法嚴重削弱了對XAI系統(tǒng)的信任。作者建議在評估框架中引入對抗測試和定期驗證機制,以確保其完整性。
https://arxiv.org/pdf/2502.04695
大模型與基礎建設
ParetoQ:將大模型壓縮到極限的藝術(shù)
在人工智能領域,追求效率的腳步從未停止。如何讓大型語言模型(LLMs)變得更小、更快、更智能,始終是研究者們的目標。而ParetoQ的出現(xiàn),標志著量化感知訓練(QAT)的新紀元。由Meta研究團隊提出的這一框架,不僅僅是對低比特量化技術(shù)的簡單優(yōu)化,而是重新定義了整個低比特量化的規(guī)則。
ParetoQ是首個系統(tǒng)性框架,可在1比特、1.58比特、2比特、3比特和4比特量化設置下進行嚴格比較。通過五個維度(模型大小、標記數(shù)量、量化精度、訓練策略、量化函數(shù))形式化了量化感知訓練的縮放法則。研究發(fā)現(xiàn),在2比特和3比特之間的學習行為有顯著轉(zhuǎn)變:對于3比特及以上,微調(diào)后的模型接近其原始預訓練分布;對于2比特及以下,模型表示發(fā)生顯著變化,需要不同的訓練策略。
針對每種比特寬度,ParetoQ設計了不同的量化函數(shù):1比特采用彈性二值化,1.58比特和2比特采用拉伸彈性量化(SEQ),3比特和4比特采用學習步長量化(LSQ)。實施步驟包括定義縮放法則的搜索空間、為每種比特寬度優(yōu)化訓練策略和標記數(shù)量、確定最佳量化函數(shù),并使用ParetoQ框架在各種比特寬度下訓練模型。
實驗結(jié)果表明,亞4位量化(1.58位、2位和3位)通常在每單位模型大小的準確性上優(yōu)于4位。例如,一個2位MobileLLM-1B模型,其準確性高于一個4位MobileLLM-600M模型,同時模型大小更小。在硬件限制方面,優(yōu)化后的2位內(nèi)核在速度提升方面優(yōu)于更高精度格式。與現(xiàn)有方法相比,ParetoQ在PTQ(后訓練量化)和QAT方法中均優(yōu)于專為單一比特設置設計的方法。
https://www.arxiv.org/pdf/2502.02631
獎勵引導的推測解碼:重新定義AI推理效率
論文《獎勵引導的推測性解碼以實現(xiàn)高效的 LLM 推理》介紹了一種名為獎勵引導的推測性解碼 (RSD) 的新穎框架,旨在提高大型語言模型 (LLM) 推理的效率,尤其是在復雜的推理任務中。RSD 策略性地結(jié)合了一個較小、更快的“草稿模型”和一個更強大的“目標模型”。與嚴格旨在實現(xiàn)無偏性的現(xiàn)有推測性解碼方法不同,RSD 融入了受控偏差,以優(yōu)先生成高質(zhì)量的輸出。
RSD 的核心要素包括草稿模型、目標模型和過程獎勵模型。草稿模型是一個較小、更快的 LLM,可以快速生成潛在的下一個詞(令牌),而目標模型是一個更大、更強大的 LLM,用于驗證和糾正草稿模型的猜測。過程獎勵模型是 RSD 的關鍵創(chuàng)新,它評估草稿模型在解碼過程期間建議的令牌的“優(yōu)良性”?;讵剟钚盘?,RSD 動態(tài)決定在每個步驟中使用草稿模型還是目標模型。高獎勵意味著草稿令牌被認為是好的,從而通過避免使用目標模型來節(jié)省計算量;低獎勵則更依賴目標模型來確保準確性。
與傳統(tǒng)推測性解碼方法不同,RSD 有意使用獎勵模型引入受控偏差,旨在高效地生成高質(zhì)量的輸出。論文通過數(shù)學分析支持 RSD 框架,表明基于獎勵接受草稿令牌的基于閾值的策略可以最佳地平衡資源使用和性能。
實施 RSD 的步驟包括訓練或選擇草稿和目標 LLM、開發(fā)過程獎勵模型、實施 RSD 解碼算法以及優(yōu)化閾值和參數(shù)。實驗結(jié)果顯示,RSD 在推理任務中實現(xiàn)了高達 4.4 倍的加速,并在準確性方面優(yōu)于標準推測性解碼方法和并行解碼,實現(xiàn)了高達 +3.5% 的改進。此外,RSD 在一系列具有挑戰(zhàn)性的推理基準測試中表現(xiàn)出強大的結(jié)果,表明其普遍適用于復雜任務。
https://arxiv.org/pdf/2501.19324
PathE:通往知識圖譜高效嵌入之路
在龐大的知識圖譜(KG)世界中,數(shù)十億個節(jié)點和邊構(gòu)成了人類知識的結(jié)構(gòu)化表達。如何高效地表示和推理這些龐大的數(shù)據(jù)集,成為了一個顯而易見的挑戰(zhàn)。盡管傳統(tǒng)的知識圖譜嵌入(KGE)方法被視為解決方案,但它們也面臨著一個關鍵問題——可擴展性。隨著KG規(guī)模的增長,存儲實體嵌入所需的內(nèi)存和計算資源變得難以承受。然而,PathE的出現(xiàn)改變了這一切。這種新穎的方法放棄了傳統(tǒng)實體嵌入的負擔,轉(zhuǎn)而采用基于路徑的輕量化方法。這不僅僅是一個調(diào)整,而是一場范式轉(zhuǎn)變。
PathE的核心是一種與實體無關的KGE方法,通過關系路徑動態(tài)計算實體嵌入,而不是存儲每個實體的嵌入。相比傳統(tǒng)方法,它僅關注關系,這些關系定義了KG的結(jié)構(gòu)。PathE的工作原理包括路徑生成、節(jié)點投影器、路徑建模、路徑聚合和預測頭。首先,利用隨機游走從每個實體中挖掘出獨特的關系路徑,這些路徑提供了關于實體鄰域的豐富上下文信息。然后,通過多層感知機(MLP)將這些關系上下文投影到連續(xù)空間中,生成初始嵌入。接著,使用Transformer編碼器處理這些路徑,捕捉依賴關系和上下文細節(jié)。之后,通過平均或基于Transformer的聚合策略,將多個路徑表示聚合為頭實體和尾實體的單一嵌入。最后,分別用于關系預測(多分類任務)和鏈接預測(二分類任務)。
PathE在基準數(shù)據(jù)集上實現(xiàn)了最先進的關系預測性能,并在鏈接預測方面表現(xiàn)出有競爭力的性能,尤其是在路徑信息豐富的知識圖譜上。該模型具有參數(shù)效率,與現(xiàn)有的參數(shù)高效方法相比,需要的參數(shù)顯著減少(根據(jù)搜索結(jié)果中提到的論文摘要,減少了不到25%)。此外,PathE可以在消費級硬件上進行訓練,突顯了其在實際應用中的實用性。消融研究和超參數(shù)分析驗證了模型的設計選擇和魯棒性。
https://arxiv.org/pdf/2501.19095
分層鏈式思維提示:可解釋人工智能新時代,還是復雜性的又一層?
Layered Chain-of-Thought Prompting for Multi-Agent LLM Systems: A Comprehensive Approach to Explainable Large Language Models提出了一種新型框架——分層鏈式思維提示(Layered Chain-of-Thought, Layered-CoT),旨在提升大型語言模型(LLMs)的推理能力。該框架將推理過程劃分為多個可驗證的層級,解決了傳統(tǒng)鏈式思維提示(Vanilla CoT)的局限性。這些局限包括中間推理步驟未經(jīng)驗證以及缺乏用戶交互,這可能導致事實錯誤和降低高風險應用中的可信度,例如醫(yī)療、金融和敏捷工程。
傳統(tǒng)的思維鏈(CoT)提示雖然對單個LLM有效,但不足以解釋多智能體LLM系統(tǒng)的行為。這些系統(tǒng),其中多個LLM相互交互和協(xié)作,需要一種更結(jié)構(gòu)化的方法來解釋它們的集體推理。分層思維鏈(LCT)提示背后的核心原則是模仿人類團隊合作的層次性。正如團隊有不同層次的專業(yè)知識和溝通一樣,LCT構(gòu)建提示以引發(fā)不同抽象層次的推理。
LCT涉及創(chuàng)建分層提示結(jié)構(gòu)。在最高層,一個“管理者”智能體可以定義總體任務。較低層可能涉及專門負責子任務的“專家”智能體。提示旨在促進這些層之間的溝通和信息流動,從而實現(xiàn)更透明和可解釋的推理過程。每一層都生成其自己的“思維鏈”,從而有助于形成整體解決方案。實施步驟包括將復雜問題分解為子問題,針對每個子問題生成部分推理鏈,使用外部數(shù)據(jù)或用戶反饋驗證中間輸出,如果發(fā)現(xiàn)矛盾或遺漏,則修正部分結(jié)論,驗證通過后進入下一層,直至完成最終任務。
https://arxiv.org/pdf/2501.18645
技術(shù)與研發(fā)
RandLoRA:讓 PEFT 再次智能化--無需全參數(shù)價格的全量功能
LoRA,通過引入低秩矩陣來捕獲特定于任務的信息,實現(xiàn)了參數(shù)效率,通常以顯著減少的可訓練參數(shù)數(shù)量實現(xiàn)了與全微調(diào)相當?shù)男阅堋H欢?,一些研究表明,與全微調(diào)相比,LoRA,尤其是在較低秩的情況下,在復雜任務或持續(xù)學習場景中可能表現(xiàn)出局限性。相比之下,RandLoRA 提出了一種更強大的方法。不妨將其想象成組建一支由隨機的、低秩專家組成的精英團隊,每個人都擁有一點專業(yè)知識。然后,RandLoRA 學會協(xié)調(diào)這些專家,巧妙地結(jié)合他們有限的技能,來實現(xiàn)全秩的自適應。它不是直接學習低秩更新,而是學習如何縮放和混合一組預設的隨機低秩矩陣。
RandLoRA 的創(chuàng)新在于使用隨機低秩矩陣的組合作為自適應的基礎來解決 LoRA 的局限性。與 LoRA 中僅有的兩個學習到的低秩矩陣不同,RandLoRA 使用多個非可訓練的隨機低秩矩陣。然后,它學習如何線性組合這些隨機矩陣以實現(xiàn)所需的權(quán)重更新。至關重要的是,RandLoRA 僅優(yōu)化用于此組合的對角縮放矩陣,在保持可訓練參數(shù)數(shù)量較少的同時,實現(xiàn)了全秩更新。理論上,全秩更新允許更靈活和更具表現(xiàn)力的微調(diào),與低秩更新相比,有可能捕獲更細致的任務特定信息。RandLoRA 旨在彌合 LoRA 的效率和全微調(diào)的表現(xiàn)力之間的差距。
通過僅訓練對角縮放矩陣,RandLoRA 保持了與 LoRA 相當?shù)膮?shù)效率,盡管實現(xiàn)了全秩更新。這是關鍵優(yōu)勢——在不增加全微調(diào)參數(shù)數(shù)量的情況下,更接近全微調(diào)的性能。RandLoRA 的實施步驟包括生成隨機低秩基、與學習到的縮放系數(shù)進行線性組合、優(yōu)化縮放矩陣以及應用更新。論文提供了跨視覺、語言和視覺-語言任務的經(jīng)驗證據(jù)。RandLoRA 展示了相對于 LoRA 的性能改進,尤其是在視覺-語言任務中,通??s小了與全微調(diào)的差距。結(jié)果表明,RandLoRA 以相似的可訓練參數(shù)數(shù)量實現(xiàn)了與 LoRA 相當或更好的性能。該論文表明 RandLoRA 可以減輕過擬合,特別是在視覺-語言模型中,這可能是由于與全微調(diào)相比,優(yōu)化空間受到限制。
https://arxiv.org/pdf/2502.00987
為何想太多反而可能搞砸?
該論文由來自加州大學伯克利分校、瑞士聯(lián)邦理工學院、伊利諾伊大學香檳分校、卡耐基梅隆大學等機構(gòu)的研究者共同完成,關注點是“大型推理模型(LRMs)”,它們是大語言模型(LLMs)的進化版本,特別強調(diào)分步推理和自我糾正能力。論文選取了軟件工程任務作為實驗證明環(huán)境,這些任務具有高度的“代理性”,即要求模型理解問題、修改代碼并處理環(huán)境實時反饋。
傳統(tǒng)LLM已在多個領域得到研究,但當涉及更深層次的推理或“思考”時,往往缺少整合交互式或具備代理性的反饋循環(huán)。在類似自動解決GitHub Issue之類的代理環(huán)境中,模型必須在行動與內(nèi)部思考之間做決策。而如何平衡好這兩者至關重要。
模型在是“立刻執(zhí)行操作”還是“繼續(xù)進行內(nèi)部推理”之間存在抉擇。論文認為,過度偏向內(nèi)部推理會導致模型陷入“過度思考”——與真實環(huán)境反饋的必要交互不足。作者將“過度思考”界定為嚴重依賴內(nèi)部推理,卻未充分利用或融合環(huán)境反饋的傾向。通過對數(shù)千條AI代理日志的分析,他們展示了“過度思考”與在軟件工程任務中性能下降之間的強相關性。
當模型大量“模擬”內(nèi)部推理,卻不真正與環(huán)境交互,就會出現(xiàn)“過度思考”。表現(xiàn)形式包括分析癱瘓、越權(quán)行動和過早退出。雖然LRMs擅長生成“思路鏈”,但當必須做出實際交互時,必須權(quán)衡“立刻做動作”vs.“再思考一輪”的代價。如果內(nèi)部推理過度膨脹,得到的結(jié)果可能并非真實環(huán)境中可行的策略,尤其當環(huán)境反饋被忽視。
實驗框架包括SWE-Bench Verified與OpenHands?;鶞什杉哉鎸岹itHub上的編程Issues,涉及非平凡的bug修復、功能添加等,需要若干步驟才能解決。OpenHands框架允許模型提交代碼修改、運行測試并獲取結(jié)果。研究者能記錄模型的每一步動作與反饋。過度思考分數(shù)用于評估每條“代理軌跡”,數(shù)值越高,代表模型越傾向使用內(nèi)部推理替代真實交互。
實驗設置包括19個模型,規(guī)模從7B到~670B不等,既有開源亦有閉源,也有是否支持函數(shù)調(diào)用及是否是“推理優(yōu)化”模型之分。收集數(shù)據(jù)針對3908條模型-任務的運行過程,每條都有最終成敗結(jié)果和“過度思考分數(shù)”標注。
https://arxiv.org/pdf/2502.08235
AI研究革命:Perplexity的深度研究如何重新定義知識探索
Perplexity AI 推出了其“深度研究”功能,這是一款旨在提供專家級深入研究報告的免費增值工具。該工具通過可靠的引用提供詳細答案,主要面向?qū)I(yè)和學術(shù)使用場景。此功能利用迭代推理和先進算法,從海量信息源中自主搜索、分析和綜合信息,模擬人類的研究過程。它目前可通過網(wǎng)頁訪問,并計劃很快擴展到移動端和桌面平臺。Perplexity 的深度研究與 OpenAI 和 Google 的類似產(chǎn)品形成競爭,但通過更快的處理速度和更友好的定價模式脫穎而出。在嚴格的“人類最后考試”(Humanity's Last Exam)基準測試中,該工具得分為21.1%,超越了大多數(shù)競爭對手,僅次于 OpenAI 的版本。
Perplexity 的深度研究采用名為 Test Time Compute (TTC) 擴展的專有框架,能夠迭代優(yōu)化查詢并綜合結(jié)果。這種方法模仿了人類認知過程,為復雜主題提供分層分析。該工具在“人類最后考試”中取得了21.1%的得分,超越了 Google Gemini(6.2%)和 Grok-2(3.8%),但略低于 OpenAI 的深度研究(26.6%)。與 OpenAI 每月200美元的訂閱模式不同,Perplexity 提供有限每日查詢的免費版本,以及每月20美元的專業(yè)訂閱版以獲取無限訪問權(quán)限。報告生成時間為2-4分鐘,比 OpenAI 的5-30分鐘處理時間顯著更快。該工具專為金融、市場營銷、產(chǎn)品研究和新聞領域的專業(yè)人士設計,提供帶有內(nèi)嵌引用的結(jié)構(gòu)化摘要。
深度研究功能的推出反映了對高效處理復雜研究任務的AI工具日益增長的需求。隨著各行業(yè)越來越依賴數(shù)據(jù)驅(qū)動決策,像 Perplexity 深度研究這樣的工具滿足了快速綜合海量信息而不犧牲準確性或深度的需求。這一創(chuàng)新也突顯了 AI 研究工具競爭格局,其中速度、可及性和成本效益是關鍵差異化因素。Perplexity 專注于可及性,通過提供免費版本,將自己定位為 AI 研究領域的民主化力量。通過降低進入門檻,它吸引的不僅是企業(yè)用戶,也包括缺乏資源支付高額訂閱費用的個人用戶。
AI 研究工具的發(fā)展揭示了以下幾方面的矛盾:盡管 Perplexity 在快速生成報告方面表現(xiàn)出色,但與 OpenAI 相比,其分析深度有所欠缺。Perplexity 的免費增值模式與 OpenAI 的高端定價形成鮮明對比,引發(fā)了關于高級技術(shù)公平獲取的問題。批評者警告稱,過度依賴 AI 工具可能會抑制人類在研究過程中的創(chuàng)造力和批判性思維。Perplexity 的深度研究在民主化獲取高質(zhì)量研究能力方面邁出了重要一步。其速度和經(jīng)濟性使其成為各個領域用戶(從學術(shù)界到新聞業(yè))的有吸引力選擇。然而,其局限性也凸顯出在人類監(jiān)督下解讀 AI 生成見解的重要性。在更廣泛的 AI 發(fā)展背景下,這一創(chuàng)新反映出從通用型聊天機器人向更專業(yè)化應用轉(zhuǎn)變的趨勢。通過專注于專業(yè)使用場景,Perplexity 與對提升生產(chǎn)力但不取代人類專業(yè)知識需求日益增長保持一致。
https://techcrunch.com/2025/02/15/perplexity-launches-its-own-freemium-deep-research-product/
PreGPT 2.0:去中心化AI聊天機器人挑戰(zhàn)科技巨頭壟斷
去中心化搜索引擎Presearch推出了升級版隱私保護AI聊天機器人PreGPT 2.0,旨在提供無偏見、無過濾、無審查的響應。該工具基于Venice.ai的基礎設施和去中心化GPU網(wǎng)絡運行,確保聊天內(nèi)容不被存儲且所有交互均加密。PreGPT 2.0具備默認不用于訓練數(shù)據(jù)的政策以及多語言支持等功能,旨在通過賦予用戶自主權(quán)、隱私保護和透明性,顛覆科技巨頭的主導地位。通過經(jīng)濟實惠的訂閱計劃提供服務,PreGPT 2.0被定位為AI助手領域的顛覆性產(chǎn)品。
PreGPT 2.0優(yōu)先考慮用戶隱私,通過加密所有交互并確保數(shù)據(jù)不被存儲或用于訓練模型。它依托去中心化計算網(wǎng)絡,利用分布式GPU,避免依賴集中式云服務提供商。不同于常被批評為存在企業(yè)或政府偏見的主流AI系統(tǒng),PreGPT 2.0在廣泛主題上提供公正的見解。聊天機器人支持開放討論,從歷史事件到哲學辯論均無隱藏議程。多語言支持和更新的訓練數(shù)據(jù)提升了工具的可訪問性和相關性。提供兩種訂閱層級:基礎版(每月2美元)和專業(yè)版(每月5美元),專業(yè)版包含高級無審查模型和更新的數(shù)據(jù)集。
通過將PRE代幣作為支付選項之一(同時支持法幣),Presearch將其收入模式與Web3理念對齊。去中心化方法降低了成本,同時為未來增長建立了可持續(xù)框架。PreGPT 2.0不僅僅是一款AI聊天機器人;它是對科技巨頭壟斷實踐的一種反抗,也是對更公平數(shù)字未來的一種愿景。通過優(yōu)先考慮隱私、去中心化和無偏見交互,它為用戶提供了一種符合現(xiàn)代自主權(quán)與透明性價值觀的替代方案。盡管仍面臨諸多挑戰(zhàn)——特別是在可擴展性和市場滲透方面——該平臺以創(chuàng)新方式定位自己,有潛力成為人工智能領域的重要顛覆者。它是成為主流成功案例還是僅停留在小眾解決方案,將取決于其如何適應不斷變化的消費者需求和行業(yè)動態(tài)。
https://www.globenewswire.com/news-release/2025/02/10/3023728/0/en/Decentralized-Search-Engine-Presearch-Launches-Powerful-New-Privacy-Centric-AI-Chatbot-PreGPT-2-0.html
AI合作科學家:科研的未來,還是高科技實驗室助手?
谷歌推出了其突破性的“AI合作科學家”(AI Co-Scientist),這是一種旨在徹底改變科學研究的先進人工智能系統(tǒng)。基于Gemini 2.0框架構(gòu)建,這個多代理AI系統(tǒng)被設計用來幫助研究人員生成新的假設、設計實驗方案,以及綜合海量的科學文獻。通過利用一系列專門的代理(如生成、反思和排名等),該AI系統(tǒng)模擬了科學方法,通過自動化反饋循環(huán)不斷優(yōu)化輸出。早期試驗表明,它能夠顯著縮短研究時間,將傳統(tǒng)上需要數(shù)年完成的問題解決時間縮短至幾天。例如,它成功提出了急性髓性白血?。ˋML)的新藥物再利用候選方案,并在短短兩天內(nèi)發(fā)現(xiàn)了一種細菌基因轉(zhuǎn)移機制,而這一過程通常需要人類研究者十多年。
盡管前景光明,AI合作科學家并非旨在取代人類研究人員,而是作為一種協(xié)作工具。目前,該系統(tǒng)僅通過谷歌的“可信測試者計劃”(Trusted Tester Program)向特定研究人員開放。盡管初步結(jié)果令人鼓舞,但仍存在一些局限性,例如需要改進事實核查和擴大規(guī)模驗證。AI合作科學家可以在數(shù)小時或數(shù)天內(nèi)生成可測試的假設,而人類團隊通常需要數(shù)周甚至數(shù)年。例如,它識別了AML的潛在治療方法,并通過計算生物學和濕實驗室實驗進行了驗證。該系統(tǒng)采用了專門的代理(如進化和元評審代理)協(xié)作工作,模仿科學方法。這種方法使計算資源能夠動態(tài)擴展,并迭代優(yōu)化研究目標。
通過諸如Elo自動評估等指標,AI不斷提升其推理能力,確保隨著時間推移輸出質(zhì)量更高。與完全自主的系統(tǒng)不同,AI合作科學家允許研究人員輸入初始想法、提供反饋并指導研究過程,從而確保人類專業(yè)知識仍然是核心。AI已經(jīng)在藥物再利用和細菌進化等多個領域進行了測試,其表現(xiàn)與傳統(tǒng)方法相當甚至更優(yōu)。AI合作科學家的開發(fā)反映了多個趨勢的交匯:現(xiàn)代研究往往需要處理海量數(shù)據(jù)集和跨學科知識。傳統(tǒng)方法難以跟上這種復雜性的步伐。Gemini 2.0框架代表了推理型AI模型的一次飛躍,使系統(tǒng)能夠超越簡單的數(shù)據(jù)分析,生成原創(chuàng)見解。面對抗微生物耐藥性和氣候變化等全球挑戰(zhàn),迫切需要能夠“以更少資源完成更多任務”的工具。谷歌強調(diào)協(xié)作而非替代,以應對關于AI取代人類工作的倫理擔憂,同時提高生產(chǎn)力。
https://www.pharmtech.com/view/google-launches-ai-co-scientist-system
Gemini的未來飛躍:谷歌AI記憶升級如何重新定義聊天機器人格局
谷歌為其Gemini Advanced AI聊天機器人引入了一項突破性的更新,使其能夠記住過去的對話。這一新功能向Google One AI高級計劃的訂閱用戶開放,允許Gemini引用之前的討論,總結(jié)先前的聊天內(nèi)容,并在持續(xù)的項目上進行擴展。用戶可以通過審查或刪除存儲的互動內(nèi)容來控制AI的記憶。這一發(fā)展使Gemini與OpenAI的ChatGPT和Anthropic的Claude等競爭對手看齊,這些平臺早已提供持久記憶功能。目前,該功能僅支持英語,但將在未來幾周內(nèi)擴展到其他語言和企業(yè)用戶。
記憶升級使Gemini成為一個更加具備上下文感知能力的對話伙伴。Gemini能夠記住早期聊天中的細節(jié),消除了重復指令的需要,并提升了在編程、研究和項目管理等任務中的效率。系統(tǒng)在引用過去互動時會通知用戶,確保存儲數(shù)據(jù)的倫理使用。用戶可以通過“My Activity”管理記憶設置,包括完全禁用記憶的選項。這一更新標志著AI可用性的重要飛躍,尤其是對于需要連續(xù)性的長期項目。通過根據(jù)用戶偏好和之前互動量身定制響應,它還增強了個性化服務。
此次升級解決了谷歌AI產(chǎn)品中的一個關鍵短板。盡管Gemini在多模態(tài)能力(如文本、圖像和視頻處理)方面表現(xiàn)出色,但在對話記憶功能上落后于ChatGPT等競爭對手。持久記憶被越來越多地視為高級AI系統(tǒng)的必要功能,使其能夠提供無縫且富有上下文的長期互動。通過引入這一功能,谷歌旨在鞏固其在競爭激烈的AI領域中的地位,并滿足用戶對更智能、更直觀虛擬助手日益增長的需求。
https://www.androidpolice.com/gemini-advanced-chat-recall/
GPT-5與人工智能的未來:OpenAI在競爭加劇中的戰(zhàn)略轉(zhuǎn)型
2025年2月12日,OpenAI首席執(zhí)行官山姆·阿爾特曼(Sam Altman)宣布了公司路線圖的重要更新。OpenAI計劃在數(shù)周內(nèi)推出GPT-4.5,并在數(shù)月內(nèi)發(fā)布GPT-5。這些更新反映了公司向簡化產(chǎn)品線方向的戰(zhàn)略轉(zhuǎn)型。原本計劃作為獨立發(fā)布的o3模型被整合到GPT-5中,以創(chuàng)建一個統(tǒng)一的人工智能系統(tǒng)。阿爾特曼強調(diào),此舉旨在消除“模型選擇器”的復雜性,提供“神奇的統(tǒng)一智能”。GPT-4.5將是最后一個不具備鏈式思維(Chain-of-Thought, CoT)推理功能的模型,而GPT-5預計將集成語音交互、多模態(tài)功能(文本、圖像和視頻)以及更強大的推理能力。
這一公告發(fā)布之際,OpenAI正面臨來自競爭對手(如DeepSeek)的激烈挑戰(zhàn)。DeepSeek推出的R1模型以更低的成本提供了類似的功能,這對OpenAI的市場地位構(gòu)成威脅。此外,OpenAI還面臨著管理其日益復雜的產(chǎn)品線的內(nèi)部挑戰(zhàn)。公司計劃將GPT-5應用于ChatGPT和API服務,并根據(jù)訂閱級別為用戶提供不同的訪問權(quán)限。
通過將o3等技術(shù)整合到GPT-5中,OpenAI旨在簡化產(chǎn)品線并提供更流暢的用戶體驗。GPT-5預計將具備多模態(tài)能力(文本、圖像、視頻)、語音交互、集成搜索工具以及深度研究功能。從非CoT模型(如GPT-4.5)向CoT模型(如GPT-5)的過渡標志著處理復雜推理任務的一大飛躍。根據(jù)訂閱級別,用戶可以訪問不同層次的智能——免費用戶獲得標準智能,Plus訂閱者獲得高級智能,而Pro訂閱者則可使用最高級別的智能。DeepSeek推出的R1模型以低成本擾亂市場,挑戰(zhàn)了OpenAI的主導地位。
EvoFlow:實時進化多樣化智能工作流
近期大語言模型(LLM)驅(qū)動的智能系統(tǒng)已從手動設計轉(zhuǎn)向自動化工作流,但現(xiàn)有方法往往缺乏多樣性和成本效益。EvoFlow通過引入小生境進化算法框架來優(yōu)化異構(gòu)、復雜度自適應的工作流,解決了這些局限性。
EvoFlow的關鍵原則包括多目標優(yōu)化、層次化搜索空間和進化算子。多目標優(yōu)化將智能工作流設計重構(gòu)為帕累托優(yōu)化問題,平衡性能和成本以生成非支配解。層次化搜索空間通過調(diào)用節(jié)點和運算符節(jié)點構(gòu)建工作流,實現(xiàn)LLM骨干網(wǎng)絡、提示詞和交互拓撲的模塊化組合。進化算子包括基于標簽的檢索、交叉/變異和小生境選擇,通過任務特定嵌入的余弦相似度匹配工作流和查詢,并通過LLM/提示詞替換或拓撲變化組合父工作流并引入變異。
EvoFlow的工作流進化過程包括種群初始化和迭代優(yōu)化。種群初始化使用預定義的運算符模板在異構(gòu)LLM上初始化工作流。迭代優(yōu)化對每個查詢通過標簽相似度檢索前K個工作流,通過交叉和變異生成后代,并在成本-性能聚類內(nèi)使用小生境選擇更新種群。
實驗結(jié)果表明,EvoFlow在六個基準測試中超越14個基線,以GPT-4o-mini 12.4%的推理成本實現(xiàn)更優(yōu)性能??缬蛴柧毐葐斡騼?yōu)化提升了4.19%的性能,展示了良好的適應性。
EvoFlow的主要創(chuàng)新包括異構(gòu)LLM集成、復雜度自適應工作流和自動化多樣性保持。異構(gòu)LLM集成動態(tài)組合較弱的開源模型以1/8的成本超越單體模型。復雜度自適應工作流維護從單I/O智能體到多運算符集成的帕累托前沿解,實現(xiàn)查詢特定的資源分配。自動化多樣性保持通過小生境機制防止收斂到局部最優(yōu),保留在不同任務子空間中表現(xiàn)優(yōu)異的工作流。
https://arxiv.org/pdf/2502.07373
人工智能的美麗競賽:當機器超越人類
在經(jīng)濟學和博弈論領域,凱恩斯美麗競賽長期以來被用作測試人類戰(zhàn)略推理能力的試金石。但當人工智能(AI)加入競爭時會發(fā)生什么?研究論文《與人工智能策略化:來自美麗競賽實驗的洞察》由Dmitry Dagaev、Sofia Paklina和Petr Parshakov撰寫,探討了這一引人入勝的問題。通過讓大型語言模型(LLMs)參與一系列戰(zhàn)略猜測游戲,該研究揭示了AI在模擬人類行為方面的能力和局限性。
凱恩斯美麗競賽本質(zhì)上是一個看似簡單的游戲。玩家需要猜測一個最接近所有玩家選擇數(shù)字均值某一比例(pp)的數(shù)字。理論上,理性玩家會通過迭代調(diào)整他們的猜測,最終收斂到零,即納什均衡。然而,人類很少以這種方式玩游戲——有限理性、認知偏差和情感因素通常導致偏離理論理想。
作者復現(xiàn)了16個經(jīng)典實驗場景,并讓五種最先進的LLMs參與其中:GPT-4o、GPT-4o Mini、Gemini-1.5-Flash、Claude-3.5-Sonnet和Llama-3.1-8B-Instruct-Turbo。這些模型在不同條件下(如pp值、聚合函數(shù)和對手類型)與虛擬對手組對決。目標是觀察AI能否模擬出類似人類的推理能力,甚至超越人類。
關鍵原則包括迭代推理、有限理性和策略適應性。迭代推理探索了層次化推理,即玩家根據(jù)對其他人策略的預測進行多層次推斷。有限理性指出,由于認知限制,人類決策通常偏離納什均衡。策略適應性則測試了LLMs根據(jù)對手復雜度調(diào)整策略的能力。
實施步驟包括定義游戲參數(shù)、使用提示向LLMs提供游戲場景并收集響應、分析結(jié)果是否符合納什均衡及比較靜態(tài)分析,以及比較不同模型的策略與人類數(shù)據(jù)。
主要發(fā)現(xiàn)包括:大多數(shù)LLMs比人類更接近納什均衡,選擇更低的數(shù)字;Llama模型表現(xiàn)出偏差,選擇更高的數(shù)字,與某些情況下的人類平均值更接近。除Llama外的四種模型能夠很好地適應游戲參數(shù)變化,如對手復雜度和組規(guī)模。模型識別戰(zhàn)略環(huán)境,但在兩人游戲中難以找到分析解。模型經(jīng)常使用“strategy”和“opponent”等詞,表明其參與了戰(zhàn)略推理,但如“dominant strategy”等概念很少被正確應用。GPT-4o變體和Claude Sonnet表現(xiàn)出一致的復雜性,Gemini Flash在策略調(diào)整方面表現(xiàn)良好,但偶爾高估對手推理能力,Llama表現(xiàn)靜態(tài),對實驗變化敏感性較低。
https://arxiv.org/pdf/2502.03158
應用與實踐
谷歌的冒險之舉:Gemini應用在iOS上的獨立突圍
谷歌正式將其AI助手Gemini從iOS版的Google主應用中移除,并引導用戶轉(zhuǎn)向App Store中的獨立Gemini應用。這一戰(zhàn)略旨在為iPhone用戶提供更專注和增強的AI體驗,同時將Gemini定位為ChatGPT、Claude和Perplexity等流行AI聊天機器人的直接競爭對手。獨立應用提供了諸多先進功能,包括實時語音交互的Gemini Live、文本生成圖像的Imagen 3,以及與Google服務(如搜索、YouTube、地圖和Gmail)的深度集成。然而,批評者警告稱,迫使用戶下載額外的應用可能會降低Gemini的覆蓋率,因為許多用戶可能不愿意做出這一改變。
新的Gemini應用提供了此前在Google主應用中無法使用的專屬功能,包括通過動態(tài)島和鎖屏實現(xiàn)實時語音交互的Gemini Live、先進的文本生成圖像功能Imagen 3,以及與Google服務的更深度整合,用于生產(chǎn)力和創(chuàng)意任務。用戶可以通過Google One AI高級計劃(每月18.99美元)升級到Gemini Advanced,解鎖如百萬級上下文窗口、優(yōu)先更新訪問以及下一代AI模型等功能。獨立應用將所有Gemini功能集中于一個平臺,簡化了用戶界面,并增加了對更多語言和功能的支持。通過將Gemini從Google主應用中分離,谷歌旨在將其提升為一個獨立產(chǎn)品,以與其他面向消費者的AI工具競爭。然而,批評者認為,這一舉措可能疏遠那些不愿下載額外應用的普通用戶,從而減少Gemini的用戶群體。
谷歌將Gemini轉(zhuǎn)型為獨立應用反映了其打造高價值AI產(chǎn)品的更廣泛戰(zhàn)略。這一轉(zhuǎn)變符合科技行業(yè)日益關注滿足特定用戶需求的高級AI體驗的趨勢。通過將Imagen 3和Gemini Live等高級功能僅限于獨立應用使用,谷歌顯然意在將Gemini定位為一個高端產(chǎn)品,而不僅僅是其生態(tài)系統(tǒng)中的另一個附加功能。這一舉措也凸顯了谷歌直接與OpenAI的ChatGPT及其他領先AI平臺競爭的雄心。與Siri或Alexa等通用助手不同,Gemini被設計為一個多模態(tài)強大的工具,可以處理文本、圖像和語音輸入等復雜查詢。通過從Google主應用中剝離,谷歌可以更快地迭代新功能,而不受主應用更新周期的限制。然而,這一策略也存在內(nèi)在風險。能夠在廣泛使用的Google主應用中訪問Gemini曾是其顯著優(yōu)勢之一。迫使用戶下載單獨的應用增加了操作門檻,這可能會阻礙那些未立即看到切換價值的普通用戶。
谷歌讓Gemini成為獨立應用既是一次機遇,也是一次冒險。一方面,它允許更快地進行創(chuàng)新,并將Gemini定位為能夠與ChatGPT等市場領導者競爭的高端產(chǎn)品。另一方面,它也面臨疏遠普通用戶、無法擴大用戶基礎的風險。如果成功,這一舉措可能重新定義消費者如何與AI助手互動,強調(diào)專業(yè)化功能而非通用便利性。然而,如果未能保留或擴大其用戶群體,則可能削弱谷歌在AI領域更廣泛的雄心。其影響超越了個人用戶:對開發(fā)者而言,Gemini的高級能力為將多模態(tài)AI集成到應用程序和服務中打開了新可能性;對企業(yè)而言,像Imagen 3這樣的工具為營銷和內(nèi)容創(chuàng)作提供了創(chuàng)新解決方案;對競爭對手而言,谷歌在高端AI體驗上的激進推進設定了創(chuàng)新的新標桿。
https://techcrunch.com/2025/02/19/google-pulls-gemini-from-main-search-app-on-ios/
Meta的AI轉(zhuǎn)型:人類工作崗位要過時了嗎?
Meta最近宣布了又一輪裁員,這次影響了3600名員工,這不僅僅是又一次公司重組。它是一個嚴峻的信號,預示著科技領域的一場巨大變革:人工智能的崛起及其重塑工作本質(zhì)的潛力。雖然Meta將其定義為重新聚焦于AI人才,但其潛在信息卻很明確:AI不再僅僅是一種工具;它還是一個競爭者。
文章強調(diào)了Meta明確的意圖,即加倍投入AI開發(fā)。這并不令人驚訝。像其他科技巨頭一樣,Meta認識到AI的變革潛力。從改善廣告定位到創(chuàng)造沉浸式的元宇宙體驗,AI都被視為打開未來增長之門的鑰匙。但對AI主導地位的追求是有代價的——人類的工作崗位。
這里的重要信息是裁員的規(guī)模與明確的對AI的關注相結(jié)合。這不僅僅是精簡運營;它是從根本上改變Meta的運作方式。該公司正在押注AI可以執(zhí)行許多目前由人類完成的任務,而且可能做得更好、更快、更便宜。
這種積極推進AI的根本原因是持續(xù)存在的創(chuàng)新壓力和保持在競爭前沿的壓力。在快速發(fā)展的科技世界中,未能擁抱AI的公司有可能被拋在后面。Meta在元宇宙上投入了巨資,需要AI來實現(xiàn)這一愿景。他們需要AI來創(chuàng)造引人入勝的體驗,個性化內(nèi)容,并最終吸引和留住用戶。
Meta的觀點很明確:AI是未來。他們愿意在AI開發(fā)上進行大量投資,即便這意味著裁掉很大一部分員工。他們將AI視為一種機遇,而不是一種威脅,以此來革新他們的業(yè)務,創(chuàng)造新的產(chǎn)品和服務。
https://www.forbes.com/sites/dimitarmixmihov/2025/02/10/ai-replacement-meta-cuts-3600-jobs-to-focus-on-ai-talent/
人工智能讓我們更聰明還是更愚笨?微軟研究引發(fā)深刻討論
微軟與卡內(nèi)基梅隆大學合作開展的一項新研究引發(fā)了對生成式人工智能工具(如ChatGPT和Microsoft Copilot)過度依賴的認知影響的擔憂。研究指出了一個悖論:雖然這些工具通過自動化日常任務提高了生產(chǎn)力,但它們可能導致批判性思維能力的下降。研究發(fā)現(xiàn),過度依賴AI進行問題解決的用戶往往缺乏深入的認知過程,從而在面對復雜或意外挑戰(zhàn)時表現(xiàn)不足。這種現(xiàn)象被稱為“認知萎縮”,凸顯了長期依賴AI可能帶來的風險。
研究強調(diào),自動化日常任務剝奪了人們練習判斷力和強化認知技能的機會。這種“自動化的諷刺”使用戶在面對例外情況時準備不足。過于依賴AI的工作者傾向于減少批判性思考,僅專注于驗證AI輸出,而不是深入?yún)⑴c任務。相比之下,那些較少依賴AI的人更有可能批判性地評估并改進AI生成的內(nèi)容。研究警告,學生在學習階段過度使用像ChatGPT這樣的AI工具可能會阻礙批判性思維的發(fā)展,使未來一代在進入職場時準備不足。
除了個人用戶,這些發(fā)現(xiàn)還引發(fā)了企業(yè)和教育機構(gòu)如何整合AI工具而不削弱基本認知技能的問題。研究還發(fā)現(xiàn),依賴生成式AI往往導致對同一問題產(chǎn)生較少樣化的解決方案,從而可能抑制創(chuàng)造力和創(chuàng)新。生成式AI工具的快速普及源于其提升效率和簡化復雜工作流程的能力。然而,這種便利是有代價的:用戶可能變得過于依賴這些工具,導致認知參與度下降。根本原因在于當前AI系統(tǒng)的設計,它們優(yōu)先完成任務,而非培養(yǎng)批判性思維或創(chuàng)造力。
https://www.windowscentral.com/software-apps/copilot-and-chatgpt-makes-you-dumb-new-microsoft-study
Google NotebookLM Plus:革新生產(chǎn)力的AI助手
Google將其AI驅(qū)動的筆記和研究助手NotebookLM Plus擴展至個人用戶,并納入Google One AI Premium訂閱計劃的一部分。該計劃提供高級功能,包括五倍的使用限制、更強的自定義選項,以及生成播客風格音頻摘要(Audio Overviews)的能力。訂閱價格為每月19.99美元(美國學生可享9.99美元優(yōu)惠價),還包括Gemini Advanced工具和2TB云存儲等福利。NotebookLM Plus旨在通過將上傳內(nèi)容轉(zhuǎn)化為可操作的洞察,簡化學生、專業(yè)人士和企業(yè)的工作流程。
NotebookLM Plus的增強功能包括:用戶現(xiàn)在可以創(chuàng)建最多500個筆記本(免費版為100個),每個筆記本可包含300個來源;每日限制包括500次聊天查詢和20次音頻摘要(免費版每日僅限3次音頻摘要);自定義選項允許用戶調(diào)整響應風格、輸出長度,甚至分享“僅聊天”筆記本并獲得使用分析數(shù)據(jù)。音頻摘要功能基于用戶上傳的內(nèi)容生成類似播客的討論,為理解復雜信息提供了一種更具吸引力的方式。用戶可以在這些音頻會話中與AI主持人互動,使體驗更加動態(tài)和個性化。
與Google One AI Premium的整合還包括Gmail、Docs等Workspace應用中的Gemini Advanced工具。學生享受50%的折扣,為期12個月,使先進AI工具對教育用途更加可及。NotebookLM Plus最初通過Google Workspace和Cloud面向企業(yè)推出,現(xiàn)在擴展至個人用戶,同時保留了企業(yè)級功能,如共享團隊筆記本和增強隱私保護。
NotebookLM Plus的擴展反映了Google在生產(chǎn)力和AI驅(qū)動工具市場中的戰(zhàn)略重點。隨著微軟將AI整合到Office 365以及OpenAI的ChatGPT日益流行,Google旨在通過提供融合生產(chǎn)力與高級AI功能的綜合工具脫穎而出。像音頻摘要這樣的功能迎合了現(xiàn)代用戶對節(jié)省時間解決方案的需求,尤其是在處理復雜信息時。通過為學生提供折扣計劃,Google正在培養(yǎng)年輕一代對其工具的早期采用,這些用戶可能成為長期用戶。這一舉措與Google將AI嵌入日常工作流程、滿足教育、商業(yè)和個人生產(chǎn)力多樣化需求的更廣泛目標一致。
https://www.zdnet.com/article/google-one-ai-premium-adds-popular-notebooklm-plus-at-no-extra-charge/
交叉與創(chuàng)新
職業(yè)夢想家:谷歌用AI開啟個性化職業(yè)探索的新篇章
谷歌推出了一款名為“Career Dreamer”(職業(yè)夢想家)的實驗性AI工具,旨在幫助用戶根據(jù)其獨特的技能、經(jīng)驗和興趣探索職業(yè)可能性。通過生成式AI,該工具創(chuàng)建“職業(yè)身份陳述”(Career Identity Statement, CIS),為用戶推薦潛在的職業(yè)路徑,并提供可轉(zhuǎn)移技能的洞察。用戶可以通過可視化界面探索職業(yè)選項,深入了解職位細節(jié),還能與谷歌的AI助手Gemini合作優(yōu)化簡歷或撰寫求職信。與LinkedIn等傳統(tǒng)求職平臺不同,Career Dreamer專注于職業(yè)探索,而非直接連接工作機會。目前,該工具僅在美國提供,目標用戶包括學生、退伍軍人以及重新進入職場的人群。
Career Dreamer 使用AI分析用戶背景,生成量身定制的職業(yè)建議,識別可轉(zhuǎn)移技能,并將其與各行業(yè)的潛在崗位連接起來。該工具幫助用戶撰寫簡潔的專業(yè)價值總結(jié),可用于簡歷或面試。這一功能對擁有非傳統(tǒng)職業(yè)路徑的人尤其有益。通過可視化界面,用戶可以瀏覽廣泛的職業(yè)選項,從緊密相關的角色到更具創(chuàng)意的建議。每個角色都包含平均薪資、所需資格和相關認證等詳細信息。谷歌的Gemini AI協(xié)助用戶根據(jù)目標崗位定制簡歷和求職信,簡化了求職流程。谷歌與支持多元群體(如學生、應屆畢業(yè)生、軍人家庭和成人學習者)的組織合作,確保該工具滿足不同需求。Career Dreamer 整合了 Lightcast 的勞動力市場數(shù)據(jù)和美國勞工統(tǒng)計局的工資統(tǒng)計,為用戶提供準確且可操作的見解。
Career Dreamer 的推出反映了谷歌致力于解決當今職場面臨的一項重大挑戰(zhàn):在不斷變化的就業(yè)市場中駕馭復雜的職業(yè)過渡。隨著個人在一生中預計會經(jīng)歷多個職位和不同領域——例如Z世代平均將擁有18份工作跨越6個職業(yè)——簡化這一過程的工具需求比以往任何時候都更為迫切。傳統(tǒng)的職業(yè)探索通常需要跨多個平臺進行零散搜索,這讓許多人感到不知所措或不確定自己的技能如何轉(zhuǎn)化為機會。Career Dreamer 填補了這一空白,為用戶提供一個一站式解決方案,不僅能識別潛在崗位,還能幫助用戶清晰地表達自己的專業(yè)價值。此外,該工具還與教育和就業(yè)領域日益強調(diào)基于技能招聘而非傳統(tǒng)資格認證的大趨勢相契合。通過關注可轉(zhuǎn)移技能而非僵化的職位名稱或?qū)W位要求,Career Dreamer 為來自多元背景的人群打開了通往新機會的大門。
https://techcrunch.com/2025/02/19/googles-career-dreamer-uses-ai-to-help-you-explore-job-possibilities/
Booking Holdings與生成式AI:重新定義旅行的未來
Booking Holdings(繽客控股),旗下?lián)碛蠦ooking.com、Priceline和Agoda等主要旅游品牌,正在全面擁抱生成式人工智能(GenAI),以徹底革新旅行體驗。首席執(zhí)行官Glenn Fogel將生成式AI視為公司長期增長戰(zhàn)略的核心,強調(diào)其在個性化旅行規(guī)劃和打造無縫連接體驗方面的變革潛力。關鍵創(chuàng)新包括AI驅(qū)動的工具,如智能篩選(Smart Filter)、物業(yè)問答(Property Q&A)和評論摘要(Review Summaries),這些功能通過根據(jù)個人偏好定制結(jié)果簡化了行程規(guī)劃。這些發(fā)展符合更廣泛的行業(yè)趨勢,生成式AI正在重塑旅行者與數(shù)字平臺的互動方式。此外,Booking Holdings報告了強勁的財務增長,包括收入和房間預訂量的大幅提升,反映了其AI驅(qū)動計劃的早期成功。
旅行者可以使用自然語言描述理想住宿(例如,“阿姆斯特丹有健身房和運河景觀的酒店”),生成式AI會掃描Booking.com的庫存,提供量身定制的結(jié)果。這消除了手動篩選的麻煩,提高了用戶便利性。物業(yè)問答功能允許用戶就具體住宿問題進行提問(例如,“這家酒店有電動車充電站嗎?”)。AI從房源信息、評論和照片中提取相關信息,提供即時答案,幫助用戶做出更自信的決定。通過將客戶評論濃縮為關鍵見解(例如停車可用性或無障礙設施),生成式AI使旅行者無需翻閱大量反饋即可快速評估住宿。
于2023年推出的AI行程規(guī)劃師提供行程建議、目的地見解,并基于實時因素(如天氣變化)主動調(diào)整行程,模擬人類旅行代理的個性化服務。除了面向客戶的工具外,Booking Holdings還在內(nèi)部利用AI優(yōu)化運營、提高客戶服務效率并逐步降低固定成本。這些創(chuàng)新不僅提升了用戶體驗,也為公司帶來了顯著的運營效率和財務增長。
https://www.pymnts.com/earnings/2025/amazon-overtook-walmart-in-quarterly-revenue-in-q4/
招聘 2.0:X0PA AI 的智能代理 AI 套件有望重塑招聘(但它會取代招聘人員嗎?)
總部位于新加坡的人工智能公司 X0PA AI 推出了其智能代理 AI 套件,該套件以人工智能驅(qū)動的代理為特色,旨在改變?nèi)瞬耪衅?。首批發(fā)布包括人工智能驅(qū)動的篩選專家 Alex 和招聘分析專家 Kate。這些代理可以自動化和簡化篩選流程,評估候選人的技能和文化契合度,并提供實時、數(shù)據(jù)驅(qū)動的洞察力,以支持戰(zhàn)略性招聘決策。X0PA AI 旨在優(yōu)化招聘流程,降低成本和縮短招聘時間,并最大限度地減少決策中的偏見。
X0PA AI 的智能代理 AI 套件引入了人工智能驅(qū)動的代理 Alex 和 Kate,旨在徹底改變?nèi)瞬耪衅?。Alex 通過分析數(shù)據(jù)點來評估技能、經(jīng)驗和文化契合度,從而自動執(zhí)行候選人篩選。Kate 通過預測分析和趨勢分析,為戰(zhàn)略性招聘決策提供實時、數(shù)據(jù)驅(qū)動的洞察力。智能代理 AI 套件建立在負責任、可解釋的人工智能原則之上,確保公平和透明。X0PA AI 已獲得 AI VERIFY 認證,這表明其致力于合乎道德的人工智能實踐。
X0PA AI 設想了一個由人工智能專家組成的系統(tǒng),他們與招聘人員一起從職位申請到入職協(xié)同工作。這種轉(zhuǎn)變旨在實現(xiàn)極簡的用戶體驗,從而減少最終用戶的認知負荷。X0PA AI 正在開發(fā)其他專門的代理,專注于候選人互動優(yōu)化、人才管道管理、面試情報和戰(zhàn)略性勞動力規(guī)劃。X0PA AI 的智能代理 AI 套件代表了人工智能驅(qū)動的人才招聘領域的重大進步。通過自動化和簡化招聘流程、減少偏見以及提供數(shù)據(jù)驅(qū)動的洞察力,X0PA AI 旨在徹底改變公司尋找和招聘人才的方式。雖然仍然存在挑戰(zhàn),但人工智能在人才招聘中的潛在好處是巨大的,并且 X0PA AI 已做好充分準備,可以在這個不斷發(fā)展的領域中發(fā)揮領導作用。
https://www.media-outreach.com/news/singapore/2025/02/12/360439/x0pa-ai-launches-revolutionary-agentic-ai-suite-for-talent-acquisition/
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內(nèi)容,歡迎評論區(qū)留言,或添加小助手微信questionlab,加入社群與我們互動。
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學研究機構(gòu)之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設立了應用神經(jīng)技術(shù)前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經(jīng)科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態(tài)系統(tǒng),項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎勵計劃、、等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.