速覽行業動態
1. OpenAI 開源 agent 網頁瀏覽基準 BrowseComp
2. 前OpenAI CTO新公司擬募資20億美元,或成科技史最大種子輪
3. ChatGPT 更新:可記住用戶過往所有對話信息
4.外媒消息:OpenAI 下周發布 GPT-4.1
5. OpenAI 核心團隊揭秘 GPT 4.5 預訓練過程
6. 宇樹機器人格斗,1 個月內開打
7. 《福布斯》發布 AI 50 強榜單
8. 揭露蘋果AI Siri發展困境:技術搖擺、團隊沖突致人才流失
9. 菲律賓應用欺詐:AI 產品實則為人工操作
10. 中國信通院牽頭的大模型基準測試ITU國際標準正式發布
1. OpenAI 開源 agent 網頁瀏覽基準 BrowseComp
OpenAI 開源了名為 BrowseComp 的新基準測試,旨在衡量 agent 在互聯網上定位難找信息的能力。現有基準測試已不能很好地發揮其作用,因為新的模型使測試結果達到了飽和狀態,BrowseComp 通過讓人類訓練員創建極具挑戰性、答案簡短且唯一的問題來進行測試,涵蓋多領域主題。OpenAI 希望通過開源 BrowseComp 推動更可靠的 AI 研究。
2. 前OpenAI CTO新公司擬募資20億美元,或成科技史最大種子輪
據 Business Insider 報道,由前 OpenAI 首席技術官 Mira Murati 創立的 Thinking Machines Lab 正尋求 20 億美元的種子輪融資。若成功,這將成為科技史上規模最大的種子輪之一。當前,AI 行業發展態勢備受爭議,華爾街對 CoreWeave 的首次公開募股反應不一,微軟也削減了部分 AI 基礎設施項目。在這樣的背景下,若 Murati 的公司成功籌集 20 億美元,將有力證明 AI 投資熱潮依舊強勁。
3. ChatGPT 更新:可記住用戶過往所有對話信息
OpenAI 宣布對 ChatGPT 進行重大功能更新,顯著擴展其定制和記憶能力。此次更新后,ChatGPT 能夠記住之前所有對話信息,并據此調整回復,實現更個性化的交互,用戶可以隨意啟用或禁用此功能。該功能目前率先向 ChatGPT Plus 和 Pro 用戶推出。
4.外媒消息:OpenAI 下周發布 GPT-4.1
據 The Verge 報道,OpenAI 計劃下周發布一系列新的人工智能(AI)模型,其中包括多模態模型 GPT-4o 的改良版——GPT-4.1,以及尺寸更小的 GPT-4.1 mini 和 nano 版本。同時發布 o3 完整版與 o4 迷你版。
消息人士稱,最近 OpenAI 由于產能問題延遲了一些新模型的推出,因此 GPT-4.1 的推出時間有可能比原定的下周要遲。此前,Altman 已提醒用戶新版本可能存在服務延遲與崩潰。
5. OpenAI 核心團隊揭秘 GPT 4.5 預訓練過程
OpenAI 在外網發布視頻“Pre-Training GPT-4.5”,主要討論了 OpenAI 訓練 GPT-4.5 的過程。涵蓋項目啟動、挑戰、團隊合作及有趣發現,還對未來進行了展望。
同時,奧特曼等人還探討了數據效率瓶頸需要探索算法創新、未來大規模 GPU 同步預訓練的可能性、更大預訓練模型與學習推理能力的關系、系統進步的限制因素,以及無監督學習有效的原因和度量指標的重要性等問題。
6. 宇樹機器人格斗,1 個月內開打
宇樹發布機器人 G1 拳擊視頻,在視頻中,G1 不僅展示了打沙袋,還和成年男子以及另外一臺 G1 機器人分別進行了對打。盡管 G1 被人類一腳踢倒,但還可以單手撐地很快站起來。視頻結尾顯示,他們將在近 1 個月左右開啟機器人格斗直播。
7. 《福布斯》發布 AI 50 強榜單
8. 揭露蘋果AI Siri發展困境:技術搖擺、團隊沖突致人才流失
The Information 發布的一篇文章揭露了蘋果 AI Siri 改版背后的內部混亂。文章凸顯了蘋果內部矛盾重重,隱私立場、領導不力、團隊沖突等問題。例如,蘋果在 Siri 后端開發上搖擺不定,從最初設想構建“Mini Mouse” 與 “Mighty Mouse” 雙模型,到決定采用單一大語言模型(LLM),多次技術轉向讓工程師受挫,部分人員離職
9. 菲律賓應用欺詐:AI 產品實則為人工操作
據 TechCrunch 報道,一位菲律賓金融科技創始人遭到欺詐指控,其所推出的 AI 購物應用,原本宣稱利用 AI 技術為用戶提供服務,卻被發現實際是菲律賓當地人工操作。這一欺詐行為已經誤導消費者,損害用戶權益,該公司創始人將面臨法律追責。
10. 中國信通院牽頭的大模型基準測試ITU國際標準正式發布
據財聯社消息,國際電信聯盟電信標準分局(ITU-T)于 2025 年 3 月正式發布 ITU-T F.748.44 基礎模型的評估標準:基準測試/ Assessment criteria for foundation models: Benchmark。該項國際標準由中國信息通信研究院牽頭制定,規范了大模型基準測試的指標要求和測試方法。
整理:錦鯉
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.