參考消息網4月7日報道 據香港《南華早報》網站4月6日報道,隨著公眾等待中國人工智能初創公司深度求索(DeepSeek)發布其下一代模型,該公司推出了一種提高大型語言模型(LLM)推理能力的新方法。
近日發表的一篇論文顯示,深度求索與清華大學的研究人員合作,開發了一種將“生成式獎勵建?!?GRM)和“自我原則點評調優”相結合的技術。這種雙重方法旨在使LLM能夠更好、更快地回答一般查詢問題。
研究人員寫道,由此產生的DeepSeek-GRM模型優于現有方法,憑借強大的公共獎勵模型“取得了有競爭力的表現”。獎勵建模是一個引導大型語言模型向人類偏好靠攏的過程。
研究人員稱,深度求索打算將GRM模型開源,但沒有給出時間表。
與此同時,由于DeepSeek的V3基礎模型和R1推理模型受到全球關注,人們對深度求索的下一步行動有著許多猜測。路透社此前報道說,DeepSeek-R2將很快發布。DeepSeek-R1的發布以其極具成本效益的性能震驚了全球科技界,其性能可與領先的模型相媲美。
深度求索一直對傳聞中的R2發布守口如瓶。
總部位于杭州的深度求索上月升級了其V3模型(名為DeepSeek-V3-0324),稱其提供了更強的推理能力、優化的前端網頁開發,以及升級的中文寫作能力。(編譯/朱捷)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.