ScholarCopilot團隊 投稿
量子位 | 公眾號 QbitAI
學術寫作通常需要花費大量精力查詢文獻引用,而以ChatGPT、GPT-4等為代表的通用大語言模型(LLM)雖然能夠生成流暢文本,但經常出現“引用幻覺”(Citation Hallucination),即模型憑空捏造文獻引用。這種現象嚴重影響了學術論文的可信度與專業性。
現在,加拿大滑鐵盧大學與卡內基梅隆大學的華人研究團隊,提出了一種名為 ScholarCopilot 的智能學術寫作大模型框架,專門針對學術場景,致力于精準地生成帶有準確引用的學術文本。
ScholarCopilot與傳統方法的區別
傳統的檢索增強生成(Retrieval-Augmented Generation, RAG)方法采用“先檢索、再生成”的靜態流程,這種方式存在以下問題:
- 檢索與生成過程相互獨立,容易導致意圖不匹配;
- 無法根據上下文需求動態調整引用策略,影響引用準確性。
針對這些局限性,ScholarCopilot提出了一種“邊生成、邊檢索”的動態機制:
- 在生成文本時,模型動態地判斷何時需要引用文獻,并生成一個特殊的檢索信號([RET]);
- 隨后實時檢索學術數據庫中的相關文獻,將檢索到的內容融入后續生成過程;
- 通過聯合優化生成任務和檢索任務,提升引用的準確度與相關性。
簡單來說,ScholarCopilot的寫作方式更接近人類真實的寫作習慣:平時正常撰寫論文內容,當需要引用文獻時再主動檢索相關文獻的BibTeX信息插入引用,隨后繼續撰寫下文。同時,模型在撰寫后續內容時,也會參考已插入的引用文獻,確保生成的文本與引用內容緊密相關。
ScholarCopilot的性能表現
研究團隊以阿里云近期發布的Qwen-2.5-7B模型為基礎,使用了50萬篇arXiv論文進行訓練,并在多個維度上進行了性能評估:
引用檢索準確性(Top-1 accuracy)達到40.1%,顯著超過現有的檢索模型:
- E5-Mistral-7B-Instruct(15.0%)
- BM25(9.8%)
論文生成質量方面(包括相關性、連貫性、學術嚴謹性、完整性和創新性),綜合得分為16.2(滿分25),高于參數量更大的Qwen-2.5-72B-Instruct模型(15.8)和Qwen-2.5-7B-Instruct模型(13.9)。
在一項由10位擁有平均4.2年學術寫作經驗的學生(5名博士、4名碩士、1名本科生)參與的真人評測中:
- ScholarCopilot在引用質量上的用戶偏好率達到100%;
- 整體實用性偏好率超過70%。
ScholarCopilot的不足與未來方向
盡管取得了顯著進步,ScholarCopilot仍存在一些局限性。通過上述用戶調研,受訪者提出了以下幾點改進建議:
- 內容生成更全面:
- 模型在生成內容的豐富性與信息全面性方面仍需進一步提升;
- 創新性不足:
- 目前模型在生成創新性想法和研究問題方面表現一般,還有較大改進空間。
此外,受訪者還建議未來版本可考慮:
- 與主流學術寫作平臺(如Overleaf)進行更緊密的整合;
- 支持分章節獨立生成和任意光標位置的文本預測功能。
研究團隊表示,這些反饋意見為后續開發提供了明確的改進方向。
后續展望
ScholarCopilot研究團隊希望通過不斷優化模型性能、擴展檢索數據庫和改進用戶交互體驗,讓研究人員在學術寫作中能更專注于研究本身,而非繁瑣的文獻檢索與引用管理。
當前相關論文、代碼與模型已經公開發布,感興趣的讀者可自行了解詳細信息,進一步體驗與評估該模型的實際表現:
論文鏈接:https://arxiv.org/pdf/2504.00824
項目網站:https://tiger-ai-lab.github.io/ScholarCopilot/
演示視頻:https://www.youtube.com/watch?v=QlY7S52sWDA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.