網易首頁 > 網易號 > 正文申請入駐

MSRA首席研究員劉煒清：為每位研究員提供AI科研助理

2025-04-24 16:04:53　來源: 量子位

北京舉報

分享至

編輯部發自凹非寺量子位 | 公眾號 QbitAI

2025，隨著大語言模型技術的迅猛發展，數據科學領域正經歷一場靜默的革命。傳統的特征工程、模型訓練與迭代優化流程，正被智能化的研發助手所改變。

在第三屆AIGC產業峰會上，微軟亞洲研究院（MSRA）首席研究員劉煒清帶來了一項引人矚目的研究成果——RD-Agent，一個旨在“自動化、增強到重塑”數據科學研發流程的智能系統。

這項研究源于一個現實問題：當大模型浪潮席卷各行各業時，數據科學家們面臨著被顛覆還是被賦能的選擇題。與其坐等被顛覆，MSRA團隊選擇主動探索，將Agent技術轉化為科研助理，為每位研究員提供一個“虛擬助理”，承擔那些高門檻但又重復性強的研發工作。

從最初幫助研究員實現想法的開發助手，到能夠自主提出研究方向的研究伙伴，RD-Agent正在以“AI驅動數據驅動AI”的方式，重新定義數據科學的工作流程。這不僅是一項技術創新，更是對未來科研方式的一次大膽探索。

為了完整體現劉煒清的思考，在不改變原意的基礎上，量子位對演講內容進行了編輯整理，希望能給你帶來更多啟發。

中國AIGC產業峰會是由量子位主辦的AI領域前沿峰會，20余位產業代表與會討論。線下參會觀眾超千人，線上直播觀眾320萬+，累計曝光2000萬+。

話題要點

RD-Agent的三階段演進路線：從初始的研發自動化，到現階段的研發增強，再到未來的領域重塑
雙Agent協作框架：Research Agent負責產生研究想法，Development Agent負責實現和驗證，形成了閉環迭代系統，大幅提升數據科學研究效率
數據驅動的能力增強：通過記錄和分析各種idea嘗試的結果數據，使系統能夠超越“模仿專家”的瓶頸，實現真正的創新性突破
實際應用場景價值：從團隊自身研究效率提升到幫助金融合作伙伴實現論文自動復現驗證，特別是在Feature Generation等關鍵任務上達到80-90%的可用效果，展示了系統的實用價值

以下為劉煒清演講全文：

起源：以自動化為目標

大家早上好，我是來自微軟亞洲研究院（MSRA）的劉煒清。今天我給大家帶來的研究題目是大語言模型時代下的數據科學新引擎RD-Agent，從自動化、增強到重塑。這三個關鍵詞恰好也是描述了我們RD-Agent的起源、現狀和未來。

我們首先從RD-Agent以自動化為目標的起源開始介紹起。首先介紹一下我們RD-Agent背后的團隊，我們團隊從2017年初開始與金融行業的各個領域不同方向的公司進行深度的產業的科研的一些合作，大家對2017年這個時間有一些感覺的話，這恰好是AlphaGo當年橫空出世打敗世界冠軍，使各行各業有一個擔憂，自己的行業會不會被AI所顛覆，同時也會有一些小的期待——會不會自己做的業務有機會能夠被AI所賦能的奇妙的一段時間。

我們團隊代表MSRA跟金融行業的合作伙伴們一起探討當時最先進的AI技術，當時是Deep Learning深度學習的技術，看看能不能對金融行業核心的場景業務和問題進行一個智能化的升級。比較幸運的是，我們在多年的努力下面還是有不少研究成果成功的落地，并且在合作伙伴實際產品和業務中間獲得不錯的效果。

我們做這些合作的過程中間會發現，實際場景產業落地中間遇到的挑戰和困難，并沒有很好地被學術界所廣泛關注到和很好地解決，我們就會把這樣的一類挑戰進行抽象，并且嘗試對他進行解決，最后以學術論文的方式分享給業界以及學術界，幫助大家更多地關注這些核心的挑戰，以及幫助方向持續的演進，做出我們自己的貢獻。

做產業落地研究的時候，我們發現這一類的研究直接去做，可能跟真實場景會有很大的GAP。我們需要更好的基礎設施、研究框架才能幫助我們做有真實價值的研究，我們以量化研究為例子，當時發現公開可獲得的基礎設施研究框架都不太能滿足需求后，我們自己內部開發了這樣的一個研究框架Qlib，并且將它進行開源。比較幸運的是獲得社區里比較多的關注和認可，給了我們很大的動力來持續研究和改進它。

回望過去將近十年產業相關的應用和落地的工作，我們主要的工作都是在數據科學和機器學習的范疇。左邊的圖中所示，我們常用范式就是在業務海量數據中間找出來有價值的特征，利用這些特征我們訓練模型對其中的規律進行建模，從而得到智能化的解決方案服務于各種各樣業務場景的需求。智能化解決方案的整個開發過程則是以迭代漸進的方式進行的，第一版看看效果怎么樣，根據反饋再改進下一版，迭代地得到最終的智能化解決方案。

現在我們到了大模型的時代，這一波技術的浪潮與之前AlphaGo帶來的那一波狂熱相比，也帶來了各行各業的新一輪的思考，有沒有可能這個行業會被顛覆，或者自己的業務有沒有可能被賦能。這一波技術潮流從我們自己的體感來看，會感覺我們自己本領域的研究人員第一波受到的沖擊其實很大的。大語言模型出來以后，很多持續穩步發展多年的研究領域，已觀察到慢慢有些式微，面臨很多挑戰。這時候我們自己也要考慮，我們自己的研究領域和方向這些東西是被顛覆還是賦能？與其等著被顛覆，我們嘗試能不能用大語言模型對我們自己的研究進行賦能，就好像我們之前研發的Qlib基礎設施框架幫助我們更好地做相關研究一樣，這就是我們RD-Agent最初以研發自動化為目標的設計初衷。

在這樣的初衷下面，理想情況下有了大語言模型，有了Agent，是不是能夠讓每一個研究員、每一個數據科學家都能有一個Agent為代表的科研助理或者研究實習生，它來承擔我們日常工作中間需要做非常多的重復、但是又有高門檻的工作。

具體來說，人人都有科研助理意味著人人都是老板，老板怎么來做這樣的一件事情呢？我有大概的想法，同時我手頭上有一堆數據，我交給科研助理Agent，幫我實現一下看看想法怎么樣。

當我們有了正確代碼的實現，訓練好了一個模型，同時對它進行正確的全面的評測以后，如果第一版效果還不錯，老板英明！第一版效果太好也會想想是不是我有一些Test Data甚至Label都Leak了，我們得check一下有沒有bug；效果太差的話，當然得看一看是什么原因，是不是訓練的時候loss都飛掉了。往往這些檢查驗證實現的過程是需要多輪迭代才能得到最終的可信結果的，這個過程需要比較高的門檻，同時也需要非常繁重又相對重復的勞動。

經過幾個月的努力我們構建了Agent工具，幫助我們自己在日常研究工作中間很大的效率的提升，減輕了很多細節實現的負擔。當我們已經驗證了能夠賦能我們自己研究的時候，我們就在想這個Agent有沒有可能真正賦能產業，賦能實際問題，我們找到我們合作伙伴看他們場景中間有沒有類似的問題，我們最終找到了論文或者研究報告的自動實現或者驗證的問題，這個問題在與合作伙伴的溝通中間發現，在他們日常的研發工作中間每天都在發生的，比如說看到一個公開或者半公開的研究報告或者論文，大概描述了一個新穎的方法。同時在他們論文所在的那個數據集，假設叫數據集A上效果非常好，但是在他們自己自有的數據跟論文中所使用的數據不同，場景也有稍微的區別，那它效果怎么樣？這就需要重新實現這個方法看看在我自己這邊好不好使，往往這樣的工作并不是所有都能找到開源的代碼，這時候需要自己來復現重新驗證。這類的工作其實占用了他們研發過程中間非常多的精力和時間。經過一段時間的努力我們會發現RD-Agent確實能夠很大地幫助到他們真實的日常工作，讓這個事情能夠自動化提升研發效率。

現狀：為研究員提供AI科研助理 / 為各行業提供AI自動研發團隊

具體來看，我們選擇的是一類屬于Feature Generation的具體問題，這是我們統計分析出來實現每一個idea所需要寫的核心代碼，其實也就是幾十行的體量，我們發現如果使用原生大模型做這件事情幾乎不可能在直出的實踐中做對，經過很多改進和嘗試，RD-Agent系統能達到80、90%可用的效果。當然我們也觀察到了帶reasoning能力的大模型出來以后，模型的代碼實現能力得到很大的提升，但是依然很難做到一次就對，依然需要采用我們這種多次迭代漸進的方式才能做對。

有了第一階段對自己的研究過程進行賦能，以及對實際產業界的任務進行了賦能以外，我們不太擔心會被顛覆了，我們心思開始活絡了，能不能做更有價值的一件事情呢？現階段我們目標構建一個通用的數據科學或者機器學習的Agent，目的為了增強人類專家的能力和產出。怎么做呢？在這一階段我們的目標是自動地做新場景和新問題，并且持續的改進當下的解決方案，而不僅僅是當科研助理，僅僅是實現人類專家給出來的idea。

藍色部分可以看到，剛剛我們作為科研助理Agent的部分，我們叫做Development Agent，它是需要大概的idea的描述，之前是依賴人類專家給這樣的描述，我是不是也能依賴Agent給出研發的idea呢？橙色部分是我們新加入的Research Agent，它直接以當前我們的任務和場景的描述作為輸入，來迭代產生idea，并且根據Development Agent來產生的當前idea下最終模型的真實效果來進行下一輪idea迭代的依據，這就是我們整體的設計。希望在很少的專家介入或者沒有領域專家介入的情況下也能自動給出智能化的解決方案，這時候我們就有了RD-Agent當前的整個框架。

這個框架我們在去年底進行了開源，比較短的時間內獲得比較好的關注，我們取了一個slogan，AI Drives Data-Driven AI。

在這樣的問題下面，我們先做了一個簡短的視頻介紹我們RD-Agent。

未來：重塑數據科學

看了錄屏以后相信大家對RD-Agent有了更直觀的感覺，剛剛說到現階段的目標是研發增強，怎么增強人類專家呢，光靠原生大語言模型做不到，那么大語言模型做不到什么我們就補什么，比如我們組里有Kaggle Grand Master，我們來看看語言模型做不到，但是他能做到的，我們通過引入領域知識和經驗并且優化我們算法使我們的Agent更像人類專家而不僅僅是直接原生大語言模型的能力，這個技術路線很有效但是也有瓶頸，因為人類專家做這一類問題的時候也是有瓶頸的，光靠模仿是很難超越的。

比如我們現在就發現，當迭代到某一輪數，解決方案還不錯的時候，Agent給出5個改進路線，人類專家看的時候覺得每個路線都很有道理，我們只有試一試才知道最終的結果，試完之后發現有些性能有增強，有些對性能反而有很大的損害。我們有沒有可能通過數據驅動的方式把所有探索的過程記錄下來，比如在什么情況下嘗試了什么idea，這樣的idea最終對性能的提升有沒有幫助，并且基于這些數據來增強我們大模型或者Agent相關的能力，做到比人類專家對于什么樣的idea效果更好，有更直觀更準的判斷。這樣的話避免我們只是模仿專家但是很難超過專家的瓶頸，從而讓我們有機會超過專家達到更好的效果。

當下我們正在快速迭代快速演進我們的相關設計，同時我們也在同步驗證當前RD-Agent的能力，由于時間問題我沒有辦法把細節進行展開，我們在一些Kaggle比賽中間進行驗證，我們直觀感受是這個RD-Agent已經能夠達到初階從業者水平，比我們接觸到很多在校學生們能力顯得更強一些。

未來我們希望我們RD-Agent方向是什么？我們奔著自主發現新方法的方向進行努力，如果我們能做到這個方向就是能夠重塑Date Science或者是Machine Learning領域。聽說圍棋的棋手們現在也都跟著AI學習怎么更好地下棋，就是重塑這個領域。

怎么做到這件事情？我們嘗試設計三階段循序漸進的方式，從最開始自動化為初衷，我們為專家減少臟活累活，從而得到更高效的專注于創新。當下我們做增強的事情，我們其實是嘗試比專家能夠更快地找到我們的方法和場景和數據更好地匹配，更快地找到更優的方法。未來我們期望通過不同的方法在各個場景、數據上表現的觀察、分析和理解改進現有的方法或者發明新的方法。真的到了這一步的時候我們自己的領域肯定是被顛覆了，但由于我們能夠有能力發明更好的方法，相信這也能夠扎扎實實地賦能到各行各業，看上去是挺美好的一個未來。以上就是我關于RD-Agent工作的介紹，由于時間問題很難把很多細節進行展開，也很難介紹未來的計劃，如果大家對我們工作感興趣或者對我們未來的發展想有一個關注的話，歡迎大家關注我們開源項目RD-Agent。

今天我的演講就是這些，謝謝大家。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.