導語
在11月11日舉辦的“2024科學智能創新論壇”上,上海科學智能研究院(下稱“上智院“)聯合集智科學研究中心(集智俱樂部)、復旦大學、阿里云天池,共同發布了“科學智能前沿觀察”。
隨著2024年諾貝爾物理學獎和化學獎授予了人工智能 (AI) 相關研究,科學智能 (科學和AI深度融合) 及其研究方向引發了從科學家到公眾的廣泛關注。在與從事科學智能領域前沿研究學者的大量深度訪談基礎上,上智院聯合合作伙伴,共同概括科學智能新范式,并梳理和凝練了科學智能的十大前沿方向。
“科學智能前沿觀察”涵蓋AI for Science、Science for AI和科學智能基礎設施三個維度,其中,AI for Science的前沿方向包括垂直領域科學大模型、融入先驗知識的AI模型、基于LLM模型的科學研究、從提出假設到自動驗證的AI科學家、以及復雜世界的多智能體建模;Science for AI的前沿方向則覆蓋了物理世界的第一性原理和科學啟發的可解釋AI新架構;科學智能基礎設施前沿方向包括合成數據和新型智能計算。展望未來,面向可信可解釋的科學世界模型和上述九個方向共同構成科學智能十大前沿。
上海科學智能研究院院長、復旦大學浩清教授漆遠表示,AI與基礎科學的深度融合,將開啟AI與科學“雙螺旋引擎”共振驅動的科學研究新范式。AI for Science和Science for AI,類似DNA和RNA的雙螺旋結構,一方面,AI將成為科學研究探索的最前沿;另一方面,科學啟發的AI也將成為實現AGI的重要支撐。未來可望有更多的科學智能研究成果問鼎諾貝爾獎。我們聯合合作伙伴,發布科學智能前沿觀察報告的初心,就是希望推動和支持更多AI和基礎研究領域的科學家,深度融合無縫合作,共同探索科學智能的新未來,打造能夠自主發現復雜世界未知規律的“AI愛因斯坦”。
科學智能新范式
科學智能 (AI X Science) 是一個新興的跨學科研究領域,致力于融合AI與領域科學,其研究方向和驅動力可以形象地表述為“雙螺旋引擎”:其一,將AI技術應用于具體領域的科學研究 (AI for Science) ;其二,將領域學科知識用于AI算法和架構的理解和改進 (Science for AI) 。
隨著大量數據的快速積累和文獻的爆炸式增長,人類科學家自身的信息處理能力達到極限,甚至成為研究突破的瓶頸。而越來越多的科學研究領域在面對復雜問題的挑戰時也難以利用傳統的數學和物理方法。如何將AI運用于垂直的科學領域研究,加速科學發現,擴展科研邊界,是AI for Science的核心主題。今年諾貝爾化學獎授予的 AlphaFold2,即是AI算法用于解決科學領域重要問題的研究典范。AI for Science 其他成功研究案例還包括AI可控核聚變、氣象模型等等。
不過,雖然已獲重大突破,但AI仍然面臨數據稀缺、耗能過大、解釋性較差等重大挑戰。而人類科學家已經積累了各個學科領域的海量知識,如何將科學家的經驗和知識,甚至直覺和啟發式想法,轉化為AI系統的能力,構成了Science for AI研究的重點。Science for AI的典型案例除了已獲諾獎的Hopfield網絡與受限 Boltzmann 機,也包括受視覺架構啟發的CNN網絡等。
更進一步,科學智能指向AI和科學更復雜、全面、多維和多向度的深度融合,AI參與到從假設提出到自動驗證的科研全流程,并構建包括合成數據和新型智能計算在內的基礎設施。
科學研究范式是特定歷史時期內科學界普遍接受的理論、方法和價值觀的集合,包括科學理論、研究方法、實驗設計和數據分析等。科學智能的新范式包括: 第一,構建AI驅動的灰盒模型,將第一性原理和人類先驗知識引入AI,形成領域知識啟發的AI基礎模型,既可數據驅動,也提高了可解釋性。第二,從單一尺度走向跨尺度,傳統的科學研究大多集中在某個尺度,或兩個尺度的互動,而科學智能則同時在多個尺度構建具有深度的科學大模型。第三,從單一模態到多模態,科學智能突破單一模態的局限,可以整合時間序列數據、圖像數據或文本數據,建立多模態大模型進行前沿科學探索。最后,科學智能領域有望形成跨學科的統一框架和方法論。
科學智能的無盡前沿
目前,科學智能最多的前沿研究集中在AI for Science領域,又尤以垂直領域科學大模型為代表。大語言模型 (LLM) 代表了一種新的基礎模型范式 —— 通過在海量數據上進行自監督學習,構建具有強大遷移能力的通用模型,再通過微調等技術完成具體任務。能否將基礎模型的理念推廣到更廣泛的科學研究領域,并構建統一的科學基礎大模型,來加速跨學科的科學發現進程?雖然目前還沒有出現跨學科的統一科學基礎模型,但在物質科學、生命科學、醫學和氣象等領域已經涌現出一批創新性垂直領域科學大模型,以解決特定領域科學問題。
在構建科學大模型的過程中,數據驅動和先驗知識的融合是關鍵。融入先驗知識的模型架構,將領域知識融入人工智能模型,可顯著提高模型的可解釋性,并實現更有效的學習和推理。神經符號 (Neuro-Symbolic) AI,結合了神經網絡的學習能力和符號AI的邏輯推理能力,其應用AlphaGeometry 即是該方向的一個成功案例。
基于大語言模型(LLM)的科學研究也是熱點,探索LLM的科學能力邊界,可有效整合和理解跨學科的專業知識體系,有望突破傳統方法在知識關聯發現上的局限。同時,LLM的出現,尤其是Agent (智能體) 的運用,讓AI得以更加高效而順暢地進入科學研究的全流程,參與從提出假設,到實驗驗證再到論文撰寫的整個科研周期,AI科學家和科學家助手是典型案例。此外,面向復雜世界的多智能體建模運用于宏觀經濟系統和城市治理,也提供了全新的研究方法和視角。
在Science for AI領域,科學啟發的可解釋AI新架構正嶄露頭角, Komogorov -Arnold Networks (KAN) 是一個案例。此外,物理世界的第一性原理也是重要研究方方向,泊松流模型是典型范例,其速度比擴散模型提升了10-20倍。
從基礎設施的視角看,科學數據不足是制約科學智能發展的核心掣肘。合成數據(Synthetic Data) 是解決挑戰的科學利器。OpenAI的o1模型運用了大量合成數據,生命科學、物質科學、數學和氣象科學領域合成數據的前沿運用也漸成氣候。合成數據在推進構建科學大模型方面意義重大。
最后,遵循規模法則 (Scaling law) ,目前AI模型的參數規模和計算需求已經遠超現代計算硬件的更新速度、而其能耗和成本也已經到了經濟和生態系統難以承載的地步,從而凸顯出新型智能計算的前沿和重要意義,基于光學、量子力學的新型高效新型計算架構,以更低的資源消耗和更小的邊際成本,為科學人工智能的高速高能效計算開辟新路徑。
面向可信可解釋的科學世界模型
2024年堪稱科學智能“新元年”。通觀全局,科學智能發展迅猛,可望引領科學和AI的未來研究突破。
科學智能的挑戰和機遇體現在兩個方面:第一,AI系統如何運用人類知識 ,這既包括如何將第一性原理和專家知識融入AI系統,也包括如何提高AI系統的可解釋性。第二,AI如何和現實互動并具備實驗思維,科學智能需要設計實驗,自主與物理世界互動,獲取數據,形成世界模型,從而最終實現AGI和“AI愛因斯坦”。
面向未來,可信可解釋的科學世界模型是一個可行解決方案。該模型包含兩大智能主體:數據驅動為主的AI系統 (Data-driven Model) ,即系統I,融入第一性原理和人類知識的“深思者 (Deep Thinker) ”,即系統II。從交互機制看,則包括 AI-現實互動 (AI-Reality Interaction) 界面和人機對齊界面 (Human-AI Alignment) 。以科學規律為基礎、輸出結果可靠可信、可泛化、可解釋,同時AI與現實世界交互、AI與科學家互動、并最終與人類價值和科學倫理對齊。
可信可解釋的科學世界模型
集智研究中心理事長、北京師范大學系統科學學院教授張江表示,“放眼未來,解決人機協同的瓶頸和對齊,同時賦予AI實驗思維,可信可解釋的科學世界模型是一個可行的解決方案。科學智能需要多元的探索路徑,也需要領域科學家和AI科學家的共同努力,在未來科學智能的探索前沿上,相信科學家的直覺和第一性原理依舊是重要支撐。” 據悉,覆蓋上述科學智能前沿方向和完整文獻解讀的《科學智能前沿觀察報告》全文將于近期發布。
AI+Science 讀書會
詳情請見:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.