Polymathic AI(博學人工智能)團隊近期發布了兩個海量數據集(多模態宇宙、Well),用于訓練AI人工智能模型來解決跨科學學科的問題。這些數據集包括來自天體物理學、生物學、流體動力學、聲學和化學等數十個來源的數據。
作者:Thomas Sumner 2024-12-2
譯者:zzllrr小樂(數學科普公眾號)2024-12-7
名為Well的數據集包含的各種模擬現象。視頻動畫地址 https://vimeo.com/1035234539 圖源:Alex Meng、Aaron Watters 、Well合作組織
爆炸的恒星能告訴我們血液如何流經動脈?游動的細菌能告訴我們海洋的各洋流層如何混合?來自大學、科學慈善機構和國家實驗室的研究人員合作,在訓練AI人工智能模型以尋找和利用看似完全不同的領域之間的可遷移知識以推動科學發現方面取得了重要里程碑。
這項名為Polymathic AI(博學人工智能)的計劃 https://polymathic-ai.org ,使用的技術與支持大語言模型(例如 OpenAI 的 ChatGPT 或 Google 的 Gemini)的技術類似。但該項目的模型不是提取文本,而是使用來自天體物理學、生物學、聲學、化學、流體動力學等領域的科學數據集進行學習,本質上為模型提供了跨學科的科學知識。
“這些開創性的數據集是迄今為止為這些領域收集的用于機器學習訓練的最多樣化的大規模高質量數據集合,”Polymathic AI成員、紐約市Flatiron(熨斗)研究所的研究工程師Michael McCabe表示。“整理這些數據集是創建多學科AI模型的關鍵一步,這將使我們能夠發現有關宇宙的新事物。”
今天,Polymathic AI團隊向公眾發布了兩個開源訓練數據集,總計115 TB,來自數十個來源,供科學界用于訓練AI模型并實現新的科學發現。(相比之下,GPT-3使用45TB 未壓縮、未格式化的文本進行訓練,經過過濾后最終約為0.5TB。)
“免費提供的數據集是開發復雜機器學習模型的空前資源,這些模型隨后可以解決各種科學問題,”Polymathic AI成員、Flatiron研究所CCM計算數學中心研究員Ruben Ohana表示?!皺C器學習社區一直是開源的;這就是為什么它與其他領域相比發展如此之快的原因。我們認為,共享這些開源數據將使機器學習和科學界受益。這是一個雙贏的局面——你擁有可以開發新模型的機器學習,同時,科學界也可以看到機器學習能為他們做些什么。”
完整的數據集可從Flatiron研究所免費下載,并可在托管AI模型和數據集的平臺Hugging Face上訪問。Polymathic AI團隊在兩篇論文中 https://nips.cc/virtual/2024/poster/97791 提供了有關數據集的更多信息,這兩篇論文已被接受在12月于加拿大溫哥華舉行的頂級機器學習會議NeurIPS https://neurips.cc 上發表。
McCabe表示:“我們一次又一次地看到,推動機器學習發展的最有效方法是接受艱難的挑戰,并讓更廣泛的研究社區能夠接受這些挑戰。每次發布新的基準時,它最初似乎都是一個難以克服的問題,但一旦挑戰被更廣泛的社區接受,我們就會看到越來越多的人深入研究,比任何單個團體單獨行動速度更快地加速進步?!?/p>
博學人工智能項目由西蒙斯基金會及其Flatiron研究所、紐約大學、劍橋大學、普林斯頓大學、法國國家科學研究中心和勞倫斯伯克利國家實驗室的研究人員負責運營。
機器學習等人工智能工具在科學研究中越來越常見,今年的兩項諾貝爾獎 https://www.nobelprize.org/all-nobel-prizes-2024/ 也都授予了它們。不過,這些工具通常是為特定應用而專門構建的,并使用該領域的數據進行訓練。而博學人工智能項目則旨在開發真正博學的模型,就像專業知識橫跨多個領域的人一樣。該項目團隊本身就體現了智力的多樣性,有物理學家、天體物理學家、數學家、計算機科學家和神經科學家。
兩個新的訓練數據集中的第一個專注于天體物理學。該數據集被稱為“多模態宇宙” https://github.com/MultimodalUniverse/MultimodalUniverse/ ,包含數億個天文觀測和測量數據 https://huggingface.co/MultimodalUniverse ,例如美國宇航局詹姆斯·韋伯太空望遠鏡拍攝的星系肖像和歐洲航天局蓋亞航天器對我們銀河系恒星的測量結果。
“機器學習在天體物理學領域已經出現了大約10年,但它仍然很難跨儀器、跨任務、跨科學學科使用,”Polymathic AI研究科學家Francois Lanusse表示?!跋穸嗄B宇宙這樣的數據集將使我們能夠構建能夠原生理解所有這些數據的模型,并可用作天體物理學的瑞士軍刀?!?/p>
總的來說,數據集高達100TB,是一項艱巨的任務?!拔覀兊墓ぷ鱽碜源蠹s十幾個研究所和二十幾位研究人員,為機器學習成為現代天文學的核心組成部分鋪平了道路,”Polymathic AI成員、牛津大學施密特人工智能研究員Micah Bowles說?!爸挥型ㄟ^Polymathic AI團隊以及來自世界各地的許多專業天文學家的廣泛合作,才能收集到這個數據集。”
另一個集合稱為Well https://github.com/PolymathicAI/the_well/ ,包含來自16個不同數據集的超過15TB的數據 https://polymathic-ai.org/the_well/ 。這些數據集包含生物系統、流體動力學、聲散射、超新星爆炸和其他復雜過程的數值模擬(原始文件為HDF5 格式)。雖然這些不同的數據集乍一看似乎毫無關聯,但它們都需要對稱為偏微分方程的數學方程進行建模。此類方程出現在與從量子力學到胚胎發育等所有領域相關的問題中,即使對于超級計算機來說也極難求解。Well的目標之一是使AI模型能夠快速準確地得出這些方程的近似解。
“該數據集涵蓋了各種物理模擬,旨在解決當前機器學習模型的關鍵局限性,”CCM研究員、Polymathic AI成員Rudy Morel表示。“我們渴望看到在所有這些場景中表現良好的模型,因為這將是向前邁出的重要一步?!?/p>
各種模擬數據集舉例如下:
1. 聲散射
聲學方程
這些可變系數聲學方程描述了聲壓波在由具有不同散射特性的多種材料組成的區域中的傳播。這個問題出現在源優化中,它是反問題 - 即從波的散射中識別材料特性 - 是地質學和雷達設計中的一個重要問題。其中ρ=材料密度,u,v分別為x,y方向上的速度,p=壓力,K=體積彈性率。
聲散射(不連續)
波通過不連續介質傳播。大多數現有的計算物理機器學習數據集都非常平滑,這里提出的聲學挑戰提供了具有挑戰性的不連續場景,這些場景通過可變密度來近似復雜的幾何結構。
聲散射(雜物)
雜物會改變波的傳播速度,但僅限于小的不規則區域。
聲散射(迷宮)
壓力波從點源出現,并穿過由低密度迷宮路徑和高密度迷宮墻組成的域傳播。這主要是作為機器學習方法的挑戰而構建的,盡管它與建筑物中的最佳放置問題(如 WiFi)具有相似的屬性。
聲散射(迷宮)遍歷
2. 活性物質
浸在斯托克斯流體中的棒狀活性粒子
3. 紅色超巨星對流包絡
大質量恒星演化成紅超巨星,它們具有較大的半徑和光度,以及低密度、湍流、對流包絡。這些模擬模擬了(本質上是3D)對流特性,并提供了對超新星爆炸前源的見解。
其中ρ=氣體密度,v=流速,P_gas=氣體壓力張量,P_gas=氣體壓力標量,E=總氣體能量密度,G_r^0,G_r = 輻射四力的類時間和類空間分量,n=光子傳播方向,I=頻率積分強度,它是時間、空間坐標和光子傳播方向的函數。
4. 歐拉多象限 - 黎曼問題(可壓縮,無粘性流體)
其中ρ=密度,u,v分別是x,y方向的速度分量,e=能量、p=壓力、γ=氣體常數、A>0 是熵的函數。
刻畫激波的形成和相互作用。多尺度沖擊。
邊界條件:開放
邊界條件:周期性
5. Gray-Scott反應-擴散方程中的模式形成
Gray-Scott方程是一組耦合反應-擴散方程,描述了兩種化學物質A和B,它們的濃度隨空間和時間而變化。f和k這兩個參數控制反應中的“補料” 和 “殺滅” 速率。根據這兩個參數,在解中可以產生定性不同的靜態和動態模式。這些方程式中隱藏著豐富的模式形成景觀。
6. 2D樓梯上的亥姆霍茲方程
周期性表面對非周期聲源散射的第一個高階精確解,與其在波導應用(天線、光柵衍射、光子/聲子晶體、噪聲消除、地震濾波等)中的應用有關。
在無限周期性邊界附近精確求解偏微分方程會帶來數值挑戰,因為這些表面充當波導,允許模式從源頭傳播很長距離。此屬性使得(無限)解域的數值截斷不可行,因為它會引起較大的人工反射,從而產生誤差。只有當入射波也是周期性的(例如平面波)時,才可以進行周期化(將計算域減少到一個基本單元),但對于非周期源(例如點源)則不行。然而,從點源計算高階精確散射解將具有科學意義,因為它模擬了遙感、光柵衍射、天線或聲學/光子超材料等應用。結合使用Floquet-Bloch變換(也稱為陣列掃描方法)和邊界積分方程方法來緩解這些挑戰,并將散射解恢復為由其表面波數參數化的準周期解系列的積分。這種方法的優點是,每個準周期解都可以通過周期化快速計算,并通過高階正交準確計算。
該仿真刻畫了俘獲聲波的存在,即沿波紋表面引導的模式。還表明,俘獲模式的表面波數與入射輻射的頻率不同,即它們刻畫了俘獲模式的色散關系。
7. 磁流體動力學(MHD)可壓縮湍流
其中ρ=密度,v=速度,B=磁場,I=單位矩陣,p=氣體壓力。
這是在可壓縮極限(亞音速、超音速、亞Alfven速度、超Alfven速度)內的MHD流體流動。
太陽風、星系形成和星際介質(ISM)動力學的重要組成部分是磁流體動力學(MHD)湍流。該數據集由無自重的等溫MHD模擬(例如在漫射ISM中發現)組成。
8. 行星淺水效應(SWE - shallow water effect)
球面上的受力高粘性旋轉的淺水,具有類似地球的地形和每日/每年的周期性受力。
其中h=壓力表面高度與平均值的偏差,H=平均高度,u=二維速度,Ω=科里奧利(Coriolis)參數,即地轉偏向力參數,F=受力。
淺水方程基本上是3D流的2D近似值,其中水平長度尺度明顯長于豎直長度尺度。它們是通過對不可壓縮的Navier-Stokes方程進行深度積分得出的。積分維度僅作為變量保留在方程中,用于描述流上方壓力表面的高度。長期以來,這些方程一直被用作單個氣壓級大氣建模中原始方程的簡單近似,最著名的是Williamson威廉姆森測試問題。這種情況可以看作類似于威廉姆森問題7,因從ERA5(歐洲中期天氣預報中心)中的hPa 500壓力水平得出初始條件。然后,使用真實的地形和兩個級別的周期性來模擬。
球面幾何和類行星地形和受力構成了真實世界大氣動力學的代表,其中真實動力學是已知的。數據集具有年度和每日周期性,迫使模型處理足夠的上下文長度來學習這些模式,即明確地具有時間感知能力。此外,該系統變得穩定,使其成為探索模型長期穩定性的良好系統。
9. 中子星合并后
標準輻射傳輸方程
這里的模擬是全三維廣義相對論中微子輻射磁流體動力學的軸對稱快照。該等離子體物理學對有限體積處理,帶有曲線網格上的磁場約束傳輸。該系統是假設核統計平衡(NSE)的表格式核方程封閉的。輻射場通過蒙特卡洛輸運處理,這是一種粒子方法。粒子不包含在此數據集中,但它們的影響在流體上顯示為源項。
10. Rayleigh-Bénard 對流
這些PDE由Rayleigh和Prandtl 數通過熱擴散率κ和粘度ν參數化。其中1/κ2=瑞利數 * 普朗特數,1/ν2=瑞利數 / 普朗特數 。Δ=??? 是空間拉普拉斯算子,b=浮力,u=(u_x, u_y)(水平和垂直)速度,p=壓力,e_z=垂直方向上的單位向量,有附加約束∫p=0。
Rayleigh-Bénard(瑞利-貝納德)對流涉及流體動力學和熱力學,從下方加熱的水平流體層中可以看到,由于溫度梯度而形成對流元胞。隨著下板加熱而上板冷卻,熱能產生密度變化,從而啟動流體運動。這導致貝納德元胞,表現出暖流體上升和冷流體的下降。浮力、傳導和粘度的相互作用導致復雜的流體運動,包括漩渦和邊界層。
Rayleigh-Bénard 對流數據集為熱梯度下的流體動力學提供了有價值的見解,揭示了湍流渦流和對流元胞等現象。這種元胞的位置對初始條件下的微小變化高度敏感。了解這些動力學對于工程和環境科學的應用至關重要。
11. Rayleigh-Taylor 不穩定性
在具有相同分子擴散率的混溶流體的情況中,流動由連續性、動量和不可壓縮性方程控制:
其中,ρ=密度,u=速度,p=壓力,g=重力,κ=分子擴散系數,τ=偏應力張量,ν=運動粘度,I=單位矩陣。
譜形和分量相對Rayleigh-Taylor湍流發展的影響??紤]一系列Atwood數和初始擾動的Rayleigh-Taylor不穩定性,所有這些都是隨機相位具有對數正態水平能譜。該數據集研究了均值、標準差和隨機相位的差異如何影響到隨之而來的湍流的轉變和統計。
在這個數據集中,物理趣味性有三個關鍵方面。首先,相干性對其他隨機初始條件的影響。其次,初始能譜的形狀對流動結構的影響。最后,從 Boussinesq到非Boussinesq狀態的轉變,其中混合寬度從對稱增長過渡到不對稱增長。
12. 周期性剪切流
其中Δ=??? 是空間拉普拉斯算子,u=(u_x, u_y)(水平和垂直)速度,s=示蹤劑,p=壓力,有附加約束∫p=0。
這些PDE由Reynolds數和Schmidt數通過粘度ν和擴散率D參數化。ν=1/Reynolds數,D=ν/Schmidt數。
剪切流(shear flow)是一種流體,其特征是相鄰流體層以不同的速度相互滑動而連續變形。這種現象常見于各種自然和工程系統,例如河流、大氣邊界層和涉及流體傳輸的工業過程。該數據集探索了由不可壓縮的Navier-Stokes方程控制的二維周期性剪切流。
剪切流是流體力學和湍流中存在的非線性現象。預測不同雷諾數和施密特數下的剪切流行為對于空氣動力學、汽車、生物醫學領域的許多應用至關重要。此外,這種流動在大雷諾數下是不穩定的。
13. 星系中湍流星際介質中的超新星爆炸
密集的冷氣體云中的沖擊波。
其中P、ρ、u是壓力。r=位置,a_visc=粘度產生的加速度,Φ=重力勢,Γ=每單位體積的輻射熱流入,Λ=每單位體積的輻射熱流出。
仿真求解了單原子理想氣體壓縮內部的爆炸,該氣體遵循比熱比γ=5/3 的狀態方程。這些模擬中的氣體模擬了銀河系中的星際介質。在模擬開始時,超新星的熱能被傾倒在模擬盒的中心。熱(~10? K)氣體立即加速并產生沖擊波。由于熱氣體的速度變為超音速,因此需要非常精細的分辨率和小時間步長來解析動力學。物理量也分布在7個數量級中,這需要大量的仿真步驟。
該模擬被設計為超新星爆炸,即大質量恒星在最后一刻在具有大密度對比的高密度造星分子云中的爆炸。假設單原子理想氣體的絕熱壓縮。為了模擬爆炸,巨大的熱能(10?1erg)被注入到計算盒的中心,并產生沖擊波,從而掃除稱為超新星反饋的環境氣體和外殼。超新星和周圍氣體之間的這些相互作用很有趣,因為恒星是在密集和寒冷的地區形成的。
然而,計算沖擊波的傳播需要很小的時間步長來計算和許多積分步驟。當超新星反饋被納入星系模擬時,使用了一些使用局部高分辨率模擬擬合的函數。
在星系模擬的背景下,熱能和動量的時間演變很重要。這些物理量不一定守恒,因為考慮了輻射冷卻和加熱,并且熱能正在無縫地轉化為動量。
14. 星系中的湍流星際介質
星系不同演化階段中星際介質中的湍流(方程組同上例)。
這些模擬是一種湍流流體,對星系中的星際介質引力進行建模。這些流體形成致密的細絲,形成新的恒星。制造新細絲的時間尺度和頻率因冷卻強度而異。它由金屬量(金屬豐度)、密度和溫度參數化。
仿真中考慮了重力、流體動力學和輻射冷卻/加熱。輻射冷卻/加熱通過金屬豐度進行參數化,金屬豐度是比氦重元素的比率。較大和金屬豐度分別對應于星系和宇宙的后期和早期階段。它還會影響冷卻/加熱的時間尺度和恒星形成速率。例如,恒星的形成發生在密集和寒冷的地區。憑借強大的冷卻/加熱速率,密集區域會迅速冷卻并產生新的恒星。相反,在冷卻/加熱較弱的情況下,當氣體被壓縮時,它會被加熱并阻止新恒星的產生。
在冷/熱強的冷氣的情況下,很容易產生密集的區域,這需要較小的時間步長和大量的積分步驟。這使得很難獲得更高的分辨率。
新的模擬器應該能夠檢測到恒星形成的潛在區域/新生恒星的潛在數量,因為恒星形成區域非常密集,需要非常小的時間步長,這會導致大量的計算步驟。
15. 湍流輻射層 - 2D
其中ρ=密度, v=二維速度,P=壓力,E=總能量,t_cool=冷卻時間。
在天體物理系統中,熱氣體相對于冷氣體移動,這導致混合,混合填充了高度反應性的中溫氣體——在這種情況下,它會迅速冷卻。
二維
三維
在這個模擬中,底部有冷的濃密氣體,頂部有熱的稀氣體。它們以亞音速相對移動。這種設置對于Kelvin Helmholtz是不穩定的,Kelvin Helmholtz不穩定性萌生于模擬之間有變化的小尺度噪聲。熱氣體和冷氣體都處于熱平衡狀態,因為加熱和冷卻是完全平衡的。然而,一旦由于開爾文-亥姆霍茲不穩定性引起的湍流而發生混合,中間溫度就會變得擁擠。這種中溫氣體不處于熱平衡狀態,冷卻優于加熱。這導致從熱相到冷相的凈質量通量。這個過程發生在星際介質中,而在環星系介質中,當冷云穿過周圍的熱介質時。通過了解總冷卻和傳質如何隨冷卻速率的變化,我們能夠限制這個過程如何控制星系內部和周圍氣體的整體相結構、能量和動力學。
16. 二維通道流中粘彈性流體的多重穩定性
其中u*=(u*,v*)是流向和壁法向的速度分量, p*=壓力,C*=正定構象張量,它表示聚合物分子端到端向量產生的集成平均值。在2D中,求解出張量的4個分量:c*_xx, c*_yy, c*_zz, c*_xy,T(C*)=FENE-P模型給出的聚合物應力張量。
粘彈性流動中的多重穩定性,即根據初始條件,對于同一組參數觀察到四種不同的吸引子(統計穩定狀態)。
彈性慣性湍流(EIT,Elasto-inertial turbulence)是最近發現的一種在稀聚合物溶液中觀察到的二維混沌流態。二維直接數值模擬顯示了(最多)四個共存的吸引子:層態(LAM,laminar)、穩態箭頭狀態(SAR,steady arrowhead regime)、彈性慣性湍流(EIT)和“混沌箭頭狀態”(CAR,chaotic arrowhead regime)。SAR對于此處考慮的所有參數都是穩定的,而最后一對(混沌)流狀態在視覺上非常相似,并且只能通過CAR狀態中存在弱聚合物箭頭結構來區分。兩種混沌狀態都由相同的近壁機制維持,弱箭頭不起作用。該數據集包括四個吸引子以及兩個邊緣狀態的快照。邊緣狀態是存在于兩個吸引子盆地之間邊界上的不穩定狀態,即所謂的邊緣流形。邊緣狀態在流形之外有一個不穩定的方向,并且是相關的,因為它正好位于邊界上,從而分隔了定性不同的流動行為。本數據集中的邊緣狀態是通過層態(LAM)與EIT之間以及EIT與SAR之間的邊緣跟蹤獲得的。
數據中令研究者感興趣的現象是:(i)EIT和CAR中粘彈性流動中的混沌動力學。另請注意,它們是單獨的狀態。(ii)對于同一組參數的多重穩定性,流根據初始條件有四種不同的行為。
尾聲
Ohana表示,收集這些數據是一項挑戰。該團隊與科學家合作,為該項目收集和創建數據。“數值模擬的創造者有時會因為過度炒作而對機器學習持懷疑態度,但他們對它以及它如何使他們的研究受益并加速科學發現感到好奇,”他說。
Polymathic AI團隊本身現在正在使用這些數據集來訓練AI模型。在接下來的幾個月里,他們將把這些模型部署到各種任務上,看看這些全面、訓練有素的AI在解決復雜的科學問題方面有多成功。
“了解機器學習模型如何在來自不同物理系統的數據集之間進行概括和插值是一項令人興奮的研究挑戰,”CCM研究員、Polymathic AI成員Régaldo-Saint Blancard說。
Polymathic AI團隊已開始使用這些數據集訓練機器學習模型,Polymathic AI項目負責人Shirley Ho表示:“早期結果非常令人興奮?!?Shirley Ho是Flatiron研究所計算天體物理中心的團隊負責人?!拔乙埠芷诖吹狡渌鸄I科學家會如何處理這些數據集。就像蛋白質數據庫催生了 AlphaFold一樣,我很高興看到Well和多模態宇宙數據集將幫助創造什么?!?Ho將在NeurIPS會議上發表演講,重點介紹這項工作的用途和巨大潛力。
參考資料
https://www.simonsfoundation.org/2024/12/02/new-datasets-will-train-ai-models-to-think-like-scientists/
https://vimeo.com/1035234539
https://polymathic-ai.org
https://polymathic-ai.org/the_well/
https://huggingface.co/MultimodalUniverse
https://nips.cc/virtual/2024/poster/97791
https://neurips.cc
https://github.com/MultimodalUniverse/MultimodalUniverse/
https://github.com/PolymathicAI/the_well/
https://www.nobelprize.org/all-nobel-prizes-2024/
科普薦書
·開放 · 友好 · 多元 · 普適 · 守拙·
讓數學
更加
易學易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉載、投稿
查看原始文章出處
點擊zzllrr小樂
公眾號主頁
右上角
數學科普不迷路!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.