德國數學家馬丁·格羅切爾(Martin Gr?tschel)近日接受采訪,回顧了他在數學應用方面的廣泛職業生涯,回顧了數學如何轉向更加數據驅動的方法,并展望了該領域的未來。文末附錄2024-6月當期的MaRDI簡訊稿《我沒有數據》,譯之以饗讀者。
采訪日期:2024-6-19(MaRDI)
受訪者:Martin Gr?tschel(馬丁·格羅切爾),柏林工業大學數學家(已退休)、柏林楚澤研究所前所長、歐洲科學院院士、中國科學院外籍院士,在組合優化、多面組合學和運籌學方面的研究而聞名
采訪者:Daniel Ramos(丹尼爾·拉莫斯),MaRDI(數學研究數據倡議)、IMAGINARY gGmbH(德國Oberwolfach數學研究所發起的一個致力于開放和互動數學的非營利組織) CCO(首席內容官)
譯者:zzllrr小樂(數學科普公眾號)2024-6-24
Q:您好,感謝Martin今天在這個MarRDI時事通訊訪談中與我們談論“我沒有數據”這個話題。第一個問題是,用兩句話介紹一下您是誰?
A:好的,我是一個數學家,有著廣泛的數學和其他興趣,同時也為科學界提供了其他行政職能。
最初,我的研究集中在數學理論上,但很快我就意識到數學是一個未被充分利用的工具箱,它可以在幾乎任何地方使用,以改善我們的生活。
Q:謝謝。研究數據(尤其除了出版物之外)在您的研究生涯中扮演了什么角色?我們談論的是軟件、源代碼、數據庫、論文的補充材料等等。
A:好的,我從1970年代末開始開發和實施算法時,我注意到作者們對自己代碼的實際效率提出了狂妄的主張。這些陳述通?;谧灾频臄祿?,這些數據不對其他人開放。許多嚴肅認真的研究人員看到了收集實際數據并使其對整個研究界公開的必要性。在這方面,Netlib倉庫是一個先驅,它在1980年代中期為線性規劃代碼提供了實例。不久之后,TSPLIB使旅行推銷員問題的真實實例可用,并且創建了其他許多此類最優化方面的庫,并作為代碼開發和代碼比較的測試床為社區服務。這在我的一個非常重要的數據倉庫MIPLIB中繼續進行,MIP即混合整數規劃(Mixed Integer Programming),是一個具有多種應用的領域。最初,這些數據來自研究界,但很快工業和商業最優化軟件公司也為此數據集做出了貢獻,并積極參與了混合整數規劃的有用測試床的開發。這改變了算法的開發和使用方式,真正改進了最優化領域的研究,并且現在在我們領域的許多分支中繼續進行著。
Q:好的。那么您說說,數據的來源是如何變化的,數學家的實踐在過去20或30年里是如何變化的?
A:好的,我更愿意看一個更長的時間范圍。數學真正開始變化是在1950年代,伴隨著計算機的可用性。新的領域涌現了,如科學計算、計量經濟學或運籌學,小的數學領域經歷了爆炸性的增長,如圖論、離散數學、最優化和控制論。并且有對經典領域的重新定位。例如計算群論、計算實代數幾何、計算數論和統計學。計算機證明被成功嘗試,并且變得清晰,數學幾乎可以在任何地方應用。好的數學軟件被提供。它從公開可用的計算機代數系統開始。許多成功的系統變得商業化,實際上價格昂貴,但它們確實為各種數學問題提供了優秀的軟件,并且確實可以解決許多應用。在過去的20年里,最大的變化是開放的理念。它從研究論文的開放獲取開始。現在我們看開放數據、開放軟件和開放科學。我真的很高興這個發展開始了。許多數學家在這些發展中發揮了重要作用,我希望他們繼續這樣做。然而,還有一些數學家保持著非常傳統的工作方式。
Q:對于那些認為并不擁有值得管理的科研數據,并且認為這與他們無關的數學家,您會說什么?
A:答案很簡單。我會說他們沒有跟上時代的步伐,沒有充分利用這些數據中關于數學的信息。這是一個簡單的答案,我對那些說他們并不使用數據的人沒有評論。
Q:您認為數學家和數學研究數據的未來將如何?它將在未來如何被使用?
A:好的,我思考這個問題。當然,預測未來是困難的,但我相信當前的人工智能繁榮將對數學產生持久的影響。有一個非常棒的訪談,由Christoph Dr?sser與Terence Tao(陶哲軒)進行的,它于2024年3月發表在《科學光譜 Spektrum der Wissenschaft》上,幾天前也出現在《科學美國人 Scientific American》上。陶解釋了他如何看待未來的發展。他說,人工智能將成為數學家的副駕駛。我沒有時間在這里解釋這個短語。然而,我建議閱讀這個訪談,毫無疑問,數學數據將變得越來越重要,AI開發的工具將改變數學家未來的工作方式。數學研究將變得更加協作。它將類似于復雜計算機軟件系統的開發,而不像傳統的在象牙塔中用鉛筆和紙的工作。象牙塔將被軟件系統所取代,不僅僅是單一軟件,而是一套龐大的軟件系統。一個這樣的新興例子是Lean系統。這些系統將能夠訪問巨大的、精心編碼和檢查的數學知識和相關數據集。它們能夠,或者將會能夠管理、邏輯檢查和控制大量數學家的貢獻,這些數學家各自提供他們的專業知識來共同進攻巨大的挑戰。這個過程需要時間,毫無疑問,但我期望數學研究將朝著這個方向發展,我期待著開發這些系統,以便將數學的廣泛知識匯集在一起,并幫助其他科學的發展。我確實相信AI工具可以幫助實現這個目標。
Q:只為跟進一下:您認為這是未來一代的光明未來嗎?您認為對下一代來說會更好嗎?
A:光明的未來是什么意思呢?當然,個人研究有一些美妙的特點,我們都知道那些在某個閣樓里坐著做出偉大工作的人的故事。但是當我看到我自己的工作,特別是在應用中,很明顯,沒有一個單獨的個體能夠解決這些問題。通常的做法是,你聚集具有不同知識的人,并試圖將這些知識匯集在一起,以解決真正的問題。這些軟件系統將有助于此。我堅信這會發生,也必須發生,因為我們所處時代的大挑戰不是你可以發揮一次天賦即可解決的問題。這是一項繁瑣的工作,需要將來自許多領域的人們的知識匯集在一起進行跨學科的工作。將要開發的軟件系統將有助于解決我們面前的問題。從這方面來說,我認為這是一個光明的未來。我們將能夠更好地裝備起來,解決我們時代的問題。
Q:非常感謝您的回答,感謝您今天與我們在一起。謝謝。
A:好的,也謝謝您。再見。
圖源:Ariel Cotton,已獲得CC BY-SA 4.0許可
附錄:2024-6 MaRDI簡訊《我沒有數據?》
“我是一名數學家,我不使用任何數據。改變我的主意?!?/strong>
在MaRDI團隊,我們不斷向數學家的普通受眾傳達項目的目標和使命。我們描述了數據在現代數學中的重要性和FAIR原則,并展示了MaRDI將為MaRDI任務領域中的一些關鍵社區提供的服務示例:計算代數,數值分析,統計學和跨學科數學。
然而,我們的聽眾通常由在數學其他領域工作的數學家組成,也許是拓撲學、數論、調和分析或邏輯學......他們認為自己不是非常重度的數據用戶。事實上,“我沒有數據”這句話是許多數學家都會贊同的說法。
在這篇文章中,我們轉錄了“無數據”數學家和“研究數據使徒”之間的虛構(但現實)問題和答案。
我以“傳統”的方式做數學。我閱讀文章和書籍,與合作者討論,思考問題,并最終撰寫和發表論文。我不使用任何數據!
也許我們需要澄清這些術語。我們將“研究數據”稱為為驗證原始研究結果而收集、觀察、生成或創建的任何信息。
如果你想到一個為統計分析而收集的大型實驗記錄數據庫,或者如果你想到一個程序的源代碼,是的,這些可以是研究數據的例子。但是,還有許多其他類型的研究數據。
您可能使用 LaTeX 來撰寫文章,并使用 BibTeX 來管理您的參考書目列表。您可以使用zbMATH或MathSciNet來查找參考書目,并使用arXiv來發現新論文或發布預印本。您的LaTeX源文件和參考書目列表是研究數據的示例。如果沒有數據管理思維,你就不會有像zbMATH或arXiv這樣的服務。
但是,在您的研究中,數據比電子手稿更多。如果您找到某些數學對象的分類,則該列表就是研究數據。如果你對這樣的對象進行可視化,那就是研究數據。你陳述和證明的每個定理都可以被認為是一個獨立的抽象研究數據。如果您有自己的工作流程來收集、處理、分析和報告一些科學數據,那么該工作流程本身就是有效的研究數據。
許多數學對象(函數、多面體、群)都具有可以在定理中解決的屬性。例如,“由于該函數的積分可以由常數C<1 限定......”。這些屬性收集在數據存儲庫(DLMF 等)中,這些存儲庫提供一致且統一的引用來收集這些數據。
您應該將研究數據視為可以標記、處理和構建以在研究領域創建知識的任何信息。這種觀點對于構建和使用每個數學家都可以從中受益的新技術和基礎設施很有用。
我想你說“一切都是數據”是為了給人一種印象,即 MaRDI 和其他研究數據項目非常重要......但是你的“數據定義”對我有什么影響?
這不僅僅是為了討論所下的定義。我們相信,有一種新的研究數據文化,來自各個領域的數學家都應該參與其中。研究數據文化是一種思考我們如何組織和構建所有人類數學知識、如何存儲和檢索這些知識、我們需要的技術基礎設施,以及最終如何使研究更輕松、更高效的方式。
想象一下,您正在尋找研究中需要的一些信息。當你尋找一個結果時,“數據單位”將是一個定理(可能連同它的證明、參考書目、作者身份......),而不是一篇文章或一本書。因此,考慮您的數據由定理而不是文章組成更有用。
然后,你的定理將適合你所在領域的一個更大的理論。當然,你可以在你的文章中解釋這一點,并鏈接到你的參考書目中的參考文獻,但你可能不會鏈接到特定的定理,有時你可能會錯過一些相關的參考文獻,當然你不能追溯鏈接到未來的工作。通過將結果視為數據,并允許知識基礎結構對其進行索引和處理,您的結果將被置于更好的上下文中,以便其他人查找、訪問和復用它們。您將參考其他人的結果,其他人也將參考您的結果。此外,它們將更好地順應該領域的演變和進步。
我認為MaRDI是關于構建基礎設施來管理大型數據庫和代碼項目。既然我不使用數據庫或程序,我為什么要對MaRDI感興趣?
MaRDI遠不止于此。誠然,處理這些類型數據(大型數據庫、大型源代碼項目等)的數學家需要可靠的基礎設施來托管和共享數據,需要使數據可互操作的標準,以及在大型項目中協作工作的方式。MaRDI通過設置任務組來滿足這些需求,這些任務組在每個領域(例如,在計算機代數或統計學中)開發必要的基礎設施。
但正如我們上面提到的,還有許多其他類型的數據:數學對象的分類、文獻(書籍和文章)、可視化、工作流程文檔等。MaRDI采用整體方法來研究數據,并滿足整個數學界的需求。
例如,MaRDI的哲學基礎是FAIR原則。首字母縮略詞 FAIR 的意思是研究數據應該是可查找的、可訪問的、可互操作的和可復用的,我們關于應用于數學研究的這些原則的文章,請參考。這些原則現在被廣泛接受為所有科學學科研究數據的黃金標準,它們是德國所有其他NFDI聯盟和其他國際研究數據計劃的基礎。
遵循FAIR原則與所有研究人員都息息相關。您的結果(您的數據)應該可供其他研究人員找到,這意味著要關心數字標識符和索引服務。委派和推送第三方搜索引擎并不是一個明智的策略。你的研究應該是可訪問的,這意味著你應該關注出版模型、數據的完整性或元數據結構。您的數據應該是可互操作的,這意味著您應該遵循社區中的常見做法來交換數據。至少,這可能意味著遵循結果的通用符號和慣例,以便它們可以在文獻中以最少的上下文改編進行翻譯。最后,您應該始終牢記,最重要的 FAIR 原則是可復用性。可復用性是可驗證性的基礎。記錄你的思維過程。分享見解與分享事實同樣重要。不被復用的研究是貧瘠的。
MaRDI旨在通過提高對這些原則的認識并鼓勵討論來設計最佳實踐或解決具體實際案例中的挑戰,從而傳播這種研究數據文化。由于這些討論影響到所有數學家,因此對MaRDI感興趣是有充分理由的。
此外,MaRDI致力于開發最能幫助數學家的服務。除了為上述任務領域開發的特定服務外,MaRDI還通過其主要和中央的MaRDI門戶面向所有數學家,這是一個知識庫,可以從研究數據的角度更好地管理所有數學知識。MaRDI還為可能影響數學和研究數據范式的社區架起了橋梁,例如形式化數學社區,該社區在邏輯或理論計算機科學以外的數學領域發揮著越來越大的作用。
你為什么要談論政治/哲學/倫理問題?MaRDI不應該只是一個技術項目嗎?
為了為未來的數學研究數據建立基礎設施,規劃必須伴隨著對指導原則的認真反思。我們之前提到的FAIR原則不是具體實現的技術規范,而是研究人員應該應用于其研究數據的一套哲學規則。執行和指導原則不能是獨立的。
MaRDI鼓勵辯論,并呼吁研究人員決定有關研究數據的挑戰性情況。例如,哪些是最佳出版實踐?研究人員應該在傳統期刊上發表文章嗎?在開放獲取期刊中?他們是否也應該在arXiv等預印本服務上發布一個版本(與最終版本相同或初步版本)?是否應該接受按發布付費的做法?在這種情況下,我們如何確保出版質量?這些問題是與處理研究數據相關的一個特定主題;因此,它們屬于MaRDI感興趣的領域。
MaRDI不會規定這些問題的絕對答案,但它會試圖激發和促進社區中關于這些微妙話題的討論。它將促進整個數學家社區可以達成一致的原則和共同點。然后,MaRDI將幫助建立必要的基礎設施,將這些原則付諸實踐。
MaRDI既不是監管機構,也不是提供產品和解決方案的公司。MaRDI是一個數學家社區。更準確地說,MaRDI是一組不同的數學家社區(計算機代數、數值分析、統計學和機器學習、跨學科數學),他們合作創建共同的基礎設施并促進數學研究數據的文化。MaRDI的范圍在德國,但它有一個明確的普遍使命,來自任何地方的其他數學家社區將來可能會補充MaRDI。因此,MaRDI是一個技術項目,當其成員,即面臨特定挑戰的研究人員,為要構建的基礎設施定義技術規范時。但MaRDI始終是一個社會和哲學項目,因為它的成員致力于為未來的數學研究構建工具。
那么,我應該以“數據”為題重寫論文嗎?
研究文章和書籍是并且可能永遠是研究人員之間交流結果的主要手段。你應該在寫論文時考慮你的同行數學家,他們會閱讀它們。你的研究論文是證明某些定理的第一個地方。它給你作者的信用,因此,它建立了一個新的數學知識領域。但與此同時,您的論文可以包含多種類型的數據,這些數據可以提取、自動處理,并可能包含在其他知識庫中。
想象一下,你的論文證明了一個關于所有維度6的流形的分類結果,這些流形滿足你最喜歡的一組屬性。其他維度呢?稍微不同的屬性呢?你的結果符合許多數學家為之做出貢獻的更廣闊的圖景。在某些時候,將所有這些結果收集到某個地方以獲得更完整的演示是有意義的。這可以是一篇調查文章/書籍,但有時最好以目錄的形式提供。在這種情況下,它將是按其不變量或某些特征分類的所有流形的列表。該目錄將用作一般索引,用于查找有關您最喜歡的流形的已知信息,并且從此目錄中,您可以獲得對原始文章的引用。
我們可以更進一步,問目錄是否是我們可以追求的最佳信息結構。在MaRDI,我們支持知識圖譜作為表示所有數學知識的一種方式。在知識圖譜中,每個節點都是一條信息(一個流形、一個流形列表、一個作者、一篇文章、一個算法、一個數據庫、一個定理......),每一條邊都是一個知識關系(這個列表包含這個流形,這個流形在這篇文章中研究,這篇文章是這個作者寫的......)
您可以通過思考和準備您的研究數據以包含在其中來幫助構建所有數學的知識圖譜。
我嘗試了MaRDI門戶來搜索我的一個研究主題。它返回了幾篇看起來非常像 zbMATH Open 的文章參考文獻。為什么我們需要另一個搜索引擎?
首先,請記住,門戶網站仍在開發中。其次,您獲得看起來像 zbMATH Open 的文章參考文獻也就不足為奇了。這正是它們的來源。MaRDI并不打算取代zbMATH或任何其他目錄或數據庫,相反,它旨在將它們集成到一個地方,具有更豐富的結構。
zbMATH 是一個目錄,MaRDI 門戶是一個知識圖譜。MaRDI 知識圖譜已經(部分)包括 zbMATH 目錄、swMATH 軟件目錄、數學函數數字圖書館 (DLMF)、綜合R存檔網絡(CRAN) 和離散幾何對象的 polyDB 數據庫。最終,它還將包括其他來源,如arXiv等。MaRDI 知識圖譜導入這些來源的條目,并在知識圖譜中為它們提供結構。圖表上的一些鏈接已經由來源提供,例如一篇文章參考文獻指向參考書目中引用的其他文章。MaRDI KG 面臨的挑戰是在圖形的不同部分之間填充更多鏈接,例如“此R庫使用本文中描述的算法”。
想象一下這個未來:您通過閱讀調查、參加會議或關注參考資料來了解一個新主題;你認為它可能對你的研究有用。通過一些查詢,您可以找到在該研究方向上發表的所有內容。您還可以找到哪些研究人員和大學或研究機構在該領域工作,以防您想取得聯系。您可以輕松即時地訪問所有這些出版物。您查詢一些分散在許多出版物中的一般信息(例如,對我最喜歡的任何維度流形的了解)。您可以獲得涵蓋所有相關文獻的答案。優化查詢后,您可以獲得更準確的結果,指向與您相關的特定定理。通過自動計算找到的結果(定理以及示例、列表、可視化等)附帶代碼,您可以在計算機虛擬機中輕松運行和驗證??梢哉业娇梢杂米鹘鉀Q具體問題的純工具的數學算法,并且可以即插即用到任何軟件項目中。數據庫和數學對象列表與出版物相關聯,所有結果都是可驗證的(甚至可能帶有正式的數學附錄)。知識圖譜為您提供了當前數學知識格局的準確快照,并且來自不同領域的豐富聯系。您不僅可以依靠知識圖譜作為獲取參考文獻的支持工具,還可以將其作為學習和促進數學研究的主要工具。這個未來還沒有到來,但它是那些建立MaRDI的人的驅動力。
參考資料
https://vimeo.com/962020198
https://www.mardi4nfdi.de/community/newsletter?opennl=999,995
https://www.imaginary.org/de/about
·開放 · 友好 · 多元 · 普適 · 守拙·
讓數學
更加
易學易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉載、投稿
查看原始文章出處
點擊zzllrr小樂
公眾號主頁
右上角
數學科普不迷路!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.