加強開放數據基礎設施建設,推動開放科學發展
當前,開放科學進入全球共識階段,科研人員基于活動論、方法論、方式論、過程論、文化論和實踐論等從不同視角對開放科學給出了不同的定義。開放科學將科學作為一種共同利益加以推廣,包括分享數據、方法、結果和由此產生的知識等。作為一種全新的知識體系,開放科學強調整個科學過程的透明,鼓勵開放獲取與合作。在更深層次的理解上,開放科學是科學研究范式的轉變,將深刻改變人類科學研究、科學發現的方式,對于加強科技合作,共同探索解決全球性挑戰具有重要意義。
為推動全球開放科學的發展,2021?年,聯合國教科文組織(UNESCO)大會第?41?屆會議審議通過《開放科學建議書》(Recommendation on Open Science),意在讓開放科學更透明、更可及,進而使其更加公平和包容。這不僅為開放科學提供了國際發展方向,還為個人、機構、國家、地區和國際等不同層面提供了促進交流、建立信任的渠道。
近年來,隨著大科學裝置的建設、重大科學實驗的實施,以及科學傳感器和傳感網絡的廣泛應用,產生了多源、異構、海量的科學數據。數據已不僅是研究過程中事實或觀察的結果,更成為研究的實體工具。數據密集型科學發現成為大數據時代的科學研究新范式。
開放科學數據是開放科學的核心要素之一。通常由政府和機構組織制定開放數據政策,定義共享數據類型、共享對象、共享條件。實現科學數據的公開使用、重復使用、長期保存和更新發布,將會大力促進開放科學的發展,提升科技創新活動的透明度、可重復性、協作性,并可最大化科學對社會發展的價值。
開放科學數據
科學數據,作為最基本、最活躍的一類科技資源,既是科技創新活動的重要產出,也是新一輪創新活動和經濟社會發展的重要基礎,具有巨大的應用和開發價值,在全球諸多國家機構得到高度重視。
開放科學數據是指可公開獲取,并可通過下載、復制、分析、再加工等方式,用于系統構建和任何其他應用目的科學數據。
國際開放科學數據的發展與現狀
在美國,開放科學數據已成為美國“信息自由、開放政府”的重要組成;德國科學基金會(DFG)2010?年發布的《研究數據操作指南》(Guidelines on the Handling of Research Data),明確“科學數據的共享與再利用對科學研究甚至人類社會都具有巨大意義”。國際科學理事會數據委員會(CODATA)2019?年發布的《科研數據北京宣言》(The Beijing Declaration on Research Data)指出,公共經費資助產出的科學數據應盡可能在全球范圍內共享重復使用。以?Dimensions?平臺統計數據為例,2012—2021?年全球開放科學數據集合計?9?918?741?條,其中中國擁有?253?441?條,繼美國之后排名全球第?2?位;在研究領域上,數據量排名前?3?位的學科分別為信息與計算機科學、信息系統、地球科學(圖?1)。
為推進開放數據更加規范化,2016?年?FAIR?原則——可查找(findable)、可獲取(accessible)、可交互(interoperable)、可重復使用(reusable)應運而生。作為?FAIR?原則的補充,CARE?原則——集體收益(collective benefit)、質量保證(authority to control)、責任(responsibility)、倫理(ethics)則倡導以目標為導向,發揮數據的創新作用。FAIR?原則強調技術進步,而?CARE?原則更側重政策變革,兩者相輔相成。
全球開放數據在眾多研究領域蓬勃發展。作為開放科學的引領者,天文學領域越來越多的數據資源實現了即時開放,如美國大型綜合巡天望遠鏡(LSST)。在空間科學領域的探索中,美國和加拿大最為積極,歐洲以試點為主,俄羅斯和日本則強調國際合作;在高能物理領域,依托大科學裝置的數據積累與協作管理經驗為全球大規模數據合作共享提供了典范。
我國開放科學數據發展與現狀
作為國家科技創新發展和經濟社會發展的重要基礎性戰略資源,開放科學數據已在我國全社會達成高度共識。
歷史上形成了豐富的、覆蓋各個領域的科學數據資源
據不完全統計,到?20?世紀末,我國已建成?5?000—6?000?個規模不等、質量參差的科學數據庫,涉及科學技術的各個領域。在科學數據采集和積累方面,初步形成了以部門為主體、科研院所和高等院校互補的格局,并逐步建立了專門的數據管理機構和國際數據合作與交換渠道。
據《國家科學數據資源發展報告(2018)》統計,截至?2017?年底,我國有效管理與保存的科學數據資源總量共計約?83.72 PB。其中,生命科學與醫學領域、地球與環境科學領域、物理與化學領域、對地觀測領域、天文與空間科學等5個領域數據積累分別為26.81 PB、24.48 PB、16.64 PB、9.73 PB?和?5.27 PB。
科學數據開放共享被逐步納入我國政策法規制度體系
我國一直重視科學數據的匯交管理與開放共享。先后從國家、部門多層面出臺相關政策,并從行動上予以落實。
2006?年,國務院發布《國家中長期科學和技術發展規劃綱要(2006—2020?年)》,明確提出要建設數字科技平臺,促進科學數據共享。我國逐步開始形成由以政府、行業機構和領域數據中心為主體的數據政策體系。2015?年,國務院印發《促進大數據發展行動綱要》,提出發展科學大數據的具體行動。2018?年,國務院辦公廳印發《科學數據管理辦法》,進一步明確了科學數據管理與共享的職責,并對科學數據的定義、管理、責任主體、使用方法、使用范圍和保密安全進行了清晰的界定,為科學數據的開放和共享奠定了基礎。
積極參與并推動國際科學數據合作共享
當前國際科學理事會(ISC)有兩大數據組織——國際數據委員會(CODATA)和世界數據系統(WDS,前身為世界數據中心?WDC),主要致力于將科學技術各領域從事數據工作的科學家組織起來,利用國際網絡構建全球尺度的科學數據交換體系。1988?年我國加入?WDS,并于當年建立了天文、空間科學、海洋、氣象、地質、地震、地球物理、冰川凍土、可再生資源與環境?9?個數據中心。目前,天文數據中心、空間科學數據中心和海洋數據中心均為?WDS?的常規成員機構。1984?年我國加入?CODATA。2011?年,我國學者在?CODATA?提出“手拉手合作伙伴計劃”,旨在促進國際項目之間的合作,幫助重復利用已有數據資源,減少重復勞動,提高科研成果產出,加速科研成果轉化,消減數字鴻溝。
2018?年立項的中國科學院戰略性先導科技專項(A?類)“地球大數據科學工程”(CASEarth)遵循從開放數據到開放科學的發展潮流,將人工智能賦能地球大數據,打造集數據、計算、服務于一體的數據共享新模式。同時,CASEarth?促進地球科學數據的整合,實現多學科數據關聯分析和信息融合,驅動重大科學發現與決策支持,應對全球可持續發展等重大挑戰。
在?CASEarth?基礎上,可持續發展大數據國際研究中心于?2021?年?9?月?6?日正式成立,旨在為解決中國乃至全球重大可持續發展問題提供基礎理論、技術方法、決策支持和智庫服務支撐。這是我國積極推動大數據服務于《聯合國?2030?年可持續發展議程》的重要舉措和創新方向。
積極創辦數據期刊和創建數據倉儲,推動數據開放共享
隨著開放數據理念不斷深入,我國也開始了科學數據期刊的建設。中國科學院計算機網絡信息中心于2016?年創辦的《中國科學數據》是我國目前首批面向多學科領域的數據期刊之一。生物學、遙感科學與技術和圖書情報學等領域享有較高聲譽的學術期刊也陸續設置了數據論文專欄。由國際數字地球學會和?CASEarth?共同主辦的?Big Earth Data?于?2017?年?12?月創刊,是全球首本聚焦大數據的地學刊物,旨在為從事地球大數據的采集、管理、處理、分析和可視化研究的學者搭建一流的國際學術交流平臺。
我國還在不同領域創建了數據倉儲平臺,來促進各領域數據資源的開放共享。國內多個數據平臺還被國際認證為數據倉儲中心,從而更好地保障了我國科學家的數據主權。
我國開放數據基礎設施的現狀與問題
開放數據基礎設施是支撐開放數據和滿足不同科學領域研究的共享設施,其發展是信息技術面向數字化、智能化演進的必然結果。數據中心是開放數據基礎設施的具體體現,以數據為核心,通過深度整合計算、存儲、網絡和軟件資源,實現開放數據的價值最大化。
開放數據基礎設施的要素包括數據、物理、技術、制度?4?部分。其中,數據要素是開放數據基礎設施的第一要素,包括數據集、數據標識和數據注冊等;物理要素是指面向數據標準、存儲、管理、共享、分析、使用所需的軟硬件基礎設施;技術要素是面指向開放數據基礎設施的核心技術研發,實現協作式和多學科數據分析的開放計算和數據處理能力;制度要素為開放數據和開放數據基礎設施的使用和管理提供政策指導。
開放數據基礎設施對促進開放科學實施的意義和積極作用
開放數據基礎設施是科研范式變革的重要助推劑,是重要科技突破的“新引擎”。隨著互聯網、大數據與人工智能的發展,科學發現的路徑進入了新階段。例如,中國科學院高能物理研究所與國家高能物理科學數據中心聯合研建的大規模分布式數據服務基礎設施平臺,通過超高速網絡將國際上重要的高能物理科學數據及計算資源進行整合,為粒子物理、天體物理、中子科學、光子科學等領域的科學發現提供數據服務。高海拔宇宙線觀測站項目(LHAASO)利用該平臺部署了?Coryda?數據處理系統,全面收集和處理超高能伽馬射線等宇宙線數據。以?2022?年為例,LHAASO?全年共采集了?11 PB?的數據,包含?10?萬億個宇宙線事例;數據和計算資源向全球開放,全年的數據訪問和處理量達到?448 PB,在宇宙線前沿研究方面獲得了“PeV?超高能光子”“超高質量暗物質壽命”等多項重大科技成果。
我國開放數據基礎設施的基礎與優勢
開放數據基礎設施的建設需求因所服務對象不同及應用差異而呈現多樣化。開放數據基礎設施主要可分為兩類:①大科學裝置,根據共性需求提供服務的國家基礎設施,是海量數據的生產單元;②科學數據中心,屬于集中式數據基礎設施,可支持跨學科領域的綜合研究。中國科學院在我國開放數據基礎設施建設和體系化運行中發揮了重要作用。
大科學裝置
我國大科學裝置最早可追溯到為“兩彈一星”研制任務建設的大型科研裝置。20?世紀?80?年代末中國科學院率先建設北京正負電子對撞機;我國“九五”“十五”期間建設了11項大科學裝置;“十一五”之后進入快速發展時期,“十二五”期間形成了建成?22?項、在建?16?項的布局;“十三五”“十四五”期間則逐步形成以綜合性國家科學中心為依托的大科學裝置建設規劃。目前,我國在建和運行的大科學裝置總量約?50?余個,部分裝置綜合水平進入全球“第一方陣”。
大科學裝置分為三大類:①專用研究設施,主要為特定學科領域的重大科學技術目標建設;②公共實驗設施,主要支撐多學科領域的基礎和應用研究服務;③公益科技設施,主要為國家經濟建設、國家安全和社會發展提供基礎數據。前兩類裝置一般通過實驗與觀測產生大量具有極高科學價值的數據,提供給專業領域和多學科用于科學研究;第三類裝置通過科學考察、綜合檢測等手段獲取科學數據及資源,為科學研究及國家發展提供保障。
大科學裝置是科學數據最重要的生產源。我國與世界發達國家都高度重視大科學裝置發展,但在對大科學裝置的地位和作用規定的內涵的定位上有很大差別,主要體現在我國更加突出“目標牽引、問題導向”。在國家有關部門的統一部署下,我國大科學裝置布局逐步完善、運行更加高效、產出更加豐碩,這對促進我國科學技術事業發展起到了巨大的支撐作用,為解決國家發展中遇到的關鍵瓶頸問題作出了突出貢獻。
科學數據中心
國際科學數據中心。國際科學數據中心是指面向國家和全球發展部署,服務解決重大科學問題,推動技術創新,促進可持續發展的基礎設施。例如,可持續發展大數據國際研究中心(CBAS)是典型的國際科學數據中心,其研發的大數據平臺系統(SDGs 大數據平臺)整合了基礎地理、遙感、地面監測、社會統計等多種數據,貫通“大數據存儲—管理—計算分析—可視化”流程;研發可持續發展目標(SDGs)數據產品生產系統,實現?TB?量級數據交互式在線分析,以及各類指標在線計算和可視化展示;研發?SDGs?專用存儲庫等核心功能,支持全球?SDGs?數據資源的持續匯聚與開放共享;建設支撐地球大數據管理、處理與分析的專有環境,具備每秒?1?000?萬億次的雙精度浮點超級計算能力,50 PB?數據存儲能力,10000 CPU?核心云計算能力。目前,平臺已匯聚數據量達?16 PB,可面向公眾、科研人員、決策者三類典型場景,提供“一站式”數據計算、分析、展示、共享服務,已通過?CODATA?的評估,科學數據服務于?174?個國家和地區。
國家科學數據中心。2019?年,為進一步完善科技資源共享服務體系,推動科技資源向社會開放共享,科學技術部、財政部聯合認定了?20?個國家科學數據中心(表?1),涵蓋了高能物理、空間科學與天文、生物基因、環境與生態、地質與地震、農林、氣象等領域,負責我國相關領域科學數據的匯交與共享、科學計算、數據技術研究等工作。至?2021?年底,國家科學數據中心匯集的數據超過?100 PB,每年被訪問的數據達數百?PB,提供的科學計算服務超過?1?億?CPU?小時,為科學發現、技術創新和國民經濟提供了重要支撐。
中國科學院科學數據中心體系。為落實《科學數據管理辦法》,2019?年?2?月中國科學院出臺《中國科學院科學數據管理與開放共享辦法》,并啟動建設了以“總中心-學科中心-所級中心”三類科學數據中心為核心,安全體系、運行體系和評價體系共同保障與驅動的一體化科學數據中心網絡。初步建成中國科學院科學數據中心體系(表?2),在支持我國科技創新方面取得了積極成效,在支撐國家重大戰略、重大工程建設中發揮了積極作用。
我國開放數據基礎設施發展面臨的挑戰
我國早期的開放數據基礎設施可靠性較差,且相對孤立。過去?20?年間,國家重點鼓勵創建數據門戶,重點解決科學數據的“可檢索、可瀏覽、可共享”的共性基礎問題,在開放數據公共平臺和配套設施建設方面取得了較大的進展。但總體來看,在促進數據重用、促進科研創新和社會開放創新等方面仍面臨巨大挑戰。具體存在?4?個方面的問題。
當前建設規模不能滿足日益增長的數據管理和使用的需要。從建設規模和財政資金投入而言,目前較為重視的仍然是大科學裝置層級或國家級數據基礎設施的建設,還無法滿足整個科技界乃至社會對開放科學數據管理和使用的需要。
現有標準體系和技術能力仍無法滿足建設需求。目前,針對大數據管理和處理標準、算法及工具層出不窮,但建設滿足各類需求的開放數據基礎設施挑戰仍然很大,包括:①缺乏有效的標準體系和查詢手段;②缺乏對體系架構的標準化建模,導致不同學科不同行業的數據很難重用,系統間集成和互通困難;③缺乏對數據管理標準化環節的重視;④缺乏有效的標準使用和升級指南,導致歷史遺留系統和新系統之間的兼容較為困難。
建設模式單一,支持數據整合、數據分析和支撐科技決策的功能較弱。當前,國內開放數據基礎設施的資金來源單一,跨部門跨領域的合作少,存在自成體系或者重復建設的情況。開放數據基礎設施目前主要支持對同領域同類型的數據整合功能,而對不同領域來源的不同類型的數據集進行整合、協同數據分析和支撐科技決策的功能較弱。
在科學數據長期保存和再利用方面缺乏整體規劃。我國大科學裝置產生的科學數據規模巨大,長期利用價值高。尤其是在大科學裝置或大科學項目結束運行后,需要有效的數據保存與管理、軟件與計算支撐、完善的技術檔案來確保科學數據的長期可用。目前除少數領域開始研究制定長期保存和再利用的規劃外,我國還缺乏相關的整體規劃。
除上述問題外,我國對開放數據基礎設施建設的政策尚缺乏系統性設計和全方位考慮,各級政府、各類機構發布的相關政策意見主要側重于“硬”條件的建設,而對“軟”內容建設的重視和支持不足。
加強我國開放數據基礎設施建設的思考與建議
開放科學數據需要強大的、可持續的基礎設施和健全的政策制度支持,開放數據基礎設施的實施路徑應以充分挖掘數據價值為目標,使數據“存得下、流得動、用得好”。針對我國開放數據基礎設施建設,提出以下?4?點建議。
加強頂層設計,統一規劃布局開放數據基礎設施建設,建立綜合性的國家數據中心和國際數據中心
開放數據基礎設施外延廣、內涵豐富,需要加強國家層面的頂層設計和實施路徑規劃,以保障開放數據基礎設施政策制定的連貫性和可操作性。
建議:開放數據基礎設施的建設應以開放數據平臺建設為核心。開放數據平臺以數據為主體,通過高度融合存儲、計算、網絡和軟件資源,實現開放數據的最大價值的挖掘。一方面,統籌開放數據平臺建設,研究確立開放數據平臺的整體框架、服務體系、認證標準和評價機制;另一方面,重視開放數據平臺的可持續發展,從制定差異化數據政策、提供數據采集和使用的評價、提供支持服務3個方面入手,進一步優化投入機制,鼓勵引導不同創新主體參與數據發展,形成以國家、部委和國家數據中心運行機構投入為主導,多元化投入相結合的數據資源建設和服務運行的資金保障體系,確保開放數據平臺的可持續發展。開放數據基礎設施建設有助于打破數據壁壘。我國現有開放數據基礎設施主要集中在各類學科數據中心或共享平臺,不能適應以大數據、物聯網、人工智能為代表的新技術革命蓬勃發展,無法加速多領域科學數據交叉應用和向現實生產力的轉化。建設綜合性基礎性國家數據中心和國際數據中心是必然的解決途徑。可持續發展大數據國際研究中心已經進行了先行探索,并取得了顯著成效,為推動我國的開放數據基礎設施的跨越式發展提供了經驗積累。
堅持合作開放的科學數據基礎設施云建設-云安全-云應用的實施路徑
開放數據基礎設施能有效提升科研的效率、參與度與可見性,加強科研質量與嚴謹度,促進科研團隊跨學科合作。2019年,在CODATA北京會議上,中國科學家代表提出協作共建“全球開放科學云”(GOSC)的倡議,目前已與全球主要信息基礎設施和國際組織、平臺達成廣泛共識并建立定期對話機制,研發構建了首個中歐跨洲際云聯邦實驗床。
建議:未來,我國應在國際大科學計劃、大科學裝置的牽引和推動下,充分發揮我國具有明顯優勢的數據資源的主導作用,著力推動相關數據分析方法及工具集合的研發,加強與國際組織、國家之間的溝通交流和培訓,積極參與并推動國際層面的數據共享與合作應用;同時,應充分發揮中國科學院開放基礎設施的引領和推動作用,合作建立國際共享的開放數據云服務體系。
營造融通數據生態,發展基于開放科學的創新驅動發展的范式
以開放數據獲取為前導發展起來的開放科學和公民科學,與可持續科學密切相關。面向發展與合作,科技創新應該主要體現在將科技進步用于創造新需求、新應用、新業態和新市場,同時創新科技合作模式。
近年,歐美等國新布局的一批科學數據基礎設施呈現問題導向、打破科學數據學科領域邊界的趨勢。例如,融合神經科學、分布式計算技術的歐洲腦研究基礎設施;支持能源消耗和綠色交易的歐洲計算/通信實驗大型研究基礎設施等。這些設施有望充分調動多領域數據資源,融合自然科學各領域、自然科學與社會科學,成為推進交叉融合和跨領域互操作的先行者,營造跨學科、跨尺度、跨時空的科學數據共享生態。
建議:鼓勵發起和建設科學、社會問題導向的科學數據基礎設施,調動盤活多學科、跨領域的科學數據資源,為解決大規模、復雜性科學問題和社會挑戰提供支撐。
發展基于開放科學的創新驅動發展的范式,重塑國際科技合作治理模式
開放科學有利于新科技革命和產業變革突破經典技術極限,形成新規則、新政策、新評估標準和新指標體系。開放科學通過對科學技術的兼收并蓄,耦合了不同地域、不同領域、不同團隊的科研優勢,利于促進全人類都能夠站在巨人肩膀上做科研,形成累積效應。開放科學數據是實現開放科學的基本條件之一。秉承開放科學理念,有利于迅速提升我國科研實力。
開放數據基礎設施作為開放科學數據的載體,可為政策制定者提供更為全面的綜合數據和信息,為全球性挑戰的綜合政策制定提供方案,同時也可為科研人員的跨領域、跨區域合作提供新路徑。
建議:遵循從開放數據到開放科學的發展潮流,利用云計算、大數據、區塊鏈等先進技術與方法,將人工智能賦能大數據,打造集數據-計算-服務于一體的數據共享新模式,促進多學科數據關聯分析和信息融合,深化多領域數據的綜合應用,驅動重大科學發現與決策支持。
(作者:郭華東、閆冬梅、何國金、梁棟、孔玲貽,可持續發展大數據國際研究中心、中國科學院空天信息創新研究院;陳和生、陳剛,中國科學院高能物理研究所;黎建輝,可持續發展大數據國際研究中心、中國科學院計算機網絡信息中心;馬俊才,中國科學院微生物研究所;編審:黃瑋,《中國科學院院刊》供稿)