推動我國大模型開源創(chuàng)新生態(tài)建設的挑戰(zhàn)與建議
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 大模型的涌現(xiàn)和同質(zhì)化能力不僅將大幅提升人類的認知效率,還將引發(fā)經(jīng)濟、社會、文化等領域的變革與重塑。世界主要國家爭相加快推進大模型發(fā)展,探索大模型發(fā)展的有效路徑成為當前關注的焦點。美國大模型開源創(chuàng)新生態(tài)的繁榮是其技術和產(chǎn)業(yè)發(fā)展始終走在前列的重要原因。一方面,大量開源的基礎大模型層出不窮,不斷推動底層技術性能的進步。例如,以開放式大語言預訓練模型OPT、GPT-NeoX-20B等為代表的早期開源大模型的推出促進了開源社區(qū)對大模型的研究,美國OpenAI公司推出的GPT大模型的早期版本也完全開源。開源情況下,研發(fā)者能直接接觸具有前沿性能的大模型,通過對已有開源大模型進行微調(diào)或者采用更大、更高質(zhì)量數(shù)據(jù)集及更大規(guī)模模型參數(shù)創(chuàng)建性能更優(yōu)的基礎大模型,推動開源大模型技術性能快速進步。另一方面,以開源大模型為基礎的開源應用不斷出現(xiàn),推動大模型產(chǎn)業(yè)的壯大。以AI(人工智能)繪畫生成工具Stable Diffusion為代表的開源大模型形成了廣泛的用戶社區(qū),衍生出極具多樣性的應用場景,打開了大模型產(chǎn)業(yè)應用的想象空間。
與之相比,盡管我國部分大模型性能突出,但大模型上下游產(chǎn)業(yè)鏈各個環(huán)節(jié)缺乏協(xié)同,存在競爭無序和資源浪費現(xiàn)象。一方面,存在大量未開源的低質(zhì)量大模型,導致低水平重復建設,難以真正推動我國大模型的發(fā)展;另一方面,大模型上游涉及的數(shù)據(jù)、算力,以及下游涉及的應用,均未能建立起真正的開源開放生態(tài),阻礙了我國大模型產(chǎn)業(yè)的發(fā)展。這一狀態(tài)將影響我國大模型產(chǎn)業(yè)的可持續(xù)發(fā)展,難以保障我國科技安全和產(chǎn)業(yè)鏈安全。
經(jīng)驗表明,開源創(chuàng)新生態(tài)能幫助匯聚全球開發(fā)者智慧以推動大模型技術進步,并激發(fā)社會創(chuàng)新活力加快大模型應用落地,能夠憑借開源開放這一全球公認的突破科技壟斷或制約的有力手段推動我國大模型及相關產(chǎn)業(yè)發(fā)展。然而,現(xiàn)有研究缺乏對大模型開源創(chuàng)新生態(tài)的關注。本文從上游供應生態(tài)、下游應用生態(tài)和治理協(xié)調(diào)生態(tài)3個維度回顧開源創(chuàng)新生態(tài)構建的相關經(jīng)驗;從關系到大模型性能的底層算法、數(shù)據(jù)和算力維度,大模型下游產(chǎn)業(yè)生態(tài)搭建現(xiàn)狀,大模型開源治理體系,以及政府系統(tǒng)協(xié)同政策推動方面,分析目前我國大模型開源創(chuàng)新生態(tài)構建存在的問題;在此基礎上,提出構建開源創(chuàng)新生態(tài)推動大模型產(chǎn)業(yè)發(fā)展的相關對策建議。
開源創(chuàng)新生態(tài)對發(fā)展我國大模型的重要意義
大模型是指包含超大規(guī)模參數(shù)(通常在10億個以上)的深度學習或機器學習模型,具有基礎資源門檻高、產(chǎn)業(yè)集群效應強和潛在壟斷性大等特點,后發(fā)企業(yè)難以快速形成行業(yè)積累實現(xiàn)追趕。開發(fā)貢獻者、行業(yè)開源者、開源使用者等多元創(chuàng)新主體基于開放、協(xié)作和共享理念,圍繞數(shù)字基礎設施構建協(xié)同創(chuàng)新和價值共創(chuàng)的開源創(chuàng)新生態(tài),有助于整合資源降低大模型研發(fā)成本,匯聚眾智促進大模型技術迭代演進,形成相對競爭優(yōu)勢,從而有效推動大模型的發(fā)展與趕超。
整合底層基礎資源,降低行業(yè)研發(fā)成本
大模型往往需要大量的訓練數(shù)據(jù)、多種不同的學習任務及強大的計算資源支撐,致使訓練成本巨大(例如,GPT-3的訓練據(jù)估計花費超過4 600萬美元)。開源創(chuàng)新生態(tài)一方面能夠促進基礎數(shù)據(jù)資源的自由流動和高速聚集整合,從頂層設計上擴大數(shù)據(jù)規(guī)模、提高數(shù)據(jù)質(zhì)量和多樣性,加強中文數(shù)據(jù)的標準化集成和持續(xù)積累優(yōu)化,為大模型算法和技術研發(fā)提供數(shù)據(jù)保障;另一方面可以提供基礎的大模型算法技術并促進算力基礎設施的共建共用,以低成本的開放協(xié)作模式推動開發(fā)者充分探索參數(shù)、數(shù)據(jù)和算力組合情況下的性能表現(xiàn),推動大模型整體的改進創(chuàng)新。由此,開源創(chuàng)新生態(tài)能夠通過數(shù)據(jù)共享、算法開源、算力基礎設施共建共用等方式,解決大模型研發(fā)和應用中單一機構難以完全滿足數(shù)據(jù)、算法和算力資源要求的問題,從而降低企業(yè)乃至全社會商業(yè)化大模型的成本。可見,開源創(chuàng)新生態(tài)有助于打破壟斷、降低大模型技術研發(fā)和優(yōu)化的競爭壁壘,提高大模型數(shù)據(jù)和算力等基礎設施的使用效率,加速推動我國大模型技術的創(chuàng)新發(fā)展及快速應用。
推動技術透明可信,促進技術迭代創(chuàng)新
大模型高昂的研發(fā)成本限制了學術界、非營利組織和較小規(guī)模工業(yè)實驗室研究人員對大模型的研究和訪問;不僅如此,閉源的大模型研發(fā)過程大幅降低了技術透明度和可信度,難以匯聚社會多方力量深化對大模型技術相關道德倫理風險的認知,進而阻礙大模型技術在各行業(yè)中的落地應用。大模型開源創(chuàng)新生態(tài)能降低各方潛在參與者參與大模型研究的難度,使得研究者更好理解大模型工作原理,提升社會對大模型應用接受度。同時,大模型的發(fā)展具有較強的產(chǎn)業(yè)集群效應(圖1),開源創(chuàng)新生態(tài)有助于數(shù)據(jù)、算法和算力全方位協(xié)同,供應商、從業(yè)人員、平臺、服務、數(shù)據(jù)和生產(chǎn)有效結合,加快大模型在各個產(chǎn)業(yè)中的應用,促進從模型層、中間層到應用層的多元主體價值共創(chuàng)。開源開放有助于建立社會對大模型技術的信任,推動不同級別大模型在各個行業(yè)的應用,而通過廣泛應用場景積累的技術需求和技術問題將反哺大模型技術本身,推動大模型技術迭代發(fā)展。
以非對稱競爭優(yōu)勢,打破潛在行業(yè)壟斷
開源開放是全球公認的突破科技壟斷或制約的有力手段,推動大模型開源創(chuàng)新生態(tài)建設不僅將為我國大模型技術提供新的發(fā)展機遇,還有望推動我國大模型產(chǎn)業(yè)出海,打破潛在行業(yè)壟斷,化被動為主動。“微軟Windows+OpenAI大模型+英偉達GPU”通過強強聯(lián)合綁定形成新的壟斷生態(tài),阻礙我國信創(chuàng)產(chǎn)業(yè)發(fā)展、威脅我國信創(chuàng)產(chǎn)業(yè)的科技安全和產(chǎn)業(yè)鏈安全。大模型開源創(chuàng)新生態(tài)能充分發(fā)揮我國在開源芯片等領域的技術優(yōu)勢,并通過集中攻關開辟新賽道形成非對稱競爭優(yōu)勢。同時,推動我國大模型開源創(chuàng)新生態(tài)在全球大模型生態(tài)中占據(jù)一席之地,可為我國大模型技術在其他國家的應用提供良好契機。這能夠打破國外大模型的潛在壟斷生態(tài),擺脫對歐美科技基于封閉知識產(chǎn)權的“非對稱依賴”。既往發(fā)展經(jīng)驗表明,構建開源創(chuàng)新生態(tài)不僅能推動上下游相關產(chǎn)業(yè)健康有序協(xié)同發(fā)展,還能掌握一定技術發(fā)展路線話語權和主導權,使我國軟件產(chǎn)業(yè)牢牢嵌套在國際整體生態(tài)之中,打破制約壟斷。
構建開源創(chuàng)新生態(tài)的國際經(jīng)驗
開源運動從軟件代碼的公開協(xié)作開始,其開放共享的理念逐步擴散到計算機及相關產(chǎn)業(yè)的方方面面。越來越多來自全球的個人開發(fā)者和組織積極投身到開源運動中,數(shù)十年間國際上圍繞開源逐步構建起穩(wěn)固完善的上游供應生態(tài)、豐富多元的下游應用生態(tài)和公開有效的治理協(xié)調(diào)生態(tài),其發(fā)展經(jīng)驗值得借鑒以構建我國大模型開源創(chuàng)新生態(tài)。
構建穩(wěn)固完善的開源上游供應生態(tài)
上游供應生態(tài)的發(fā)展為開源項目的技術進步和持續(xù)創(chuàng)新奠定了基礎。
支持開發(fā)者的開發(fā)工具和資源是上游供應生態(tài)的關鍵組成部分。開源項目可以為開發(fā)者提供友好的協(xié)作工具、文檔和教育資源,以幫助他們理解和使用項目,提高開發(fā)效率并確保代碼質(zhì)量。在國際大模型開源過程中,這些開發(fā)工具和資源也被大量采用。例如,開源分布式版本控制系統(tǒng)Git為開發(fā)者提供了管理代碼版本、協(xié)作開發(fā)和代碼審查等功能,其廣泛應用使得開發(fā)者能夠更好地管理和追蹤代碼的變更,同時也有助于團隊間的協(xié)作和合作。集成開發(fā)環(huán)境(IDE)和編程語言工具鏈等開發(fā)工具為開發(fā)者提供了高效的編寫環(huán)境,Visual Studio Code、Eclipse、PyCharm等開放的集成開發(fā)環(huán)境提供了豐富的功能和插件生態(tài)系統(tǒng),使得開發(fā)者能夠高效地編寫、測試和調(diào)試代碼。
支持開發(fā)者的數(shù)據(jù)是上游供應生態(tài)的關鍵一環(huán)。作為軟件開發(fā)的重要底座,數(shù)據(jù)對應用性能訓練的提升至關重要。開放的數(shù)據(jù)集不僅有利于構建公開透明的協(xié)作環(huán)境,同時能大幅降低技術開發(fā)前期成本及開發(fā)門檻,推動技術進步。目標檢測、自動駕駛、人臉識別、自然語言處理、文本監(jiān)測、醫(yī)療等方向均有大量經(jīng)典開源數(shù)據(jù)集,例如人臉識別領域的YouTube Face Database包含1595個不同人的3425個視頻,總計671.41 GB數(shù)據(jù),能夠幫助訓練優(yōu)化人臉識別算法,減少開發(fā)人員在技術早期開發(fā)過程中遇到的困難。這些經(jīng)典開源數(shù)據(jù)集也是大模型產(chǎn)生之初可靠的數(shù)據(jù)來源。
打造豐富多元的開源下游應用生態(tài)
下游應用生態(tài)包括開源軟件的應用和集成,以及相關的商業(yè)生態(tài)系統(tǒng)。豐富多元的下游應用生態(tài)能吸引更多開發(fā)者和企業(yè)使用、擴展和創(chuàng)造基于開源項目的應用,促進相關產(chǎn)業(yè)的繁榮發(fā)展。以往的開源下游應用生態(tài)構建經(jīng)驗值得我國在打造大模型開源下游應用生態(tài)過程中學習。
廣泛的用戶和開發(fā)者參與,從不同的角度和需求出發(fā)為軟件貢獻代碼、提供反饋并解決問題,從而推動軟件本身的發(fā)展和改進。例如,Android移動操作系統(tǒng)的成功很大程度上得益于其擁有豐富多樣的下游應用。開發(fā)者可以通過使用Android開發(fā)工具包(SDK)創(chuàng)建應用程序,并通過Google Play商店這一應用市場將大量涵蓋各種領域和需求的應用程序分發(fā)給用戶。由此,Android打造的多元下游應用生態(tài)為用戶提供了廣泛的選擇,這種繁榮的應用生態(tài)系統(tǒng)吸引了全球范圍內(nèi)的開發(fā)者和企業(yè),推動了Android平臺的發(fā)展和創(chuàng)新,促進Android系統(tǒng)產(chǎn)業(yè)整體的發(fā)展。又如,OpenAI也開放其大模型應用程序接口(API),鼓勵其他開發(fā)者將其大模型服務集成進其應用產(chǎn)品中,充分開發(fā)下游應用生態(tài)。
通過專門的支持機構或社區(qū)來提供技術支持、文檔、培訓和社區(qū)管理等服務。這可以幫助用戶和開發(fā)者更好地理解和使用開源軟件,并解決在實際應用中遇到的問題。例如,開源機器學習框架TensorFlow和PyTorch都有龐大的社區(qū)支持和專門的支持機構。這些支持機構提供了官方文檔、教程、示例代碼等資源,幫助用戶和開發(fā)者學習和使用這些框架。同時,還通過舉辦培訓課程、開發(fā)者大會等活動,促進用戶和開發(fā)者之間的交流和合作。
發(fā)展基于開源軟件的下游商業(yè)生態(tài)系統(tǒng)。開源軟件商業(yè)生態(tài)系統(tǒng)的核心在于開源軟件的產(chǎn)品和服務提供商,他們在開源軟件的基礎上通過提供定制化的解決方案、額外高級功能、代碼托管或整合、搭建并運營插件市場、提供培訓和咨詢等運維服務等模式(表1)來謀求商業(yè)回報。經(jīng)驗表明,開源商業(yè)化有助于開源產(chǎn)出成果發(fā)揮價值,幫助其實現(xiàn)“價值創(chuàng)造—價值實現(xiàn)—價值分配”的合理閉環(huán)。形成有效商業(yè)模式的下游開源商業(yè)生態(tài)系統(tǒng)不僅對開源項目本身的健康可持續(xù)發(fā)展具有重要作用,還能促進同類技術的持續(xù)創(chuàng)新和市場競爭。美國大模型領域也積極探索開源商業(yè)化模式,意圖構建起繁榮可持續(xù)的開源大模型下游商業(yè)生態(tài)。例如,美國Stability AI公司通過開發(fā)開源大模型Stable Diffusion的商用版本,為客戶提供定制拓展服務來促進大模型的應用。
培育公開有效的開源治理協(xié)調(diào)生態(tài)
開源治理協(xié)調(diào)生態(tài)涉及開源項目的決策、管理和社區(qū)參與等方面,開源治理協(xié)調(diào)生態(tài)的健康發(fā)展對于項目的長期穩(wěn)定和社區(qū)的繁榮至關重要。主要包括以下3個方面。
公開透明的決策流程和溝通機制能使所有人了解技術路線決策細節(jié),從而對項目建立長期的信任,促進參與和合作。例如,在美國發(fā)布的Linux內(nèi)核社區(qū)采用郵件列表作為主要溝通方式,由此使得項目成員能隨時了解項目發(fā)展方向和最新動態(tài);通過一系列公開的解釋文檔詳細說明了技術開發(fā)相關的決策執(zhí)行機制和協(xié)作模式。所有決策流程和相關信息公開可追溯增強了社區(qū)的信任感,鼓勵更多人參與到開源項目貢獻中,從而促進了項目的健康長久發(fā)展。
建立有效的沖突解決機制也是構建成功開源治理協(xié)調(diào)生態(tài)中的關鍵一環(huán)。例如,位于美國的云原生計算基金會(CNCF)下設技術監(jiān)督委員會來協(xié)調(diào)組件之間兼容性沖突,其技術監(jiān)督委員會成員通過選舉產(chǎn)生,其成員來自供應商、最終用戶等多個方面,能充分代表開源社區(qū)內(nèi)各方的利益,有助于維護社區(qū)的和諧與穩(wěn)定,并推動項目的進展。
良好有效的開源制度設計對開源參與者長期可持續(xù)參與到開源項目貢獻之中非常重要。其中,開源許可證是開源制度設計中的關鍵,它決定了如何使用、修改和分發(fā)開源軟件。選擇符合項目目標和社區(qū)需求的開源許可證能保護貢獻者的權益、推動創(chuàng)新和知識共享。常見的開源許可證包括MIT許可證、Apache許可證和GNU通用公共許可證等。阿聯(lián)酋開發(fā)的Falcon大模型就采用Apache-2.0許可證,其成為第一個可以免費商用的開源大模型,這將促進其模型在科研及商業(yè)化中的應用。
我國大模型開源創(chuàng)新生態(tài)建設面臨的挑戰(zhàn)
我國開源創(chuàng)新生態(tài)尚處于初步探索階段,社會對開源認知不夠,且缺乏建設開源創(chuàng)新生態(tài)的經(jīng)驗及配套完善的體制機制。大模型作為新興技術和產(chǎn)業(yè),其開源創(chuàng)新生態(tài)的建設將面臨更大的挑戰(zhàn)。一方面,我國大模型底層基礎研究能力相對薄弱,數(shù)據(jù)和算力基礎制約大模型性能提升;另一方面,大模型產(chǎn)業(yè)內(nèi)各類創(chuàng)新主體間未形成有效協(xié)同,產(chǎn)業(yè)內(nèi)無序競爭引發(fā)亂象叢生。這些挑戰(zhàn)不僅限制了我國大模型進一步的發(fā)展應用,更阻礙了我國大模型參與國際競爭,在全球范圍內(nèi)影響力的輻射擴散。
系統(tǒng)協(xié)同政策架構設計缺失
盡管我國在國家層面(表2)及各省級地方政府層面(表3)均高度重視大模型發(fā)展,從算力支持、場景開放、技術突破、產(chǎn)品生態(tài)等多方面積極出臺大模型產(chǎn)業(yè)發(fā)展措施,鼓勵大模型應用落地。然而,我國現(xiàn)有政策系統(tǒng)性不足,主要集中在大模型本身,對大模型產(chǎn)業(yè)鏈條的其他環(huán)節(jié)關注不夠,尤其是數(shù)字公共產(chǎn)品制度、開源商業(yè)化制度等適應開源創(chuàng)新生態(tài)的體制機制建設尚不健全,導致產(chǎn)業(yè)鏈上下游協(xié)同不足,難以滿足建設大模型開源創(chuàng)新生態(tài)需求。同時,各部門間缺乏有效信息互通、各地政府間技術要素不流動,政策趨同致使無法形成合力推動人工智能大模型產(chǎn)業(yè)整體發(fā)展,未充分發(fā)揮出對實體經(jīng)濟的賦能作用。多個部門同時負有促進大模型應用落地、產(chǎn)業(yè)繁榮的職責,部門職能存在重疊導致政策間的協(xié)調(diào)不足,無法充分發(fā)揮政策指導促進的作用。
技術能力制約生態(tài)形成
我國大模型整體技術實力與國外頭部企業(yè)差距明顯,在算法、人才和科研投入方面與國外頭部企業(yè)差距較大,同時部分關鍵核心技術尚未突破,尚未形成促進國產(chǎn)大模型發(fā)展的支撐基礎。根據(jù)權威測評榜單Super CLUE的評測,截至2023年10月,GPT-4、Claude2和GPT-3.5在基礎模型領域綜合排名前3位(圖2),我國基礎模型在計算、代碼、生成與創(chuàng)作、上下文對話、角色扮演、工具使用方面得分與GPT-4的相應指標相差10分以上,部分指標接近GPT-3.5,僅在中文知識題目方面明顯優(yōu)于國際模型。大模型廠商技術上的基本同源導致現(xiàn)階段較為相似的模型性能,尚未形成顯著技術性能優(yōu)勢,同質(zhì)化嚴重影響了下游應用生態(tài)的構建。同時,我國基礎模型缺乏原創(chuàng)性,版本迭代和技術演進高度依賴國外進展。特別是我國目前廣泛應用的主流模型大多基于Transformer架構,而非我國自主研發(fā)的架構,在一定程度上制約了我國國產(chǎn)大模型自主創(chuàng)新生態(tài)的形成。
數(shù)據(jù)算力顯著限制技術發(fā)展
OpenAI、Google人工智能研究團隊相繼證明,人工智能模型的性能隨著模型規(guī)模的指數(shù)級上升而線性增長,并在模型規(guī)模達到某個閾值時對某些問題的處理性能突增,具備涌現(xiàn)能力。這一現(xiàn)象凸顯數(shù)據(jù)和算力在提升大模型性能中的重要意義。在數(shù)據(jù)方面,盡管我國已有部分中文開源數(shù)據(jù)集,但從數(shù)據(jù)規(guī)模和語料質(zhì)量上均與海外有較大差距,且部分內(nèi)容較為陳舊,高質(zhì)量全面完整可信的開放中文數(shù)據(jù)集匱乏。同時,我國尚未建立有效的數(shù)據(jù)流通規(guī)則和數(shù)據(jù)供需對接機制,企業(yè)獲取數(shù)據(jù)資源的成本極高。數(shù)據(jù)產(chǎn)品供應鏈尚不完善嚴重制約了我國大模型的訓練表現(xiàn)。在算力方面,中國、美國在全球算力規(guī)模中的份額分別為33%、34%,其中以圖形處理器(GPU)和神經(jīng)網(wǎng)絡處理器(NPU)為主的智能算力規(guī)模方面中國高于美國,分別為39%、31%,具備發(fā)展大模型產(chǎn)業(yè)的有利基礎。然而,現(xiàn)階段國產(chǎn)GPU性能難以滿足大模型訓練要求,與國際主要采用的英偉達A100芯片存在顯著差距。例如,國產(chǎn)算力最高的昇騰910芯片計算速度(320 TFLOPS)僅與英偉達A100 PCle版本持平,與英偉達H100 NVL版本相差10倍以上(表4)。另外,國產(chǎn)人工智能智算芯片配套的編程環(huán)境尚不成熟。與英偉達的并行計算平臺和編程模型(CUDA)工具包相比,我國相應軟件生態(tài)建設仍需加強,這是一個投入巨大并且漫長的過程。
創(chuàng)新主體無序競爭制約整體發(fā)展速度
包括:“百模大戰(zhàn)”引發(fā)無序競爭,由于數(shù)據(jù)“孤島”、賽道重疊、市場競爭等原因企業(yè)各自為戰(zhàn),造成資源投入分散、共創(chuàng)共建開源意愿不足等問題。數(shù)據(jù)顯示,截至2023年10月,我國有互聯(lián)網(wǎng)企業(yè)(百度、字節(jié)跳動、阿里巴巴等)、新興創(chuàng)業(yè)公司(百川智能、MiniMax、月之暗面等)、傳統(tǒng)AI企業(yè)(科大訊飛、商湯科技等),以及高校科研院所等254家單位開展了通用大模型研發(fā),導致資源碎片化投入,重復低水平建設,計算資源競爭加劇。國產(chǎn)大模型應用軟硬件適配與協(xié)同優(yōu)化尚顯不足,軟硬件生態(tài)有待進一步豐富。對比國內(nèi)外大模型產(chǎn)品應用流量來源,國外大模型來自移動端的用戶流量遠高于國產(chǎn)大模型,且國產(chǎn)大模型產(chǎn)品應用在電子郵件、社交應用程序、自然搜索等外接應用流量上也遠低于ChatGPT(表5)。現(xiàn)有國產(chǎn)大模型尚未探索出合適的大模型開源商業(yè)模式。我國在開源商業(yè)化方面的實踐經(jīng)驗不足,采取的開源商業(yè)策略單一,企業(yè)多面臨“技術業(yè)務兩張皮”的困境,尚未實現(xiàn)諸如微軟Office365 Copilot、ChatGPT企業(yè)版等對企產(chǎn)品的商業(yè)化落地,難以搭建起可持續(xù)的大模型下游開源商業(yè)生態(tài)。目前,按照交易量收取費用、定制開發(fā)收取費用是國產(chǎn)大模型產(chǎn)品主要收費模式,這些商業(yè)模式難以覆蓋大模型開發(fā)所需的巨大算力及人力成本,且多為一次性付費,致使與軟硬件生態(tài)之間的開源協(xié)作受阻。
開源支持體系建設水平較低
目前,我國從大模型開發(fā)、訓練到應用的全鏈條開源支持體系水平較低,不利于集中優(yōu)勢力量,阻礙了技術突破的步伐。在開源開發(fā)平臺方面,我國Gitee、GitLink、AtomGit等開源代碼托管平臺發(fā)展尚不完善。例如,國內(nèi)Gitee等代碼托管平臺因網(wǎng)絡及設備故障而導致用戶存儲代碼丟失的大型故障時有發(fā)生,且維護不透明,運營穩(wěn)定性較差,因此難以維持用戶使用黏性;而國外的美國Github專門有網(wǎng)站記錄所有故障及修復時間,穩(wěn)定的運營機制極大增強了用戶信任度,從而促進了用戶的使用量。這一差距充分反映在訪問統(tǒng)計數(shù)據(jù)上,我國開源代碼托管平臺Gitee的每月訪問量為800萬次,美國Github平臺則高達4.32億次。在開源測試和訓練平臺方面,國際流行的人工智能開源模型庫和社區(qū)平臺Hugging Face發(fā)展至今已集成了超過50萬具備圖像識別、語音生成、文本生成等多種功能的開源大模型和超過11萬包含多種數(shù)據(jù)類型的高質(zhì)量開源數(shù)據(jù)集,有全球超過5萬家組織使用該平臺,形成了較為成熟的大模型開源工具平臺生態(tài)。然而,我國類似的開源平臺發(fā)展仍處于初級階段,ModelScope魔搭開源平臺不僅公布的數(shù)據(jù)集、模型質(zhì)量參差不齊,部分有較多漏洞,難以進一步開發(fā)優(yōu)化或直接應用,而且開源共建水平較低,如ModelScope魔搭社區(qū)開源的2 158個模型中接近60%的模型由排名前10位的貢獻者捐出,超1/3模型由阿里巴巴達摩院一家貢獻。大模型開源代碼托管、訓練、測試平臺的低水平致使國產(chǎn)大模型往往托管在國外平臺上,造成我國大模型的訓練環(huán)境和應用場景流失在國外,難以保留在國內(nèi),不利于自主發(fā)展。在開源治理協(xié)調(diào)平臺方面,我國相關治理機構缺乏與業(yè)界的及時深度交流,導致對開源大模型中涉及的“開源”認定、版權歸屬界定等關鍵問題認知不足,難以在負責任開源大模型生態(tài)建設過程中發(fā)揮引導和平衡作用。同時,開源基金會等開源促進組織發(fā)展尚處于初級階段,開源項目運營經(jīng)驗不足,運營能力欠缺,難以有效支持大模型開源項目的持續(xù)發(fā)展。
我國構建大模型開源創(chuàng)新生態(tài)的建議
我國應充分吸收開源創(chuàng)新生態(tài)構建經(jīng)驗,秉持開源開放的理念構建大模型開源創(chuàng)新生態(tài),推動大模型全產(chǎn)業(yè)鏈的繁榮有序發(fā)展。一方面,政府要處理好打造大模型開源生態(tài)過程中政府和市場之間的關系,相關部委要明確職責,形成政策合力。另一方面,社會要建立起對開源的合理認知,通過數(shù)字公共品制度等探索構建符合大模型產(chǎn)業(yè)特性的開源治理體系,推動形成涵蓋大模型上下游全產(chǎn)業(yè)鏈的健康開源創(chuàng)新生態(tài),促進大模型產(chǎn)業(yè)創(chuàng)新與可持續(xù)發(fā)展。具體包括以下4個方面。
加強頂層設計,明確各個部門職責
建議效仿中央科技委員會統(tǒng)籌全國科技發(fā)展總體部署的機制,國家層面建立統(tǒng)籌大模型發(fā)展的組織或機制。明確中央網(wǎng)絡安全和信息化委員會辦公室、國家發(fā)展和改革委員會、工業(yè)和信息化部、科學技術部、教育部、國家數(shù)據(jù)局等相關部委在大模型及上下游產(chǎn)業(yè)鏈各環(huán)節(jié)發(fā)展中的具體職責,并進行有效統(tǒng)籌。持續(xù)關注大模型產(chǎn)業(yè)及上下游發(fā)展需求,為打造可持續(xù)的大模型開源創(chuàng)新生態(tài)提供協(xié)同有差異的政策支持與資源保障,形成合力促進大模型產(chǎn)業(yè)發(fā)展。
以數(shù)據(jù)、算力和算法為抓手補短板、固底板,推動產(chǎn)學研持續(xù)投入大模型開源技術研發(fā)。建議由中央網(wǎng)絡安全和信息化委員會辦公室、工業(yè)和信息化部負責大模型產(chǎn)業(yè)培育引導,科學技術部、中國科學院、教育部等合作推動大模型底層技術及原理研究,培養(yǎng)產(chǎn)業(yè)發(fā)展所需的人工智能架構設計方面人才,國家發(fā)展和改革委員會牽頭地方政府做好算力中心、跨區(qū)域算力網(wǎng)絡的建設及運營;數(shù)據(jù)局厘清數(shù)據(jù)產(chǎn)權、數(shù)據(jù)資產(chǎn)評估等相關阻礙數(shù)據(jù)產(chǎn)業(yè)鏈發(fā)展的相關問題,推動上游數(shù)據(jù)產(chǎn)業(yè)鏈繁榮有序健康發(fā)展。
打造共享的大模型研發(fā)基礎體系
建設開放國家算力平臺支持大模型訓練。解決跨數(shù)據(jù)中心算力協(xié)同面臨的相關體制機制挑戰(zhàn),提高各地已有智算中心的利用率和使用效率。推動國家實驗室算力平臺向社會開放,支持組建算力聯(lián)盟引導算力開放,集中高檔GPU算力資源,降低各類大模型研發(fā)訓練成本。設立國家級開源項目推動頭部科技企業(yè)搭建公共大模型基礎平臺、構建低代碼開發(fā)工具,促進上、中、下游企業(yè)間的協(xié)同創(chuàng)新。加快落實《算力基礎設施高質(zhì)量發(fā)展行動計劃》,發(fā)揮算力對大模型發(fā)展的驅(qū)動作用。
推動建立國產(chǎn)智算芯片開源編譯生態(tài)。統(tǒng)一各國產(chǎn)智算芯片編譯環(huán)境接口,構建類CUDA平臺打通硬件和AI訓練之間的中間軟件層,加大對適應人工智能計算所具有的計算密度高、需要大量低精度計算等特點的軟硬件協(xié)同設計研發(fā)。這能夠降低采用不同GPU進行大模型訓練時額外的學習成本,有利于大模型發(fā)展。同時開源所匯聚的合力能降低芯片廠家的開發(fā)成本,促進算力領域技術研發(fā),加快國產(chǎn)GPU芯片發(fā)展。注重與國內(nèi)硬件生態(tài)連接,形成軟硬件有效協(xié)同,提升產(chǎn)業(yè)創(chuàng)新體系整體效能。通過設立大模型開源大基金等方式,推動國產(chǎn)大模型開源軟硬件生態(tài)發(fā)展,形成基礎軟硬件與大模型有效協(xié)同。
促進開放數(shù)據(jù)體系建設。發(fā)揮國家數(shù)據(jù)局的統(tǒng)一協(xié)調(diào)作用構建高質(zhì)量數(shù)據(jù)集,擴大政府開放數(shù)據(jù)范圍并通過建立多層次數(shù)據(jù)開放體系加強數(shù)據(jù)交換共享,形成大模型發(fā)展的開放數(shù)據(jù)支撐。加快構建有利于促進大模型產(chǎn)業(yè)發(fā)展的數(shù)據(jù)版權制度,借鑒國外大模型訓練版權責任豁免機制,探索實現(xiàn)更為邏輯周密和利益平衡的數(shù)據(jù)版權規(guī)則設計。
強化全產(chǎn)業(yè)鏈開源開放體系建設
加強大模型相關全產(chǎn)業(yè)鏈生態(tài)布局,推動大模型開發(fā)、訓練、應用全鏈條支撐平臺有組織地建設,由中立的組織機構主導、科技企業(yè)參與大模型產(chǎn)業(yè)創(chuàng)新生態(tài)基礎層和模型層的開源,由科技企業(yè)主導大模型產(chǎn)業(yè)創(chuàng)新生態(tài)中間層和應用層的開源。
從產(chǎn)業(yè)生態(tài)的角度引導推動大模型產(chǎn)業(yè)應用落地。全面調(diào)研和布局大模型相關的產(chǎn)業(yè)鏈,促進開源大模型在行業(yè)核心應用場景如生物醫(yī)藥、智能化教育教學、智能制造等領域進行應用示范,推動開發(fā)各類新型應用場景,支持AI創(chuàng)新企業(yè)采用公共算力開發(fā)行業(yè)智能應用,引導行業(yè)用戶與大模型廠商合作,推動各行業(yè)智能化升級。
加強面向開源代碼的計算和訓練型大模型平臺的設計開發(fā)和推廣。對標GitHub和Hugging Face等建設利于大模型開發(fā)、測試和訓練的開源平臺,開展我國開源平臺建設工作,助力大模型的利用和推廣。發(fā)揮開源基金會或新型研發(fā)機構作用,引導企業(yè)依托國內(nèi)代碼托管平臺開源一批具有行業(yè)影響力的軟件項目,積極培育我國開源生態(tài)環(huán)境。
探索新型大模型商業(yè)開源運營機制。借鑒OpenAI的“非營利性機構+有限入股營利回報”模式,加強市場主導和產(chǎn)業(yè)政策支撐共同推進基礎大模型市場建設,構建可持續(xù)的開源創(chuàng)新成果商業(yè)模式。
鼓勵社會資本參與開源大模型技術的產(chǎn)業(yè)投資。推動社會資本參與大模型產(chǎn)業(yè)的風險投資和產(chǎn)業(yè)投資,探索建立線下孵化器空間,聯(lián)合開源社區(qū)及代碼托管平臺共同打造線上線下融合、極具活力的開發(fā)者社區(qū),促進開源大模型下游商業(yè)生態(tài)繁榮發(fā)展。
完善開源創(chuàng)新治理體系鼓勵發(fā)展
推動商業(yè)開源政策研究。研究制定有利于開源商業(yè)化實施的相關政策,推動建成公眾貢獻數(shù)據(jù)和使用數(shù)據(jù)行業(yè)規(guī)范等數(shù)字公共產(chǎn)品制度,強化開源許可證的法律效力,有力保護開源成果知識產(chǎn)權,將“開源不等于免費”的開源理念貫徹到大模型產(chǎn)學研用全過程。研究制定實驗室開源大模型開源許可機制,針對開源社區(qū)上不同類型下游開發(fā)者和用戶,打造不同開源層級的許可協(xié)議,授權開源使用。推動開源產(chǎn)業(yè)發(fā)展,以稅收優(yōu)惠等方式鼓勵企業(yè)積極探索開源,參與開源生態(tài)建設,深入了解開源回饋方式,尋找有效的基于開源的商業(yè)反饋模式。
推動開源社區(qū)治理水平提升。持續(xù)支持國內(nèi)開源基金會、開源社區(qū)等開源力量發(fā)展,推動開源文化理念在社會的廣泛傳播。提高開源社區(qū)運營水平,運用大數(shù)據(jù)分析手段精確評估社區(qū)內(nèi)參與合作者的貢獻情況,精準識別社區(qū)內(nèi)核心開源貢獻者并予以獎勵,形成良好的“貢獻-承認”正向反饋循環(huán)。完善大模型開源評價、安全評估框架等監(jiān)測機制,以推動大模型產(chǎn)業(yè)良性健康發(fā)展。
推動大模型開源國際交流合作。打造具有國際先進技術水平的大模型開源開放平臺,并加強與國際溝通大模型倫理治理,參與探討制定國際標準。鼓勵企業(yè)融入國際頂尖開源社區(qū)、參與開源規(guī)則制定等,通過開源爭取全球智慧。依托開源社區(qū),加強大模型技術人才自主培養(yǎng)和國際交流,推動高校、科研院所與企業(yè)培育更多有熱情做開源貢獻的人才。
(作者:溫馨、馮澤,中國科學院科技戰(zhàn)略咨詢研究院;張超,上海交通大學國家戰(zhàn)略研究院;郭銳、陳凱華,中國科學院大學公共政策與管理學院;朱其罡,上海開源信息技術協(xié)會 對外經(jīng)濟貿(mào)易大學。《中國科學院院刊》供稿)