|
高性能計算在生命信息領域應用不斷拓展
生物計算,包括?DNA?數據處理、蛋白質結構預測、腦模擬等,近?20?年來,呈現快速發展態勢。這些計算大部分也是數據密集型的。
在基因數據處理應用方面。高通量測序技術的進步,推動了基因數據爆炸性增長。然而,DNA?包含信息的復雜性,仍對數據分析算法提出新挑戰。機器學習在基因組分析與預測的多個方面獲得研究與應用,如識別轉錄起始位點/剪切位點/TF?結合位點、預測基因功能/疾病表型等。深度學習應用的最新突破已經在預測性能方面超過了許多傳統的統計推斷算法,并且機器學習在基因組學中的癌癥診斷、臨床遺傳、作物改良、流行病、公共衛生、人口遺傳、進化、功能基因組等均具有明顯發展潛力。當前,大多數問題的預測能力都沒有達到實際應用的預期,對這些抽象模型的解釋也沒有闡明深刻的認識。如何有效利用機器學習獲取更強大、更智能的基因組解釋能力,還需要探索依賴于特定任務的機器學習模型。
在蛋白質結構預測應用方面。蛋白質結構預測與設計對深入理解蛋白質結構和功能具有重要意義。蛋白質是一切生命系統的物質基礎,但其生物功能的發揮,需要蛋白質正確折疊為特定的?3D?結構,蛋白質折疊研究也是藥物設計的基礎。實驗學的方法如?X?射線(X-ray)、核磁共振(NMR)和冷凍電鏡解析蛋白質?3D?結構普遍存在設備昂貴、時間和人力成本過高等問題。開發能夠自動、快速、準確地將未知蛋白序列分類為特定折疊類別的計算預測方法成為計算生物學家長期努力的方向。使用深度卷積神經網絡和殘存網絡高精度的預測蛋白中的氨基酸-氨基酸接觸作用,并將預測結果直接用于蛋白質?3D?結構重建是近期的一個熱點。谷歌?DeepMind?將?AlphaGo?轉型,開發了可預測蛋白質折疊的程序?AlphaFold,并以該項目參加了全球蛋白質結構預測競賽?CASP13,取得了優異的成績。麻省理工學院(MIT)的?Belpler?和?Berger利用人工智能(AI)技術,直接通過氨基酸序列預測蛋白質分子的生物學功能。
在腦模擬和腦科學應用方面。腦病變給人類帶來的經濟和生活負擔遠遠超過其他領域,已成為全球致殘的首要因素。2013?年歐盟推出了?15?個歐洲國家參與、預期?10?年的“人類腦計劃”,該計劃側重于借用超級計算機技術,通過研究腦連接圖譜模擬腦神經網絡功能。自該計劃以后,其他國家紛紛提出各自腦計劃。人腦大約由?1010個神經元和?1014個突觸組成。現有的模擬研究多用于小區塊模擬,規模約?105個神經元。小規模模擬存在明顯局限性,其中神經元連接的約?50%?突觸分布在區塊以外,而功能回路在整個大腦內完成,區塊之間相互影響明顯。全腦模擬計算規模巨大,現階段難以實現。當前,已達到的最大規模腦網絡模擬是基于開源軟件?NEST?完成的。該網絡包括?1.51×109個神經元和?1.68×1012個突觸,在日本超級計算機?K(共?88?128?節點,每節點?8?核,2?GHz,16 GB RAM)上全節點運行模擬。該模擬達到了人腦規模的?10%。
在新藥創制應用方面。高性能計算可在加速藥物研發,降低藥物開發風險的多個方面發揮重要作用,如超大規模篩選藥物先導化合物、大規模搜尋藥物潛在靶點、精確計算蛋白配體自由結合能、精確計算電子級別靶點藥物共價和非共價作用、復雜生物體系模擬、藥物網絡化相互作用等。國內,北京大學、中國科學院上海藥物研究所、上海交通大學在相關領域做出了可喜成果。