AI 正在引領(lǐng)一場新型科學(xué)革命
軍工資源網(wǎng) 2022年06月20日自20世紀50年代DNA被發(fā)現(xiàn)以來,生物學(xué)家一直試圖將基因序列的長度與一系列細胞成分和蛋白質(zhì)合成過程聯(lián)系起來,例如,包括為現(xiàn)在著名的mRNA疫苗助力的特定抗體的mRNA轉(zhuǎn)錄過程。
盡管自DNA發(fā)現(xiàn)以來,在基因組測序和理解方面取得了一定進展,但仍缺失一個重要環(huán)節(jié)。生物學(xué)家缺乏一種僅使用未知蛋白質(zhì)的DNA或RNA源序列就能準(zhǔn)確有效地預(yù)測其三維形狀的方法。在生物學(xué)中,結(jié)構(gòu)決定功能。蛋白質(zhì)在細胞中的作用取決于其形態(tài)。中空的圓柱形結(jié)構(gòu)有利于形成良好的膜受體,而U型酶在峽灣狀空腔中催化化學(xué)反應(yīng)。能夠預(yù)測甚至設(shè)計蛋白質(zhì)結(jié)構(gòu)對于人類疾病理解將是一個飛躍,并會為一系列疾病解鎖新的治療方法。
但70多年來,科學(xué)家們一直在使用令計算機不堪重負的慢方法,并且主要依靠自己的猜測來梳理蛋白質(zhì)的結(jié)構(gòu)。盡管生物學(xué)家知道構(gòu)成每種蛋白質(zhì)的每種氨基酸的DNA編碼長度,但他們?nèi)狈σ粋€可重復(fù)、可推廣的公式來解決所謂的“蛋白質(zhì)折疊問題”。他們需要系統(tǒng)地了解任何一串氨基酸一旦連接起來,將如何折疊成三維形狀,從而解開浩瀚的蛋白質(zhì)宇宙。
2020年,谷歌的人工智能團隊DeepMind宣布其算法AlphaFold解決了蛋白質(zhì)折疊問題。
起初,大多數(shù)人都對這一驚人的突破興奮不已,科學(xué)家們隨時準(zhǔn)備測試這種新工具,也激發(fā)了一些人的興趣。這不就是幾年前推出AlphaGo,使其在中國戰(zhàn)略游戲圍棋中擊敗世界冠軍的那家公司嗎?掌握一個比國際象棋更復(fù)雜的游戲,雖然難度很大,但與蛋白質(zhì)折疊問題相比,感覺微不足道。
但是AlphaFold通過一年一度的競賽證明了其科學(xué)勇氣,在該競賽中,生物學(xué)家團隊僅根據(jù)蛋白質(zhì)的基因序列猜測蛋白質(zhì)的結(jié)構(gòu)。該算法遠遠超過了人類競爭對手,發(fā)布了預(yù)測最終形狀在一埃(單個原子的寬度)內(nèi)的分數(shù)。不久之后,AlphaFold通過了第一次真實世界測試,正確預(yù)測了SARS-CoV-2“刺突”蛋白的形狀,該蛋白是病毒顯而易見的靶向疫苗的膜受體。
AlphaFold的成功很快就變得不容忽視,科學(xué)家們開始在實驗室里試用這種算法。到2021年,《科學(xué)》雜志將AlphaFold的開源版本冠以“年度最佳方法”。生物化學(xué)家兼《科學(xué)》雜志主編H. Holden Thorp在一篇社論中寫道:“蛋白質(zhì)折疊方面的突破是有史以來在科學(xué)成就和未來研究方面最偉大的突破之一。”
今天,AlphaFold的預(yù)測非常準(zhǔn)確,經(jīng)過70多年的思索,蛋白質(zhì)折疊問題被認為已經(jīng)解決。雖然蛋白質(zhì)折疊問題可能是迄今為止AI在科學(xué)領(lǐng)域最引人注目的成就,但AI正在許多科學(xué)領(lǐng)域悄然取得新發(fā)現(xiàn)。
通過加速發(fā)現(xiàn)過程并為科學(xué)家提供新的調(diào)查工具,AI也正在改變科學(xué)研究的方法。
這項技術(shù)升級了顯微鏡和基因組測序儀等研究支柱,為儀器增加了新的技術(shù)能力,使其功能更加強大。AI驅(qū)動的藥物設(shè)計和重力波探測器為科學(xué)家提供了探測和控制自然界的新工具。
在實驗室之外,AI還可以部署先進的仿真和推理系統(tǒng),以開發(fā)真實世界的模型并使用它們測試假設(shè)。隨著科學(xué)方法的廣泛影響,AI正在通過突破性的發(fā)現(xiàn)、新技術(shù)和增強工具,以及提高科學(xué)過程速度和準(zhǔn)確性的自動化方法,引發(fā)一場科學(xué)革命。
除了蛋白質(zhì)折疊問題以外,從宇宙學(xué)和化學(xué)到半導(dǎo)體設(shè)計和材料科學(xué),AI在許多領(lǐng)域的發(fā)現(xiàn)證明了其科學(xué)價值。
例如,DeepMind的團隊設(shè)計了另一種計算分子的電子密度的算法,擊敗了科學(xué)家60年來一直依賴的快捷方法。了解給定分子的電子密度對于理解材料的物理和化學(xué)性質(zhì)大有裨益。但由于電子受量子力學(xué)支配,計算特定電子的密度需要復(fù)雜的方程,很快演變成計算噩夢。相反,科學(xué)家們利用材料電子的平均密度作為引導(dǎo),避開了困難的量子計算。然而,DeepMind的算法直接解決了量子方面的問題,并被證明比快捷方法更精確。
與蛋白質(zhì)折疊問題類似,AI能夠超越科學(xué)家?guī)资陙硌赜玫姆椒ǎ⒔怄i了準(zhǔn)確預(yù)測物理和化學(xué)性質(zhì)的新方法。
AI對科學(xué)的影響在四個關(guān)鍵方面超越了該技術(shù)的新發(fā)現(xiàn)。
首先,AI可以快速閱讀科學(xué)文獻,從而了解科學(xué)的基本規(guī)則、事實和方程式,并幫助科學(xué)家管理淹沒各個領(lǐng)域的大量論文和數(shù)據(jù)。僅在2020年,就有10萬到18萬篇關(guān)于COVID-19的科學(xué)期刊發(fā)表。
盡管研究人員將重心放在與持續(xù)的全球大流行一樣緊迫的事情上是有道理的,但關(guān)于COVID-19的論文僅占最大生物醫(yī)學(xué)數(shù)據(jù)庫總文章的4-6%左右。產(chǎn)生的論文和數(shù)據(jù)浪潮遠遠超出任何科學(xué)家的閱讀能力,使研究人員無法真正跟上各自領(lǐng)域的創(chuàng)新步伐。
這正是AI的用武之地。
例如,在藥物化學(xué)領(lǐng)域,Insilico公司正在進入完全由AI設(shè)計的藥物I期臨床試驗階段,該藥物旨在治療一種稱為特發(fā)性肺纖維化(IPF)的疾病。Insilico的算法通過閱讀醫(yī)學(xué)文獻來選擇疾病目標(biāo),以找到潛在的蛋白質(zhì)、細胞或病原體進行精確定位。一旦選擇了目標(biāo),該算法就可以設(shè)計一種治療方法來治療疾病。Insilico開發(fā)了一個用于藥物發(fā)現(xiàn)的端到端AI平臺,該平臺可以自動掌握該領(lǐng)域的最新結(jié)果和數(shù)據(jù),以便科學(xué)家能夠了解情況而不會不知所措。
其次,隨著儀器更加精密以及探索自然奧秘的逐步深入,科學(xué)家們需要面對海量數(shù)據(jù)。AI同樣可以在此方面大展身手。
阿貢國家實驗室(Argonne National Laboratory, ANL)的一組科學(xué)家研發(fā)了一種算法,該算法可以理解引力波,即愛因斯坦預(yù)測的時空連續(xù)體結(jié)構(gòu)中的漣漪,但直到2015年才被發(fā)現(xiàn)。該算法在7分鐘內(nèi)處理了一個月的數(shù)據(jù)量,提供了一種可加速、可擴展和可重復(fù)的引力波檢測方法。而且該算法還可以在標(biāo)準(zhǔn)圖形處理單元(GPU)上運行,研究人員無需使用專門設(shè)備收集和解釋引力波數(shù)據(jù)。
ANL數(shù)據(jù)科學(xué)與學(xué)習(xí) (DSL) 部門主管Ian Foster說:“這個項目讓我興奮不已,它展示了如何通過正確的工具,將人工智能方法自然地集成到科學(xué)家的工作流程中,讓他們更快更好地完成工作,增強而非取代人類智能?!苯柚斯ぶ悄?,曾經(jīng)的海量數(shù)據(jù)現(xiàn)在變成了加速科學(xué)發(fā)展步伐的可控信息流。
第三,AI一直在悄悄升級實驗室的一些長期支柱:顯微鏡和DNA測序儀。
在ANL,研究人員找到了一種方法來提升電子顯微鏡可檢索到的有關(guān)樣品的信息量,同時提高儀器的分辨率和靈敏度。不同于許多人在高中或大學(xué)生物課上熟悉的顯微鏡,因為電子顯微鏡不依賴可見光來構(gòu)建圖像。相反,顧名思義,它們使用電子,這使它們能夠以比其他顯微鏡更高的分辨率和更精細的構(gòu)造拍攝圖像。
ANL的研究人員設(shè)計了一種在電子顯微鏡上使用AI記錄相位數(shù)據(jù)的方法,該方法可以傳遞有關(guān)樣品物理和化學(xué)性質(zhì)的關(guān)鍵信息,從而提高儀器的功率和容量。
與此類似,AI的另一個升級功能是在所謂的光場顯微鏡中發(fā)現(xiàn)的,它可以拍攝高清晰度的3D運動圖像??茖W(xué)家通常需要幾天的時間來重建視頻,但有了AI后,處理這些運動中的高分辨率數(shù)據(jù)所需的時間縮短到幾秒鐘,而不會丟失分辨率或細節(jié)特征。
DNA 測序儀是基因組時代的主力軍,也得到了AI的增強。今年早些時候,一組科學(xué)家利用AI將DNA測序所需時間減半,并希望很快再次減半。簡言之,人工智能正在升級最基本的科學(xué)工具。
最后,AI在實驗室中真正大放異彩的地方是模擬復(fù)雜系統(tǒng),使其成為基礎(chǔ)科學(xué)研究中越來越標(biāo)準(zhǔn)的工具。
去年,研究人員通過在物理學(xué)、天文學(xué)、地質(zhì)學(xué)和氣候科學(xué)等十個科學(xué)領(lǐng)域建立突破性的模擬實驗,展示了AI的多學(xué)科能力。
所有10個仿真器均由同一個稱為DENSE的深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,與其他方法相比,在保持準(zhǔn)確性不變的前提下,仿真速度提高了10億倍之多。
至關(guān)重要的是,仿真器可用于解決“逆問題”,即研究人員知道結(jié)果但想找出哪些變量會導(dǎo)致輸出。AI擅長這種計算,并且可以很容易地找出通向特定答案的路徑。
雖然模擬很有用,研究人員也希望確保他們的模型在現(xiàn)實世界中有效。谷歌和三星這兩家領(lǐng)先的科技公司最近轉(zhuǎn)向AI來規(guī)劃其部分芯片的布局。
谷歌得出的結(jié)論是,人工智能設(shè)計的芯片“對于所有關(guān)鍵指標(biāo),包括功耗、性能和芯片面積,都優(yōu)于或可與人類生產(chǎn)的芯片相媲美”。更進一步,該公司使用AI來設(shè)計其下一代AI加速器(TPU是AI制造的芯片,而不是標(biāo)準(zhǔn)的CPU或GPU)。
同樣,三星依靠AI芯片設(shè)計軟件創(chuàng)建了Exynos,這是一種用于可穿戴產(chǎn)品和汽車的芯片。憑借其高保真模擬,AI為科學(xué)家們提供了一種強大的工具,正在徹底改變他們對自然世界進行建模和實驗的方式。
對于AI的建模能力,沒有比COVID-19大流行更好的現(xiàn)實測試了。
首先,蛋白質(zhì)折疊算法AlphaFold正確預(yù)測了重要的“刺突”蛋白質(zhì),展示了AI在未來的大流行中如何加速疫苗或療法的研發(fā)。但也許更令人印象深刻的是,在2020年夏天,日本科學(xué)家使用世界上最強大的超級計算機Fugaku來模擬COVID-19 在空氣中的傳播。
在深度神經(jīng)網(wǎng)絡(luò)和數(shù)千個GPU的支持下,F(xiàn)ugaku向世界提供了病毒是通過空氣傳播的決定性證據(jù),并說服WHO相應(yīng)地改變其控制COVID-19的指導(dǎo)方針(例如,口罩、通風(fēng)以及室內(nèi)與室外活動的風(fēng)險)。在現(xiàn)實世界中,AI通過在危機期間為全球緩解戰(zhàn)略提供信息來證明其價值。
除了做出新發(fā)現(xiàn)和為科學(xué)武庫添加新工具外,AI還可以發(fā)現(xiàn)數(shù)據(jù)中的模式,做出可測試的預(yù)測,并使用它們將新證據(jù)納入其模型,反映科學(xué)方法。
哲學(xué)家Karl Popper普及了這樣一種觀點,即科學(xué)是通過拋棄可證偽的假設(shè)而進步的,這些假設(shè)可以通過實驗進行檢驗并證明是錯誤的,而這種通過理論和實驗消除的過程是科學(xué)方法的一個標(biāo)志。
正如AI最近的一些突破所表明的那樣,該技術(shù)還產(chǎn)生了可以通過實驗測試的假設(shè),并通過排除過程提供了一個嚴格且可證偽的答案。
DeepMind 的電子密度模型通過逼近科學(xué)過程并在預(yù)測和實驗之間迭代反饋,直到更好地掌握了量子計算,從而擊敗了研究人員。
AI通過在數(shù)千個實驗確定的蛋白質(zhì)上測試其模型,細化猜測,并通過賦予更接近解決方案的分支更高權(quán)重來修剪神經(jīng)網(wǎng)絡(luò),從而解決了蛋白質(zhì)折疊問題。研究人員構(gòu)建了AlphaFold的開源版本之后,其他科學(xué)家可以利用該模型解開RNA結(jié)構(gòu)如何折疊以及蛋白質(zhì)如何結(jié)合在一起的謎團。
總體而言,理解蛋白質(zhì)的結(jié)合為強大的新藥研發(fā)打開了大門,因為細胞中的許多反應(yīng)都是蛋白質(zhì)協(xié)同作用的結(jié)果。這兩項進步開啟了治療設(shè)計的新時代,即利用端到端的AI管道定位疾病并設(shè)計精確的治療方法。
例如,華為人工智能實驗室的一個研究團隊使用該模型的一個版本自動生成了針對目標(biāo)感染的抗體。從藥物設(shè)計到蛋白質(zhì)結(jié)合,人工智能對自然界建模、分析和控制的能力只會繼續(xù)提高。
DeepMind的最新突破是將AI應(yīng)用于控制和維持核聚變反應(yīng)的問題。AI成功地控制了氫和氦的融合反應(yīng),為宇宙中的每顆恒星提供了創(chuàng)紀錄的能量,并發(fā)現(xiàn)了穩(wěn)定保持等離子體的新形狀。這項實驗是朝著開發(fā)可行的聚變能源邁出的重要一步,聚變能源可以提供足夠的可再生能源,并為世界提供動力。
這個案例突出了AI在科學(xué)中最有希望的應(yīng)用:它看到了我們無法看到的模式,并從不同但互補的角度分析了我們的環(huán)境。與研究人員合作并以科學(xué)方法為基礎(chǔ),AI能夠利用支撐科學(xué)過程的迭代理論和實驗解決同樣的探索性問題。
科學(xué)可以最好地描述為對未知事物的探索。在這段旅程中,AI是一個伙伴,它以不同于我們的方式感知自然世界及其未探索的部分,開辟了理解和利用世界力量的新途徑。
正如索尼研究主管Hiroaki Kitano所描述的那樣,基于AI可模擬的假設(shè)、實驗和數(shù)據(jù)的自校正系統(tǒng),科學(xué)發(fā)現(xiàn)是一個“搜索”問題。但在搜索過程中,AI不僅僅是科學(xué)家和合作伙伴手中的強大工具。這項技術(shù)也在改變科學(xué)過程,實現(xiàn)自動化并增加人們使用它可以完成的任務(wù)。人工智能正在引領(lǐng)一場新的科學(xué)革命,在多個領(lǐng)域取得了顯著突破,開啟了科學(xué)研究新途徑,加快了科學(xué)創(chuàng)新步伐。作為合作伙伴,AI將會與科學(xué)家共同探索更多無止境的科學(xué)前沿。