在 12 月 2 日坎昆舉行的會議上,組織者宣佈,在第 13 屆全球蛋白質結構預測競賽(Critical Assessment of protein Structure Prediction,CASP)上,DeepMind 的最新人工智慧程式 AlphaFold 擊敗了所有人:成功預測生命基本分子——蛋白質的三維結構。CASP 也被認為是蛋白質結構領域「奧林匹克競賽」。
「蛋白質折疊」是一種令人難以置信的分子折紙形式,它非常神秘,是一個具有深遠意義的問題,在科學界之外很少有人討論。所有生物都是由蛋白質構成的,蛋白質的結構決定了它的功能。當 AI 瞭解了蛋白質的折疊方式,我們可以期待人類進入科學和醫學的新時代。
正如 DeepMind 聯合創始人兼首席執行官 Demis Hassabis 表示,「對我們來說,這是一個非常關鍵的時刻。這是一個燈塔項目,是我們在人力和資源方面的第一個重大投資。這也是非常重要的、現實世界的科學問題。」
AI 為什麼要讀懂蛋白質?
在電腦的世界裡,只有 0 和 1。而從某種程度上來說,生命的本質其實就是 4 中不同堿基的排列組合。
包含整個生命密碼的 DNA,僅有 4 種堿基組成。這 4 種不同堿基的排列組合,翻譯出 64 種密碼子(每 3 個相鄰 mRNA 堿基構成一個密碼子),這 60 多個密碼子又對應著整個地球生命系統中僅有的 20 多種氨基酸,而 20 多種氨基酸的排列組合,構成了數萬至數億種不同的蛋白質。
蛋白質是一切生命系統的物質基礎,密切參與著從觸發免疫反應到大腦思考的每一個生理過程。如果把基因比作構成生命的配方,那麼蛋白質就是構成生命的材料。沒有蛋白質,也就沒有生命。
與 DNA 密碼不同的是,真正決定不同蛋白質性質和功能的,除了不同氨基酸的排列組合,更重要的是氨基酸鏈的 3D 結構。氨基酸鏈扭轉、彎曲構成不同的蛋白質,因此,具有數百個氨基酸的蛋白質可能呈現出數量驚人的不同結構:10 的 300 次方個,或 1 後 300 個 0。
蛋白質只有正確折疊為特定的 3D 構型,才能發揮相應的生物學功能。而蛋白質四級結構結構的折疊,受到大量非共價相互作用(如氫鍵,離子鍵,范德華力和疏水作用)的影響,想要從分子水準上瞭解蛋白質的作用機制,就需要精確測出蛋白質的 3D 結構。
為了研究蛋白質結構而發展起來了結構生物學,在短短 60 多年的歷史中,已經採用了包括 X 射線晶體學、核磁共振、冷凍電鏡等技術來解析蛋白質結構。
1959 年佩魯茨和肯德魯對血紅蛋白和肌血蛋白進行結構分析,解決了三維空間結構,並因此獲得 1962 年諾貝爾化學獎。之後豪普特曼和卡爾勒建立了應用 X 射線分析的以直接法測定晶體結構的純數學理論,在晶體研究中具有劃時代的意義,特別在研究大分子生物物質如激素、抗生素、蛋白質及新型藥物分子結構方面起了重要作用,因此而獲得 1985 年諾貝爾化學獎。2017 年諾貝爾化學獎授予發明了冷凍電鏡技術的三位科學家,以獎勵其對探明生物分子高解析度結構的貢獻。
但是,對於想要更深層次理解生命現象過程,以及更複雜的藥物研發而言,僅靠這種「觀察」的手段來研究蛋白質的結構,實在是難以滿足需求,對於一種複雜蛋白質結構的測定,往往需要耗費大量的時間和成本,甚至還不一定準確。
理論上來說,知道了 DNA 序列,就已經決定了其能夠翻譯出的氨基酸序列和蛋白質結構,但想要實現這種預測,中間涉及的計算難以想像。而近年來隨著基因測序技術和人工智慧的發展,使通過氨基酸序列來預測蛋白質結構成為可能。
AlphaFold 完勝人類
全球蛋白質結構預測競賽(CASP),由美國科學家約翰·莫爾特(John Moult)於 1994 年發起,每兩年舉辦一屆,旨在吸引電腦科學、生物物理學等不同領域的專家參與到蛋白質三維結構預測這一極具挑戰性的生物資訊學問題中來,共同評估發展現狀和討論未來的趨勢。
而這次,完虐人類的 AI,也將目光轉移到了蛋白質三維結構預測。由 DeepMind 開發的 AI 程式「AlphaFold」參加了最新一屆的蛋白質結構預測評估競賽。
競賽過程中,工作人員會將氨基酸序列交給每一個團隊。而這些蛋白質的結構事先已經被複雜而昂貴的傳統方法破解了,但尚未公開。最終提交最準確預測的團隊將贏得比賽。
首次參賽的 AlphaFold 在 98 名參賽隊伍中排名第一,其預測的 43 種蛋白質中有 25 種蛋白質的結構最準確,而排名第二的團隊中只有 3 種。
為了開發 AlphaFold,DeepMind 用數千種已知蛋白質訓練神經網路,直到它可以獨立預測氨基酸的 3D 結構。對於新蛋白質,AlphaFold 使用神經網路預測氨基酸對之間的距離,以及連接它們的化學鍵之間的角度。接著,AlphaFold 調整結構以找到最節能的氨基酸佈置。該程式花了兩週時間預測它的第一個蛋白質結構,但現在只需幾個小時就能將其預測出來。
蛋白質的 3D 結構取決於它所含氨基酸的數量和類型,結構也決定了蛋白質在體內的作用。例如,心臟細胞上折疊的蛋白質,能識別血液中的腎上腺素,並使心率上升。免疫系統中的抗體也是折疊成特定結構的蛋白質,這些蛋白質可以阻擋入侵的細菌。從收縮肌肉、感知光線到將食物轉化為能量,幾乎身體的每一個功能,都可以追溯到蛋白質的結構和運動。
通常情況下,蛋白質具有最高效的結構,但它們折疊錯誤,就會導致糖尿病、帕金森症和阿爾茨海默病等疾病。如果科學家能夠從化學成分中預測蛋白質的結構,他們就可以弄清楚這些蛋白質的作用以及它們是如何造成傷害的,並設計出新的蛋白質抗擊疾病或履行職責。例如,可以設計新蛋白質解決環境中的塑膠汙染。
在比賽中,雷丁大學研究員 Liam McGuffin 領導了英國得分最高的學術團體。他說,「今年 DeepMind 似乎已經推高了競賽標準,我很想知道更多關於他們的預測方法,雖然我們資源不足,但我們仍然可以保持競爭力。」
「預測蛋白質折疊結構的能力是一個大問題。它對解決許多 21 世紀的問題具有重大意義,它會對健康、生態、環境產生重大影響,並基本上解決所有涉及生命系統的問題。包括我們在內的許多團體多年來一直在使用基於機器學習、深度學習和人工智慧的方法,這些正在產生越來越重要的影響。我很樂觀地認為,我們將在 20 世紀 20 年代真正解決這一領域的問題」,McGuffin 說。
Hassabis 表示,我們還有很多工作要做。「我們還沒有解決蛋白質折疊問題,預測只是第一步。蛋白質折疊是一個極具挑戰性的問題,但我們有一個很好的系統,我們還有一些尚未實施的想法。」
「後 AlphaGo 時代」的 DeepMind,搶跑 AI+生命科學領域
DeepMind 被全世界人民所熟知是在 2016 年。當時,他們所開發的 AI 演算法 AlphaGo 擊敗了圍棋世界冠軍李世石,之後又在 2017 年於中國打敗了頂級棋手柯潔。在正是在那場烏鎮圍棋峰會上,Hassabis 表示,AlphaGo 將退役,但 DeepMind 的 AI 探索仍將繼續。
遊戲是 DeepMind 人工智慧專案的良好測試基地,但征服遊戲並不是他們的最終目標。Hassabis 也不止一次曾在公開場合表態,團隊的目標是開發類似解決生命科學問題、發現新材料、說明探索宇宙的演算法。按照 Hassabis 的設想,在接下來十年,AlphaGo 的反覆運算產品將成為科學家和醫學專家,與人類並肩工作,這將會有可能對我們的生活產生根本性的影響。
而縱觀 DeepMind 於 2018 年公開發表過的 AI 論文,不少正是其將人工智慧應用於生命科學領域研究的重要成果。
在 DeepMind 非常關注的腦科學領域,今年 5 月 9 日,團隊在世界頂級學術雜誌 Nature 上發表了一項重磅成果,利用深度學習複現生物的空間導航能力,夠協助傳統的神經科學研究來測試大腦工作原理。其開發出的的一個人工智慧程式具有類似哺乳動物一樣的尋路能力,非常類似大腦中網格細胞的工作原理。
另一項 DeepMind 發佈的人工智慧、神經科學跨領域重要成果,則是使用 AI 領域中的元強化學習框架,用來研究大腦中多巴胺在我們學習過程中起到的作用。這一新發現有望顛覆傳統的神經科學研究方法,提供了一個全新的視角。研究發表在今年 5 月的 Nature 子刊上。
而在疾病診斷上,今年 8 月發表在 Nature Medicine 的一項研究中,DeepMind 和 Moorfields 眼科醫院共同開發的 AI 演算法可以識別 50 多種不同的眼部疾病,且與人類臨床醫生一樣準確,並且有可能通過減少檢查和診斷所需的時間來顯著改善現有的醫療困境。「這是一個非常令人興奮的里程碑,也是臨床醫生和技術人員共同努力的可能性的另一個跡象,」DeepMind 當時表示。
除了論文發表以外,DeepMind 目前也在與多家醫療機構合作,開發新的醫療項目,包括與美國退伍軍人事務部 (U.S. Department of Veterans Affairs) 合作開發人工智慧技術,與 英國國家醫療服務體系(NHS)合作開發 AI 醫療應用程式等。
但是,作為穀歌旗下最受關注的 AI 公司之一,DeepMind 仍頗具爭議:公司研發投入巨大且一直未實現盈利,與 NHS 合作的專案涉嫌醫療資料使用不當等問題。當然,DeepMind 這些問題也不單單是這一家 AI 公司正在面臨的問題,2018 年,DeepMind 在該領域的學術研究「初露鋒芒」之後,2019 年我們可以期待「後 AlphaGo 時代」的 DeepMind 如何繼續實現它的使命。