
來源:DeepMind
一個 " 蛋白質宇宙 " 誕生了。2021 年 7 月剛推出之際,AlphaFold 數據庫擁有 35 萬個蛋白質預測結構,如今這個數據達到了 2.14 億個,庫容翻了 610 倍。
記者 | 孫滔
審校 | clefable
7 月 28 日,DeepMind 公布的這個蛋白質數據庫已經囊括了幾乎所有地球生物物種,包括動物、植物、細菌、真菌等等,據《自然》官網報道,DeepMind 的合作方、歐洲分子生物學實驗室的歐洲生物信息學研究所 (EMBL-EBI)稱,在超過 2.14 億個預測結構中,約 35% 與實驗確定的蛋白質結構一樣高度準確,另外 45% 的預測結構也到達了很高的可信度,能用于后續多種研究和應用。
從建立之初,這個數據庫就是免費開放的,如今已成為科學家的必備工具。據 EMBL-EBI 數據,迄今已有超過 1000 篇科學論文引用了 AlphaFold 數據庫,來自 190 個國家的 50 多萬名研究人員訪問過該數據庫,查看了超過 200 萬個蛋白質結構。目前,DeepMind 測定的這些蛋白質結構也被整合到其他的公共數據庫中,將為數百萬研究人員的日常工作提供參考。

相比于 1 年前,AlphaFold 數據庫中的蛋白質結構數據量增加了 600 多倍,涵蓋了物種也達到了 100 萬種(圖片來源:DeepMind)
AlphaFold 數據庫就是蛋白質結構的 " 谷歌搜索 ",要認識某個蛋白質結構只需在數據庫搜索可立即獲得結果,這可以讓科學家能夠集中精力加快實驗研究。按照 DeepMind 創始人、首席執行官德米斯 · 哈薩比斯(Demis Hassabis)的看法,這是迄今為止人工智能系統在推進科學發展中做出的最大貢獻。他在 DeepMind 的官方博客中稱,從抗擊疾病到開發疫苗,AlphaFold 已經取得了令人難以置信的進展,而這只是開始。
2 億個數據有什么用
從科研人員對該數據庫的熱情就可以想見其對科學研究的價值,僅 DeepMind 在《自然》雜志上發表的 2 篇論文已被引用超過 4000 次。可以說,AlphaFold 實現了 AI 在生命科學領域的雄心。斯克利普斯研究所創始人埃里克 · 托普(Eric Topol)的看法是,AlphaFold 是 AI 在生命科學領域取得的唯一的重大進展,以前確定一個蛋白質的三維結構需要數月或數年,現在只需要幾秒鐘。
托普說,AlphaFold 已經加速并促成大規模的蛋白質結構被破解,包括核孔復合體的結構," 我們可以期待每天都有更多的生物之謎被揭示 "。事實上,按照哈薩比斯的說法,這個數據庫的價值可以覆蓋從了解疾病到保護蜜蜂,從解決生物學難題到深入研究生命起源本身,對解決一些重要的問題,例如可持續發展、燃料問題、糧食不安全和被忽視的疾病等,都將產生重大的影響。
該數據庫已經在瘧疾的治療中發力了。今年 5 月,牛津大學的生物化學教授馬修 · 希金斯(Matthew Higgins,從事瘧疾研究)領導的研究團隊宣布,他們已經使用 AlphaFold 幫助確定了一種來自瘧原蟲的關鍵蛋白質的結構,并找出能阻止瘧原蟲傳播的抗體可能結合的位置。
希金斯在接受外媒采訪時稱,他們之前采用蛋白質晶體學技術來計算這種分子結構,但多年來一直沒有取得突破,因這種蛋白質的結構動態性強并且會到處移動,而在將 AlphaFold 預測的結構模型與實驗數據結合后,他們順利地解決了這一難題。他們準備將最新的研究成功用于設計優化的疫苗,以誘導感染者產生最有效的、能阻斷瘧疾傳播的抗體。

目前借助于 AlphaFold,已經發表的蛋白質結構(圖片來源:DeepMind)
而環境研究,也會因為這一數據庫而受益。據外媒,英國樸茨茅斯大學的結構生物學教授兼酶創新中心(CEI)的主任約翰 · 麥吉漢(John McGeehan)正在使用 AlphaFold 來識別自然界中的酶的結構,以期找到能消化和回收塑料的酶。他們已經發現了從未見過的三維的蛋白質結構具有分解塑料的功能。
DeepMind 表示,該公司在與其他機構和組織合作時,會優先考慮最富社會效益的項目。他們與被忽略疾病藥物研發組織(DNDI)合作,幫助推進利什曼原蟲病(Leishmaniasis)、南美錐蟲病等嚴重影響貧困地區的疾病的治療,以及對世界衛生組織(WHO)列為優先研究項目中的關鍵蛋白質結構進行預測,包括麻風病和血吸蟲病等。
從量變到質變
如果把 AlphaFold 看作一個人,它大概會是成長飛速的天才少年。
DeepMind 隸屬于谷歌的母公司 Alphabet,擊敗了傳奇圍棋選手李世石的 AlphaGo 亦為其旗下產品。2016 年,擊敗李世石后不久,DeepMind 成立了針對 " 蛋白質折疊問題 " 的研究團隊。到 2018 年,DeepMind 首次公開了 AlphaFold 的預測結果,其成果發表在《自然》上。
2020 年 11 月 30 日,AlphaFold2 以巨大優勢在國際蛋白質結構預測競賽(CASP)中一舉奪魁,其預測的蛋白質結構已達到原子精度,可與實驗測得的結構相媲美。要知道,多年來,科學家只能通過核磁共振、X 射線和冷凍電鏡技術來確定蛋白質的結構。他們需要為了一個蛋白質結構反復試驗,其間花費了數年時間和巨額費用。2005 年,《科學》雜志在創刊 125 周年之際將預測蛋白質結構列為 125 個最具挑戰性的科學問題之一。因此,AlphaFold 的這次勝利被視為解決了 50 年來生物學領域的一個重大挑戰。

在中等難度的蛋白結構預測中,AlphaFold 連續兩年奪冠,今年更是取得了將近 90 分的 GDT 成績。來源:DeepMind
到了 2021 年,DeepMind 決定把 AlphaFold 的力量交到世界手中,于是在當年的 7 月 15 日在《自然》上開源了 AlphaFold 的代碼以及 60 頁的詳細補充信息。
就在 1 周后,DeepMind 在《自然》上又發表了對整個人類蛋白質組的結構預測結果,且使當時已知的高置信度蛋白質結構的數量增加了一倍。與此同時,DeepMind 還聯合 EMBL-EBI 推出了 AlphaFold 數據庫,其中囊括了人類蛋白質組以及另外 20 種模式生物體內超過 35 萬個蛋白質結構。
而又于 11 月,DeepMind 又更新了 AlphaFold2 的源代碼,以解讀多鏈蛋白質復合物,這顯著提高了預測蛋白質之間相互作用的準確性。2022 年,AlphaFold 數據庫迎來了庫容的數量級增長。這個 " 蛋白質宇宙 " 就擁有了獨一無二的強大力量。
更高的期待
當然這個數據庫并非萬能,科學家有更高的期待。
倫敦帝國理工學院教授基思 · 威爾遜(Keith Willison)稱,AlphaFold 在蛋白質折疊方面仍有問題需要解決。AlphaFold 只能基于已知實驗數據進行預測,但對于無法折疊成穩定 3D 結構的蛋白質就無能為力了,這些蛋白質通常具有不穩定和不可預測的折疊模式。
伊利諾伊大學厄巴納 - 香檳分校計算生物學家彭健稱,AlphaFold 可以幫助科學家重新評估以前的研究,以更好地了解疾病是如何發生的。不過他提示說,對于具有相關信息但認識不足的罕見蛋白質,AlphaFold 的預測質量也可能不那么高了。
哥倫比亞大學系統生物學家穆罕默德 · 庫萊希(Mohammed AlQuraishi)在接受據《麻省理工科技評論》采訪時稱,許多蛋白質會受基因突變和自然等位基因的影響,但它們的結構會如何改變,這個數據庫不會解決。他說," 希望能準確模擬蛋白質突變體的工具很快會出現 "。
庫萊希等人參與創辦了非營利性人工智能研究聯盟 OpenFold,他們在 AlphaFold 數據庫基礎上做了進一步改造。2022 年 6 月 28 日,OpenFold 發布了其開發的第一個能預測蛋白質結構的 AI 模型,該模型是基于谷歌 DeepMind 和華盛頓大學蛋白質設計研究所的工作而開發的。OpenFold 內部評價是,該模型比 AlphaFold2 平均精度更高,運行時間更快。
不過,山東大學數學與交叉科學研究中心教授楊建益(從事蛋白質結構預測)告訴《環球科學》,AlphaFold2 已經很好用了,部署也很簡單,對硬件要求并不高,有圖形處理器(GPU)就夠,很多公司和高校都在用,速度還很快。他說," 我個人并不太看好 OpenFold,復現 AlphaFold2 的訓練過程意義并不大,我自己也測試過 OpenFold,它的性能并不如 AlphaFold2。"
封面圖為蛋白質 Pfs48/45,它是瘧原蟲體內的一種關鍵蛋白質。科學家利用 AlphaFold 破解了其三維結構,推動了相關抗體的研發。來源:DeepMind
原文地址:http://www.myzaker.com/article/62e3f76a8e9f0938f45fb30d






川公網安備51012402001058號