原文作者:Ewen Callaway
DeepMind 的 AI 工具 AlphaFold 確定了約 2 億個蛋白質的結構,范圍覆蓋地球上幾乎所有已知生物。
從現在起,確定幾乎所有已知蛋白質的 3D 結構就和用谷歌(Google)搜索一樣簡單了。
研究人員用 AlphaFold ——革命性的人工智能(AI)網絡——預測了 100 萬個物種體內約 2 億個蛋白質的結構,范圍幾乎囊括地球上所有已知蛋白質。
這些轉儲數據將在 DeepMind 和歐洲分子生物學實驗室歐洲生物信息研究所(EMBL-EBI)共同建立的一個數據庫中免費公開。負責開發 AlphaFold 的 DeepMind 是谷歌位于倫敦的一家 AI 公司;而 EMBL-EBI 是位于英國劍橋近郊的一個政府間組織。
"本質上,你可以理解為它覆蓋了整個蛋白質宇宙,"DeepMind 的 CEO Demis Hassabis 在新聞發布會上說,"我們正處在數字生物學新時代的開端。"

圖中為 AlphaFold 預測的蛋黃前體——卵黃蛋白原蛋白的結構。來源:DeepMind
蛋白質的 3D 構象或稱結構決定了它在細胞中的功能。大部分藥物的設計都需要用到結構信息,而構建蛋白質氨基酸的準確排列圖譜往往是發現蛋白質如何工作的第一步。
DeepMind 利用名為深度學習的 AI 技術開發了 AlphaFold 網絡,一年前上線的 AlphaFold 數據庫共有 35 萬個預測結構,覆蓋了來自人、小鼠和 19 種其他被大量研究生物的幾乎全部蛋白質。在那之后,這個數據庫擴大到了約 100 萬個結構。
倫敦大學學院計算生物學家 Christine Orengo 說:" 我們都在等待這個寶貴資源的公開。"Orengo 利用 AlphaFold 數據庫尋找新的蛋白家族。" 把所有數據都替我們預測好簡直不能再棒了。"
高質量結構
就在去年 AlphaFold 的公開在生命科學領域引發轟動后,領域內的研究人員紛紛開始利用這一工具。AlphaFold 能對蛋白質的 3D 結構進行非常準確的預測。它還能對它的預測結果進行評估,讓研究人員知道哪些信息是可靠的。傳統上,科研人員一直在用 X 射線晶體學和冷凍電鏡這種耗時且成本高昂的實驗技術解析蛋白質的結構。
EMBL-EBI 表示,在這些逾 2.14 億個結構預測中,約 35% 的預測結果被認為準確度很高,即和實驗解析的結構一樣可靠。另有 45% 的預測被認為置信度足夠高,在很多情況下都能使用。
AlphaFold 預測的許多結構都很可靠,能在很多情況下替代實驗解析的結構。其他情況下,研究人員會用 AlphaFold 的預測結果驗證和解讀實驗數據。不可靠的預測結果一望即知,其中一些源于蛋白質固有的無序性質,這種無序意味著蛋白質本身沒有固定的形狀,至少在沒有其他分子的情況下是無序的。
幾天前發布的這 2 億個預測結構基于 UNIPROT 數據庫中的序列。科學家可能對這些蛋白質中的一些形狀已經有概念了,它們不是在實驗解析結構的數據庫中,就是與這類數據庫中的其他蛋白類似,巴塞羅那 Josep Carreras 白血病研究所的計算生物學家 Eduard Porta Pardo 說。

DeepMind 的 CEO Demis Hassabis 說 AlphaFold 的新數據覆蓋了 " 整個蛋白質宇宙 "。來源:Jung Yeon-Je/AFP/Getty
但 Porta 表示,這些結構一般集中在人、小鼠,和其他哺乳動物的蛋白質上,而 AlphaFold 的數據覆蓋了更多不同的生物體,所以將極大地增進我們的認知。Porta 說:" 這個資源太無敵了。我會在公布的第一時間下載它。"
由于 AlphaFold 公開已有一年,所以研究人員已經能夠預測他們想要的任何蛋白質的結構。但很多人也表示,把預測的結構集中到一個數據庫可以節省研究人員不少時間、金錢和麻煩。" 這是可以去除的另一個準入門檻,"Porta 說," 我用過很多 AlphaFold 模型,但我從來沒有自己運行過 AlphaFold。"
EMBL 在德國漢堡的結構建模師 Jan Kosinski 過去一年一直在運行 AlphaFold,他已經等不及看到這次的擴展了。他的團隊用三周時間預測了一個病原體的蛋白質組——蛋白質組是指某個生物體的全部蛋白質集合。他在發布會上說:" 現在我們只要把所有模型都下載下來就可以了。"
23TB
把近乎所有已知蛋白都收入數據庫也能推動新的研究。Orengo 的團隊之前就在用 AlphaFold 的數據庫尋找新的蛋白質家族,他們現在將把這個研究放到更大的尺度上。她的團隊還將利用這個擴展后的數據庫理解具有有益性質的蛋白質的演化,比如消化塑料的能力,或是具有能誘導癌癥一類的有害的性質。在數據庫中找出這些蛋白質的遠親可以了解這些性質的源頭。
首爾大學計算生物學家 Martin Steinegger 協助開發了 AlphaFold 基于云的版本,他對數據庫的擴大感到十分激動。但他說,研究人員可能仍然需要自己跑 AlphaFold。越來越多的人將 AlphaFold 用來確定蛋白質的相互作用,而數據庫中并不包含這類預測信息。對從土壤、海洋和其他 " 宏基因組 " 來源的遺傳物質進行測序從而確定的微生物蛋白也不包含在該數據庫中。
Steinegger 說,對擴展后的 AlphaFold 數據庫的一些更高級的運用可能也需要下載它全部 23TB 的內容,而這對許多團隊來說是不切實際的。基于云的儲存也很燒錢。Steinegger 與人共同開發了一個軟件工具,名為 FoldSeek,可以快速找到結構相似的蛋白質,這應該能大大減少 AlphaFold 的數據量。
即使 AlphaFold 數據庫已經包含了幾乎全部的已知蛋白,但它仍需要根據新發現的生物體進行更新。AlphaFold 的預測準確度也會在獲得新的結構信息后進一步提升。Hassabis 說,DeepMind 承諾會長期維護該數據庫,他說他每年都能看到更新。
他希望 AlphaFold 數據庫能給生命科學帶來持久的影響。"這將需要我們徹底轉變思考方式。"
原文地址:http://www.myzaker.com/article/62eb60b88e9f094f881c0981






川公網安備51012402001058號