成功預(yù)測(cè)98.5%人類蛋白質(zhì)結(jié)構(gòu)再登Nature,從頭說(shuō)說(shuō)AlphaFold2的雄心壯志
大數(shù)據(jù)文摘出品
7月22日,DeepMind創(chuàng)始人哈撒比斯在官網(wǎng)上發(fā)布了一篇名為《把AlphaFold的力量交到全世界的手中》的文章。
不得不說(shuō),現(xiàn)在很少能看到這么雄心壯志的題目了,并且,這還不是有意的夸大,一切都正在發(fā)生的事實(shí)。
在上周開(kāi)源AlphaFold2之后,DeepMind直接開(kāi)放了團(tuán)隊(duì)預(yù)測(cè)的所有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),包括98.5%的人類蛋白質(zhì)結(jié)構(gòu)和包括大腸桿菌、果蠅、小鼠等20個(gè)具有科研常用生物的蛋白質(zhì)組數(shù)據(jù),總計(jì)超過(guò)35萬(wàn)個(gè)蛋白質(zhì)的結(jié)構(gòu)。
并且,在數(shù)據(jù)集中預(yù)測(cè)的所有氨基酸殘基中,有58%達(dá)到可信水平,其中35.7%達(dá)到高置信度。
與之對(duì)比的是人類數(shù)十年的試驗(yàn)成果,也才覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基。正如文章中摘錄的樸茨茅斯大學(xué)結(jié)構(gòu)生物學(xué)教授John Mcgeehan所言:
我們花了幾個(gè)月甚至幾年的時(shí)間才做到的事,AlphaFold在一個(gè)周末就做到了。
哈撒比斯在文章中表示,所有數(shù)據(jù)將由歐洲生物信息學(xué)研究所托管,并向全世界的科學(xué)家開(kāi)放,在里面任何人都可以搜索到AlphaFold預(yù)測(cè)的各類蛋白質(zhì)結(jié)構(gòu)。
數(shù)據(jù)庫(kù)網(wǎng)址:
論文以《Highly accurate protein structure prediction for the human proteome》為題發(fā)表在《自然》期刊上。
論文地址:
https://www.nature.com/articles/s41586-021-03828-1_reference.pdf
從頭說(shuō)起,AlphaFold為什么是解決50年來(lái)生物學(xué)領(lǐng)域的重大挑戰(zhàn)的solution?
為了更加清楚得了解AlphaFold為什么引起這么大的轟動(dòng),以及AlphaFold究竟做到了什么,我們得再回顧一下DeepMind另一篇雄文。
2020年12月,DeepMind發(fā)表了一篇名為《AlphaFold:解決50年來(lái)生物學(xué)領(lǐng)域的重大挑戰(zhàn)的一個(gè)方法》,同樣是雄心勃勃的標(biāo)題,講的就是AlphaFold。
在文章中,AlphaFold團(tuán)隊(duì)詳細(xì)解釋了AlphaFold的作用和意義所在,文摘菌這里也簡(jiǎn)單概述一下。
正如大家高中的時(shí)候?qū)W過(guò)的——蛋白質(zhì)是由氨基酸鏈組成的復(fù)雜分子,它通過(guò)共價(jià)鍵將氨基酸連在一起。
不過(guò),在細(xì)胞中,蛋白質(zhì)的存在是三維的,不同蛋白質(zhì)的功能很大程度上取決于其獨(dú)特的3D結(jié)構(gòu)。所以說(shuō),搞清楚蛋白質(zhì)的折疊結(jié)構(gòu)可以幫助我們更好地理解蛋白質(zhì)的功能和工作原理,這類問(wèn)題被稱為“蛋白質(zhì)折疊問(wèn)題”。
在1972年諾貝爾化學(xué)獎(jiǎng)的獲獎(jiǎng)感言中,克里斯蒂安·安芬森提出了一個(gè)著名的假設(shè): 理論上,蛋白質(zhì)的氨基酸序列應(yīng)該完全決定其三維結(jié)構(gòu)。
因此,最終的問(wèn)題就變?yōu)?mdash;—如何根據(jù)蛋白質(zhì)的氨基酸序列就能夠計(jì)算預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)?人類在這個(gè)問(wèn)題上,已經(jīng)進(jìn)行了50年的探索。
1994年John Moult教授和Krzysztof Fidelis 教授創(chuàng)立了CASP(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估),作為兩年一次的盲評(píng),以促進(jìn)研究、監(jiān)測(cè)進(jìn)展,并建立蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的最新水平。
從2018年AlphaFold橫空出世經(jīng)過(guò)短短兩年,最新的AlphaFold2在CASP評(píng)估中,所有目標(biāo)中總體得分中位數(shù)為92.4GDT。這意味著預(yù)測(cè)平均誤差約為1.6埃(十億分之一米),相當(dāng)于一個(gè)原子的寬度(0.1納米)。
AlphaFold2毫無(wú)疑問(wèn)成就了蛋白質(zhì)的3D結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的重大突破。諾貝爾獎(jiǎng)得主、皇家學(xué)會(huì)主席Venki Ramakrishnan表示:
這項(xiàng)計(jì)算工作代表了蛋白質(zhì)折疊問(wèn)題上的一個(gè)驚人進(jìn)步,蛋白質(zhì)折疊問(wèn)題是生物學(xué)上一個(gè)跨越50年的巨大挑戰(zhàn)……它將在許多方面從根本上改變生物學(xué)研究,這將是令人興奮的。
AlphaFold2大大提高蛋白結(jié)構(gòu)預(yù)測(cè)的置信度和覆蓋率
有了AlphaFold2這么強(qiáng)有力的武器之后,AlphaFold團(tuán)隊(duì)決定用AlphaFold2來(lái)解析人類蛋白質(zhì)結(jié)構(gòu)。
以往,人們使用各種實(shí)驗(yàn)技術(shù)來(lái)檢測(cè)和確定蛋白質(zhì)結(jié)構(gòu),如核磁共振和X光散射技術(shù)。這些技術(shù),以及像冷凍電子顯微這樣的新方法,依賴于大量的試驗(yàn),這可能需要花費(fèi)數(shù)年艱苦而費(fèi)力的工作,每個(gè)結(jié)構(gòu)還需要使用數(shù)百萬(wàn)美元的專門設(shè)備。
相比而言,AlphaFold2則在很短的時(shí)間內(nèi),破譯了幾乎整個(gè)人類蛋白質(zhì)組(98.5%的人類蛋白質(zhì))的結(jié)構(gòu),其中有35.7%的殘基落在最高精度帶內(nèi),相當(dāng)于目前人類通過(guò)實(shí)驗(yàn)所得結(jié)構(gòu)數(shù)量(17%)的兩倍,極大地?cái)U(kuò)展了蛋白結(jié)構(gòu)覆蓋率。
除了提高蛋白結(jié)構(gòu)預(yù)測(cè)的置信度和覆蓋率,知乎網(wǎng)友@孟凡康還提到,AlphaFold2模型在多結(jié)構(gòu)域復(fù)合體的預(yù)測(cè)上同樣表現(xiàn)優(yōu)異。
AlphaFold的現(xiàn)在和未來(lái)
對(duì)于AlphaFold取得的成就,哈撒比斯也興奮不已,除了在DeepMind官網(wǎng)上發(fā)表文章,也在推特上對(duì)團(tuán)隊(duì)進(jìn)行了“點(diǎn)贊”:
這是我一生中夢(mèng)寐以求的日子,也是創(chuàng)辦Deepmind的初衷:用AI達(dá)成像AlphaFold2這樣的科學(xué)突破并造福人類。為團(tuán)隊(duì)驕傲!
事實(shí)也是如此,AlphaFold已經(jīng)在生物學(xué)和其他領(lǐng)域發(fā)揮作用。
馬克斯普朗克研究所主任兼 CASP 評(píng)估員 Andrei Lupas 教授告訴DeepMind,“AlphaFold 驚人的精確模型使我們能夠解決一個(gè)困擾我們近十年的蛋白質(zhì)結(jié)構(gòu),重新啟動(dòng)我們的努力,以了解信號(hào)是如何通過(guò)細(xì)胞膜傳遞的。”
還有一些例子,比如:
-
DNDi(被忽視疾病藥物開(kāi)發(fā)組織)則表示,AlphaFold2已經(jīng)推動(dòng)了他們?cè)谪毨У貐^(qū)熱帶疾病藥物開(kāi)發(fā)方面的研究;
-
樸茨茅斯大學(xué)酶創(chuàng)新中心(CEI)也表示,他們正在利用AlphaFold2開(kāi)發(fā)一些新效率更高的酶,用來(lái)降解污染環(huán)境的一次性塑料;
-
科羅拉多大學(xué)波爾德分校的一個(gè)研究小組則利用AlphaFold來(lái)制作蛋白質(zhì)結(jié)構(gòu)模型,開(kāi)展一項(xiàng)關(guān)于抗生素的研究;
-
加州大學(xué)舊金山分校的一個(gè)團(tuán)隊(duì)則表示,AlphaFold2可以幫助他們更好理解SARS-CoV-2的生物學(xué)機(jī)制。
未來(lái),AlphaFold2團(tuán)隊(duì)計(jì)劃將預(yù)測(cè)覆蓋范圍大大擴(kuò)展到幾乎每一個(gè)已測(cè)序的蛋白質(zhì)——超過(guò)1億個(gè),這覆蓋了UniProt參考數(shù)據(jù)庫(kù)的大部分蛋白質(zhì)。
可以預(yù)料的是,AlphaFold2的預(yù)測(cè)結(jié)果將進(jìn)一步的激發(fā)生物科學(xué)、藥物研發(fā)、合成生物學(xué)方面的未來(lái)發(fā)展。
本文來(lái)自微信公眾號(hào) “大數(shù)據(jù)文摘”(ID:BigDataDigest),作者:文摘菌,36氪經(jīng)授權(quán)發(fā)布。
