Rosetta@home

来自维基百科,自由的百科全书

Rosetta@home

Rosetta@home是一個基於柏克萊開放式網絡計算平台(BOINC)的分散式計算專案,由華盛頓大學貝克實驗室開發和維護,用於蛋白質結構預測蛋白質-蛋白質對接和新的蛋白質設計英語Protein design的研究。截至2015年2月12日,全球共有5萬多台電腦是這一專案的活躍志願者,平均每秒浮點運算次數達87萬億(87.688 teraFLOPS)。[2]Rosetta@Home還開發了一款電子遊戲Foldit,目的是通過眾包途徑來實現上述研究目標。儘管這個專案很大程度上側重於進行提高蛋白質組學方法的精確性和穩固性的基礎研究,它也進行一些關於愛滋病瘧疾癌症阿茲海默病以及其他疾病的病理學的應用研究。[3]

快速預覽 原作者, 開發 ...
Rosetta@home
Thumb
Thumb
原作者戴維·貝克團隊
開發華盛頓大學貝克實驗室
最初發佈時間2005年10月6日​(19年前)​(2005-10-06
開發狀態活躍
專案目標蛋白質結構預測
蛋白質設計英語Protein design
作業系統Microsoft Windows
麥金塔作業系統
Linux
Android
平台BOINC
使用語言英語
許可學術使用和非牟利使用免費
商業使用須簽署商業協定[1]
截止時間2023-04-02
平均表現225,041吉
活躍用戶數36,726
總用戶數1,363,584
活躍主機數249,673
總主機數529,112
網址boinc.bakerlab.org/rosetta 編輯維基數據連結
關閉

與其他BOINC專案一樣,Rosetta@home使用志願者的電腦中空閒的行程資源來執行單獨的單元計算。計算結果會被傳送到專案的中央伺服器,經驗證後存入資料庫中。這個專案是跨平台的,支援多種不同的軟件計算機硬件環境。用戶可通過Rosetta@home的螢幕保護裝置觀看正在自己電腦上進行的蛋白質結構預測的情況。

除了疾病相關研究,Rosetta@home網絡還是結構生物資訊科學中新方法的一個測試框架。這些新方法經Rosetta@home龐大且多樣的用戶群體使用後,若執行效果穩定,將會被用於其他基於Rosetta的應用程式,例如RosettaDock人類蛋白質組摺疊專案英語Human Proteome Folding Project(HPF)。新方法測試中的兩個重要專案是蛋白質結構預測技術的關鍵測試(CASP)和互動作用預測的關鍵測試英語Critical Assessment of Prediction of Interactions(CAPRI)。這兩項測試實驗分別用於評估蛋白質結構預測和蛋白質-蛋白質對接預測的最前沿技術。Rosetta@home穩居最重要的對接預測器之一,並且是現有最好的蛋白質三級結構預測器之一。[4]

計算平台

Rosetta@home應用程式和BOINC均支援Microsoft WindowsLinux蘋果機Android平台。(BOINC還可在更多平台上執行,如FreeBSD。)[5]參與Rosetta@home的客戶端電腦需要有一個時鐘頻率至少達到500兆赫中央處理器、400MB空餘的硬碟空間、512MB的實體記憶體,以及互聯網連接。[6]截至2021年5月1日,Rosetta應用程式的最新版本號是4.20,在Android平台上應用程式的最新版本號是4.20。[7]用戶的BOINC客戶端與位於華盛頓大學的Rosetta@home伺服器端之間使用標準HTTP(80)進行通訊,HTTPS(443埠)用於密碼交換。BOINC客戶端使用1043和31416埠進行遠端和本地控制,這兩個埠可能需要在防火牆中被設置為「解除封禁」才可被使用。[8]包含蛋白質數據的工作單元由伺服器分配給志願者的電腦(客戶端),然後客戶端對所分配得到的任務進行蛋白質預測運算。為了避免重複的預測,每個工作單元會得到一個初始的隨機種子。這使得每個預測具有獨一無二的沿蛋白質能量圖景(energy landscape)的下降軌道。[9]對於給定的蛋白質能量圖景,Rosetta@home的結構預測近似為整體極小值。這個整體極小值代表該蛋白質的能量最佳構造,即它的自然態

Thumb
Rosetta@home螢幕保護裝置,顯示了一個合成泛素蛋白質(PDB ID: 1ogw)的結構預測進行情況

Rosetta@home的圖形化使用者介面是一個螢幕保護裝置,顯示了當前工作單元進行蛋白質摺疊模擬的情況。螢幕左上方為當前蛋白質鏈正在嘗試的移動(即搜尋的形狀)。緊鄰其右側是最新一個被接受的移動。再往右側分上下兩個小圖,上圖為當前最低能量形狀,下圖為實驗中得到的真實形狀(如果已知)。螢幕中部顯示的是被接受模型的自由能變化曲線。螢幕上方最右側是接受模型的均方根偏差(RMSD)曲線,體現了被接受模型與實驗中真實模型之間的相似度。在自由能變化曲線右側、RMSD曲線下方,使用這兩項結果生成了一個能量/RMSD圖,伴隨着模型的不斷精確。[10]

與所有其他BOINC專案類似,Rosetta@home利用客戶端空閒資源,在後台執行。執行過程可能發生在用戶登入作業系統之前或之後。當其他應用程式需要時,Rosetta@home會釋放資源,因此不會影響用戶對電腦的正常使用。為了使電腦的功耗或者放熱降到最低,用戶可以自行指定Rosetta@home使用CPU資源的最大比例。此外,Rosetta@home每天最多執行次數,以及更多選項也都可以通過用戶的帳戶選項來進行設置。

Rosetta@home網絡所使用的Rosetta軟件最早用Fortran編寫,後改用C++重新編寫,以利於進一步的開發。新版本於2008年2月8日發佈,實現了物件導向[11]Rosetta代碼由Rosetta Commons開發。[12]這個軟件對學術使用免費,對製藥公司則收取費用。[12]

專案意義

通過一系列的基因組定序計劃,科學家能夠判定許多種在細胞內發揮作用的蛋白質的氨基酸序列或者一級結構。為了更好地了解蛋白質的功能,以及向合理化藥物設計提供輔助,科學家們需要知道蛋白質的三維三級結構

Thumb
CASP6的目標蛋白質T0281:首個接近原子級精度的ab initio蛋白質結構預測。Rosetta生成了T0281(洋紅色)的一個模型,與實驗測定的晶體結構(藍色)之間的RMSD為1.5

蛋白質的三維結構目前主要通過X射線晶體學核磁共振技術來進行實驗確定。這個過程十分耗時,例如可能花費數星期或者幾個月才能首次研究出如何使一種蛋白質結晶;而成本又非常高,每種蛋白質耗費約10萬美元。[13]更重要的是,發現新序列的速度遠超確定結構的速度:美國國家生物技術資訊中心非冗餘蛋白質資料庫中存在的超過740萬個蛋白質序列中,僅有不到5.2萬已被確定結構並被存入蛋白質資料庫中。[14]Rosetta@home的一個主要目標是在顯著降低時間和金錢成本的情況下,預測蛋白質結構,並且達到與現有實驗方法同樣的精度。Rosetta@home還開發了確定膜蛋白(如G蛋白偶聯受體)結構和對接的方法。[15]膜蛋白是現代藥物設計的主要目標,但通過X射線晶體學、核磁共振等傳統技術卻極難獲得其結構。

蛋白質結構預測的進展通過兩年一屆的蛋白質結構預測技術的關鍵測試(CASP)實驗來進行評估。在這項實驗中,來自全球各地的研究人員嘗試從氨基酸序列中得到蛋白質結構。這項實驗有時競爭十分激烈,得分高的小組被認為是最高端蛋白質結構預測研究的事實上的標準制定者。Rosetta@home所基於的Rosetta程式,自1998年的CASP3實驗上開始被使用。在2004年的CASP6上,Rosetta創造了歷史,在它為CASP目標蛋白質T0281提供的模型中,首次生成了接近原子級精度的ab initio蛋白質結構預測。[16]Ab initio不使用結構同源英語Structural alignment的資訊,而必須依賴於序列同源資訊以及蛋白質內的模擬物理互動,因此被認為是一類特別難以預測的蛋白質結構。Rosetta@home自2006年CASP7上開始被使用。在CASP7上,它在每個類別的預測中都成為最好的預測器之一。[17][18][19]而高質素的預測需要來自Rosetta@home眾多志願者提供計算資源。[20]不斷增多的計算資源使Rosetta@home能夠對構象空間(一個蛋白質可以被假設具有的可能的形狀)更多的區域進行取樣,根據「黎文索爾弔詭」(Levinthal paradox),採樣數量會隨着蛋白質長度的增長而呈指數增長

Rosetta@home也被用於蛋白質-蛋白質對接預測。這項預測確定蛋白質複合體結構或者四級結構。這一類型的蛋白質互動作用影響到許多細胞功能,包括抗原-抗體-抑制劑捆綁等。確定這些互動作用在藥物設計中十分關鍵。Rosetta被用於互動作用預測的關鍵測試(CAPRI)實驗。這項實驗評估當前最前沿的蛋白質對接技術,評估模式與CASP類似。Rosetta在這項實驗中得到的結果屬最精確、最完整之一,而志願者提供的計算資源被認為是Rosetta獲得成功的主要因素之一。[21]

2008年初,Rosetta被用來推算設計一種具有在自然界中從未被觀察到功能的蛋白質。[22]這個靈感源自2004年一篇引起關注的、被撤稿的論文,那篇論文中描述了一種蛋白質的推算設計,這種蛋白質與天然的蛋白質相比提高了酶活力。[23]2008年,大衛·貝克的研究組發表了論文,描述了這種蛋白質的製造過程。論文指出Rosetta@home為其提供計算資源,作為這種蛋白質設計方法的一項重要的概念論證。[22]這一類型的蛋白質設計將來可能在藥物設計綠色化學生物修復等領域得到應用。[22]

疾病相關研究

除了蛋白質結構預測、對接、設計等基礎研究,Rosetta@home也被用在疾病相關研究。[24]大衛·貝克的Rosetta@home紀錄檔上描述了許多附屬的研究專案。[25]

阿茲海默病

Rosetta套裝軟件當中的一個組件RosettaDesign,被用來精確預測澱粉樣蛋白(amyloidogenic protein)的哪個區域最可能形成澱粉樣纖維。[26]通過取得蛋白質中的六肽(6個氨基酸長度的片斷),選擇與一個已知能夠形成纖維的六肽相匹配的最低能量結構,RosettaDesign能夠辨識出形成纖維可能性為隨機蛋白質兩倍的肽段。[27]在此類研究中,Rosetta@home被用於預測β澱粉樣蛋白的結構。[28]β澱粉樣蛋白是一種能夠形成纖維的蛋白質,被認為會引起阿茲海默病。RosettaDesign一項尚未發表的初步結果設計出了也許可以預防纖維形成的蛋白質,但它能否預防這種疾病尚不得而知。[29]

炭疽病

Rosetta的另一個組件RosettaDock[30][31][32]與實驗方法相結合,被用於構造致死因子(lethal factor,LF)、水腫因子(edema factor,EF)和保護性抗原(protective antigen,PA)等三種蛋白質的互動作用模型。這三種蛋白質構成了炭疽病毒素。這個模型精確預測LF與PA之間的對接,幫助確定兩種蛋白質分別有哪些結構域參與到LF-PA複合體的構造中。這項成果最終被應用到改良的炭疽病疫苗的研製。參照錯誤:沒有找到與<ref>對應的</ref>標籤[33]

單純疱疹病毒1型

RosettaDock還被用來構造一種抗體免疫球蛋白G)與能夠使抗病毒抗體退化的單純疱疹病毒1型HSV-1)表面蛋白之間的對接模型。RosettaDock預測的蛋白質複合體與極難得到的實驗模型近乎一致。研究人員總結說,這種對接方法可望解決X射線結晶學方法構造蛋白質-蛋白質介面模型所遇到的一些問題。[34]

HIV

作為一項獲得比爾與美琳達·蓋茨基金會1940萬美元資助的研究專案的一部分[35],Rosetta@home被用於設計人類免疫缺陷病毒(HIV)疫苗。[36][37]

瘧疾

在與「全球重大衛生挑戰計劃」相關的研究中[38],Rosetta還被用於運算設計新型的歸巢核酸內切酶蛋白質。這種蛋白質能夠根除岡比亞瘧蚊或者使這種瘧蚊無法傳播瘧疾[39]由於能夠構建及改變蛋白質-DNA互動作用模型,特別是歸巢核酸內切酶蛋白質等,像Rosetta這一類運算蛋白質設計方法成為基因治療中的一個重要角色。[24][40]

COVID-19

華盛頓大學蛋白質設計研究所(IPD)就目前的進展進行了報告。該訊息證實,Rosetta @ home 一直在處理冠狀病毒的臭名昭著的棘突蛋白(spike protein),並透露它已經能夠「準確預測重要的冠狀病毒蛋白的標度結構可以在實驗室中檢測到。IPD還強調了這項研究的一些可能的應用。他們寫道:「掌握了這些知識後,蛋白質設計研究所的研究人員現在正在努力創造新的蛋白質來中和冠狀病毒。如果成功,這些抗病毒蛋白將粘附在SARS-CoV-2穗蛋白上,從而防止病毒顆粒感染健康細胞。」 此外,IPD透露,美國國立衛生研究院和華盛頓大學的研究同事正在使用 Rosetta @ home 的結果來生產候選疫苗-其中一些已經在小鼠身上進行了測試。[41]

發展歷史與分支

Rosetta最初是作為ab initio蛋白質結構預測方法,在1998年由貝克實驗室開發[42];而到目前,這個專案已經形成多個分支,有各自不同的發展和服務方向。Rosetta平台得名於羅塞塔石碑(被用於破譯古埃及文字),因為該平台試圖破譯蛋白質的氨基酸序列的結構「含義」。[43]Rosetta出現7年之後,Rosetta@home專案於2005年10月6日發佈。[44]許多參與到Rosetta起步工作的研究生和研究人員已經搬遷到各個不同的大學和研究機構。這使Rosetta專案的不同分支也得到加強。

RosettaDesign

Thumb
Rosetta設計的TOP7模型(紅色)與其X射線晶體結構(藍色,PDB ID: 1QYS)的疊合

RosettaDesign是基於Rosetta的一個蛋白質設計工具。它始於2000年對蛋白質G的摺疊路徑的一項研究。[45]2002年,RosettaDesign被用來設計TOP7。TOP7是一種93個氨基酸長度的α/β型蛋白質,具有在自然界中尚未被發現的整體摺疊結構。這一全新的結構由Rosetta預測,與X射線晶體學確定的結構的之間的RMSD在1.2範圍內,是一個精度極高的結構預測。[46]Rosetta和RosettaDesign最早設計和精確預測出這一長度的新型蛋白質,受到廣泛的認可。他們2003年在《科學》雜誌上發表的相關論文已被270多篇論文參照。[47]這項研究的顯著成果TOP7被選為蛋白質資料庫2005年10月的「月度分子」(Molecule of the Month)。[48]這項預測與其X射線晶體學結構的疊合被包含在Rosetta@home的logo設計中。[16]曾在貝克實驗室當博士後、現任北卡羅來納大學教堂山分校助理教授的布賴恩·庫爾曼[49]提供了RosettaDesign的線上服務。[50]

RosettaDock

RosettaDock在2002年CAPRI實驗時作為貝克實驗室的蛋白質-蛋白質對接預測演算法被添加到Rosetta軟件套裝中。[51]在那次實驗中,RosettaDock對化膿性鏈球菌毒素A和T細胞受體β鏈的對接做出了高精度預測,對一種豬的α澱粉酶與相應駱駝抗體的複合體做出了中等精度預測。儘管RosettaDock方法只在七種可能中給出兩種可接受精度的預測,這已經足以讓它在那屆CAPRI實驗中名列19個預測方法中的第7位。[51]

RosettaDock的基礎工作主要是由傑弗里·格雷在華盛頓大學期間完成的。後來他搬到約翰·霍普金斯大學接受另一個工作職位。因此,RosettaDock在這之後的開發出現了兩個分支。這兩個分支在側鏈建模、誘捕選擇等方面存在細微差異。[32][52]儘管存在這些差異,貝克和格雷的方法均在第二次CAPRI實驗中表現出色,在30個小組中分列第5位和第7位。[53]

2006年10月,RosettaDock被整合到Rosetta@home中。這一方法首先僅用蛋白質骨架進行快速、粗略的對接建模,然後進行緩慢的全原子最佳化。在後一階段中,兩個互相作用的蛋白質之間的相對位置以及蛋白質-蛋白質介面的側鏈互動作用同時被最佳化,從而得到最低能量構造。[54]Rosetta@home網絡提供的巨大的運算能力,以及骨架靈活性和連接環建模經修訂的摺疊樹表述,使RosettaDock在第三次CAPRI實驗中名列63個預測組中的第6位。[4][21]

Robetta

Robetta是一個自動化的蛋白質結構預測服務,由貝克實驗室提供,用於非商業性質的ab initio和比較建模。[55]它自2002年起參加CASP實驗,在當屆CASP5的自動化伺服器預測類別中名列前茅。[56]此後,Robetta又參加了CASP6和CASP7,成績比自動化伺服器和人工預測組的平均水平都高。[19][57][58]

到CASP6時為止,Robetta構建蛋白質結構模型時採用的方法是,首先用BLAST、PSI-BLAST和3D-Jury搜尋結構同源體,然後通過序列與Pfam資料庫中的結構族的匹配,將目標序列解析為單獨的結構域或者獨立的摺疊單元。下一步,具有結構同源體的結構域則要遵循一個基於模板的模型(即同源建模)協定。在此處,貝克實驗室內部的一個程式K*sync會生成一組序列同源體,其中的每一項由Rosetta的de novo方法建模,產生誘捕(可能的結構)。然後,由低解像度Rosetta能量函數確定的最低能量模型被選為最終的結構預測方案。對於未檢測到結構同源體的結構域,將根據de novo協定,選定生成的誘捕中具有最低能量的模型作為最終的結構預測方案。這些結構域預測方案將被連接在一起,用來研究蛋白質內跨結構域、三級結構級別的互動作用。最後,根據一個蒙特·卡羅構造搜尋協定來構建側鏈貢獻。[59]

在CASP8中,由於Rosetta高解像度全原子最佳化方法的引入,Robetta的效能得到提高。[60]而缺少這一方法被認為是Robetta在CASP7中精度低於Rosetta@home的主要原因。[20]

Foldit

2008年5月9日,貝克實驗室接受Rosetta@home用戶關於互動式版本的建議,發佈了電子遊戲Foldit。這是一個基於Rosetta平台的線上蛋白質結構預測遊戲。[61]截至2009年1月9日,Foldit的註冊用戶已經接近7.9萬名。[62]這個遊戲賦予用戶一系列的控制功能(如「搖動」、「擺動」、「重建」等),來操縱目標蛋白質的骨架和氨基酸側鏈,以獲得最佳能量構造。用戶能夠以單獨或者集體的形式來進行遊戲,通過改進結構預測方案來獲得積分。[63]用戶還可以通過「決鬥」功能來與其他用戶進行競賽,在20個動作內得到最低能量結構的用戶獲勝。

Foldit 新增了全新關卡,為了阻止冠狀病毒感染人體細胞,正在尋找阻斷兩者的蛋白質結構。雖然對一般玩家來說要徹底理解可能稍嫌複雜,但遊戲的開發是為了「讓任何人都能參與」,Foldit 會提供一系列教學關卡,透過輔助工具解謎並獲得分數,研究人員會參考有潛力的方案並進行實驗。[64]

RoseTTAFold

RoseTTAFold受到AlphaFold的啟發,使用神經網絡來預測殘基之間的距離和方向。這些預測指導Rosetta軟件生成結構。 RoseTTAFold是在MIT許可證下開源的。[65]

非貝克實驗室分支機構

中國的 Janyi Yang 實驗室提供了Rosetta的修改版本,稱為 tr-RosettaX2(變換約束 Rosetta)。[66]它使用與RoseTTAFold不同的基於深度學習的接觸預測方法來指導通常的Rosetta折疊演算法。 trRosetta 早於 RoseTTAFold。[67]

與類似的分散式計算專案的比較

目前有多個分散式計算專案與Rosetta@home具有類似的研究方向,但研究方法上存在差異。

Folding@home

史丹福大學開發的Folding@home是與蛋白質研究相關的主要分散式計算專案中唯一不使用BOINC平台的。[68]Rosetta@home與Folding@home都研究蛋白質錯誤摺疊疾病(如阿茲海默病),但Rosetta@home還進行其他研究,而Folding@home則主要集中於這類研究。[69]Folding@home並不採用基於結構或者基於設計的方法來預測澱粉體行為,而是採用分子動力學方法來構建蛋白質摺疊活動(以及可能的錯誤摺疊和聚合)的模型。[70]換言之,Folding@home的優勢在於模擬蛋白質摺疊活動,而Rosetta@home的優勢則在於蛋白質運算設計以及蛋白質結構對接的預測。這兩個專案在計算資源和主機分佈上也存在顯著差異。Rosetta@home的主機群體基於PC,平均執行速度為78萬億FLOPS[2];而Folding@home的主機群體包括了PlayStation 3圖形處理器,平均執行速度達4769萬億FLOPS,大約是Rosetta@home的61倍[71]

世界公共網格

世界公共網格的子專案人類蛋白質組摺疊專案英語Human Proteome Folding Project(HPF)1期和2期均使用Rosetta程式來為不同的基因組添加結構和功能註解。[72][73]人類蛋白質組摺疊專案的首席科學家里夏爾·博諾在華盛頓大學貝克實驗室攻讀博士學位期間積極參與了Rosetta的早期開發,但他現在主要使用Rosetta來為生物學家建立資料庫。[74]他的個人網站上設置了關於HPF1、HPF2的資訊佈告板。[75]

Predictor@home

與Rosetta@home相似,蛋白質結構預測也是Predictor@home的研究重點。Predictor@home還計劃在其分散式計算平台上開發蛋白質設計與對接的新研究領域(採用分子動力學的CHARMM軟件套件)。[76]這將使它與Rosetta@home更加相似。進行結構預測時,Rosetta@home使用的是Rosetta程式,而Predictor@home則使用dTASSER方法。[77]

其他

BOINC平台上其他的蛋白質相關分散式計算專案包括QMC@HomeDocking@HomePOEM@homeSIMAPTANPAKU。RALPH@home是Rosetta@home的alpha版本,用來進行新應用程式、工作單元以及更新被添加到Rosetta@home之前的測試工作。RALPH@home也在BOINC平台上執行。[78]

志願者的貢獻

Thumb
Rosetta@home在CASP8實驗期間的用戶貢獻柱狀統計圖

Rosetta@home的研究依賴於大量志願者提供的計算資源。截至2014年4月18日,Rosetta@home的活躍用戶超過2.69萬人,分佈在150個國家,總共提供了66000台電腦的空閒資源,使Rosetta@home的平均執行速度達到83萬億FLOPS[2]

用戶的貢獻通過BOINC積分來度量。一個用戶從某一工作單元得到的積分是他在這個工作單元上產生的「誘餌」數量與所有用戶在該工作單元獲得的積分均值的乘積。[79]Rosetta@home對CPU每秒工作所給的積分低於絕大多數其他BOINC專案。[80]儘管如此,Rosetta@home仍在所有BOINC專案中名列總積分值第9位。[81]

預測的蛋白質結構被提交到CASP實驗的用戶,也在相關的學術出版物中被致謝。[82]而預測出指定工作單元最低能量結構的用戶及其所在隊伍則會在Rosetta@home的首頁上被列為「當日預測者」(Predictor of the Day)。[83]每天還有一名隨機選出的用戶會被列在首頁上,成為「當日用戶」(User of the Day)。[84]

參考文獻

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.