热门问题
时间线
聊天
视角

蛋白質結構預測

来自维基百科,自由的百科全书

蛋白质结构预测
Remove ads

蛋白質結構預測(英語:Protein structure prediction)是指從蛋白質的胺基酸序列中預測蛋白質的三維結構。也就是說,從蛋白質一級結構預測它的摺疊二級三級四級結構。結構預測與蛋白質設計英語Protein design的反問題有著根本的不同。蛋白質結構預測是生物資訊學與理論化學所追求的最重要目標之一;它在醫學上(例如,在藥物設計)和在生物技術上(例如,新的的設計)都是非常重要的。每隔兩年,當前蛋白質結構預測技術的性能在蛋白質結構預測技術的關鍵測試(CASP)實驗中被評測。蛋白質結構預測的網絡伺服器連續的評測是由社區項目CAMEO3D英語CAMEO3D執行。

Thumb
胺基酸組成可以被分析來預測二級,三級和四級蛋白質結構。

蛋白質結構和術語

蛋白質是由胺基酸鏈通過肽鍵連接在一起。與α碳原子相連的C-N鍵和C-C鍵相對旋轉,產生了蛋白質主鏈的多種構象,也正是這些構象變化造成了蛋白質三維結構上的差異。每一個胺基酸的主鏈都是極性的,即 碳氧雙鍵上的碳原子帶正電性、氧原子帶負電性(δ+ C=O δ-),氧原子可以作為氫鍵受體;氮氫單鍵有(δ- N-H δ+),氮原子可以作為氫鍵供體。這些基團在蛋白質結構中便可以相互作用。根據側鏈結構的不同可以分為20種常見胺基酸,各自在蛋白質中扮演著重要的角色。甘胺酸(Glycine)的角色往往很特殊,因為它的側鏈是最小的,只有一個氫原子,沒有側鏈的空間位阻就增加了主鏈的局部靈活性。半胱胺酸(Cysteine)可以與另一個半胱胺酸發生交聯反應形成二硫鍵,使蛋白質整體更加穩定。

蛋白質結構的形成以二級結構元素(Secondary Structure Elements, SSE)為基礎,二級結構中有α螺旋和β摺疊,它們共同構成了蛋白質鏈的三級結構。在這些常見的二級結構中,相鄰的胺基酸之間形成氫鍵,主鏈也有類似的Φ(或者φ,Phi)和Ψ(Psi)角。

Thumb
ψ and Ψ 角的定義

這些結構的形成使每個胺基酸主鏈的極性得到了中和和穩定。在疏水環境裡,二級結構常常緊密地堆疊形成蛋白質核心。每個胺基酸側鏈的體積的限制,加之與鄰近側鏈可能產生的相互作用的限制,我們需要運用分子模擬與結構疊合的手段來預測蛋白質的細微結構[1]

Remove ads

α螺旋

Thumb
一個α-螺旋帶氫鍵(黃色點)

α螺旋是在蛋白質二級結構中最豐富的類型。α螺旋的平均每個螺旋週期包含3.6個胺基酸,形成一個氫鍵,在每4個殘基中;平均長度為10個胺基酸(3個螺旋)或10埃(Å),但變化範圍5到40(Å)(1.5個至11個螺旋)。沿螺旋排列的氫鍵也構成了帶部分電荷的偶極矩,氮端帶部分正電。因為氮端有自由的胺基,可以與帶負電的基團,比如磷酸基團,進行反應。α螺旋常位於蛋白質核心區靠近表面的位置,有利于于水環境發生作用。面向蛋白內部的螺旋傾向於採用更多的疏水胺基酸,面向外部的多為親水胺基酸。因此,螺旋鏈上每四個胺基酸中位置處於的第三位的多為疏水,這也很特徵很容易被識別出。比如對白胺酸拉鏈模體Leucine zipper motif)有高度預測性的重複特徵是兩個相鄰的螺旋相對的面上均有白胺酸的存在。螺旋輪圖可以顯示出這種重複性的特徵。其它的藏在蛋白質核心區或者細胞膜內的α螺旋會更經常分布疏水胺基酸,這樣的結構也更能被預測。 暴露在螺旋表面的胺基酸中疏水胺基酸所占的比例會更小。所以說胺基酸的類別組成可以用來預測α螺旋區域。那些有更多丙胺酸(Alanine,A)、麩胺酸(Glutamic acid,E)、白胺酸(Leucine,L)、蛋胺酸(methionine,M),更少脯胺酸(Proline,P)、甘胺酸(Glycine,G)、酪胺酸(Tyrosine,Y)、絲胺酸 (Serine,S)的胺基酸容易形成α螺旋。脯胺酸通常破壞或者使α螺旋更不穩定,但是在更長可以存在因為它在α螺旋中形成一個彎折。

Remove ads

β摺疊

環肽鏈

捲曲

一個二級結構的區域不是一個α螺旋,一個β摺疊,或可識別的轉動,通常被稱為一個捲曲(Coils)[1]

蛋白質分類

蛋白質可以根據其結構和序列相似性進行分類。在結構分類方面,已知的三維結構被用來比較前述段落中描述的次級結構的大小和空間排列。而基於序列相似性的分類則是最早被採用的方法。最初,通過比對整個序列來判斷相似性,隨後,蛋白質被分類為具有保守胺基酸模式的類別。目前,已有多個資料庫按照一種或多種分類方法對蛋白質進行整理和歸類。

在研究蛋白質分類方案時,需要注意以下幾點。首先,來自不同進化起源的兩個完全不同的蛋白質序列可能會摺疊成相似的結構。相反,一個古老基因的序列雖然在不同物種中發生了較大程度的變化,但其基本結構特徵可能仍然保持不變。在這種情況下,識別其剩餘的序列相似性可能會非常困難。其次,如果兩個蛋白質的序列相似度較高,無論是彼此之間還是與第三個序列相比,它們很可能具有共同的進化起源,並且應當共享某些結構特徵。然而,在進化過程中,基因複製和基因重組可能會產生新的基因拷貝,使其演化出具有新功能和新結構的蛋白質。[2]

Remove ads

常用於描述蛋白質進化與結構關係的術語

常用於描述蛋白質進化和結構關係的術語列舉如下。此外,還有許多術語用於描述蛋白質的各種結構特徵。這些術語的詳細說明可在CATH網站、蛋白質結構分類(SCOP)網站以及瑞士生物資訊學Expasy網站上的葛蘭素史克教程中找到。

活性位點(Active site)

指蛋白質三級(三維)或四級(蛋白亞基)結構中由胺基酸側鏈基團形成的特定區域,可與特定的化學受質相互作用,並賦予蛋白質生物活性。具有完全不同胺基酸序列的蛋白質可能會摺疊成相同的活性位點結構。

構架(Architecture)

指蛋白質三維結構中次級結構的相對取向,而不考慮它們是否具有相似的環狀結構。

摺疊(拓撲結構)(Fold/Topology)

一種特殊的構架,其中環狀結構是保守的(即在進化過程中保持不變)。

區塊(Blocks)

蛋白質家族中保守的胺基酸序列模式。該模式在序列的每個位置包含一系列可能的匹配項,但不允許插入或刪除胺基酸。相比之下,序列模式(sequence profile)是一種包括插入和刪除的評分矩陣。

類別(Class)

根據蛋白質結構域的次級結構含量和組織方式進行分類的術語。Levitt和Chothia(1976)最初定義了四類,SCOP 資料庫後來增加了其他類別。CATH資料庫將蛋白質分為三大類:主要為 α-螺旋(mainly-α)、主要為 β-摺疊(mainly-β)和 α-β(同時包含交替的 α/β 和 α+β 結構)。

核心(Core)

指摺疊蛋白分子中 α-螺旋和 β-摺疊所形成的疏水性內部結構。其緊湊的結構使胺基酸側鏈相互靠近並發生相互作用。在蛋白質結構比對中(如 SCOP 資料庫),核心是大多數具有相同摺疊結構或屬於同一超家族的蛋白質共有的區域。在結構預測中,核心通常被定義為在進化過程中可能保持不變的次級結構排列。

結構域(Domain,序列背景)

指肽鏈中可以獨立摺疊成三維結構的片段,無需依賴其他片段。蛋白質的不同結構域可能相互作用,也可能僅通過多肽鏈的一小部分連接在一起。具有多個結構域的蛋白質可以利用這些結構域與不同的分子進行功能性交互。

家族(Family,序列背景)

指一組具有相似生化功能的蛋白質,其序列比對的相似度超過 50%。該標準仍被蛋白質資訊資源(PIR)採用。蛋白質家族包括不同生物體中執行相同功能的蛋白(直向同源,orthologs),也可能包括同一生物體內由於基因重複和重組產生的蛋白(旁系同源,paralogs)。如果蛋白家族的多重序列比對在整個蛋白序列長度上保持相似性,PIR 將其稱為同構家族(homeomorphic family)

家族(Family,結構背景)

在 FSSP(Families of Structurally Similar Proteins)資料庫和 DALI/FSSP 網站中,家族定義為在結構上具有顯著相似性但不一定在序列上相似的蛋白質。

摺疊(Fold)

類似於結構基序(structural motif),但包括更多的次級結構單元,並且這些次級結構按照相同的方式連接。例如,羅斯曼摺疊(Rossman fold)由多個交替的 α-螺旋和平行 β-摺疊組成。在SCOP、CATH 和 FSSP資料庫中,已知的蛋白質結構被分為不同層級的結構複雜性,其中摺疊是基本的分類層級之一。

同源結構域(Homologous domain,序列背景)

指通過序列比對發現的擴展序列模式,表明這些序列具有共同的進化起源。同源結構域通常比基序(motif)更長,可以覆蓋整個蛋白質序列或僅包含其中一部分。有些結構域較為複雜,由多個較小的同源結構域組合而成。

模塊(Module)

指由一個或多個保守胺基酸模式組成的結構或功能基本單元。蛋白質的模塊特徵也被用於分類不同的蛋白質家族。

基序(Motif,序列背景)

指在兩個或多個蛋白質中保守的胺基酸模式。在Prosite目錄中,基序是存在於一組具有相似生化活性蛋白中的胺基酸模式,通常位於蛋白的活性位點附近。例如,Prosite目錄和斯坦福基序資料庫(Stanford Motifs Database)包含多個已知的序列基序。

基序(Motif,結構背景)

指由於多肽鏈的摺疊,多個相鄰的次級結構單元組合成的特定三維結構。例如,螺旋-環-螺旋(helix-loop-helix)基序。結構基序也被稱為超次級結構(supersecondary structure)或摺疊(fold)。

位置特異性評分矩陣英語Position weight matrix(Position-specific scoring matrix, PSSM,序列背景)

表示在多重序列比對中無間隙(gap-free)的保守區域。矩陣的每一列代表比對中的一個胺基酸位點,每一行代表 20 種胺基酸之一,矩陣值表示每種胺基酸出現在該位置的可能性。

位置特異性評分矩陣-3D(PSSM-3D,結構背景)

表示落入同一結構類別的蛋白質比對中的胺基酸變化情況。矩陣列代表比對結構中的胺基酸位點,矩陣行表示 20 種胺基酸。

一級結構(Primary structure)

蛋白質的線性胺基酸序列,即胺基酸通過肽鍵連接形成的多肽鏈。

輪廓(Profile,序列背景)

一種評分矩陣,表示蛋白質家族的多重序列比對。它通常由比對中保守區域獲得,每列代表比對中的一個位置,每行代表 20 種胺基酸之一。

輪廓(Profile,結構背景)

表示在已知蛋白質結構中的每個胺基酸位置,哪些胺基酸更適合,哪些胺基酸較不適合。

四級結構(Quaternary structure)

由多個獨立多肽鏈組成的蛋白質的三維構象。

二級結構(Secondary structure)

描述蛋白質主鏈中C、O和NH基團之間的相互作用,形成α-螺旋、β-摺疊、轉角(turn)、環(loop)等結構,並幫助蛋白質摺疊成三維結構。

超家族(Superfamily)

由多個蛋白質家族組成的群體,這些家族之間存在可檢測到的遠親序列相似性。超家族成員具有共同的進化起源,可能表現出相似的結構或功能特徵。SCOP和CATH資料庫中均使用超家族這一分類層級。

軟體工具

目前已有大量用於蛋白質結構預測的軟體工具。常見的方法包括同源建模(homology modeling)、蛋白質摺疊模擬(protein threading)、從頭預測(ab initio methods)、二級結構預測(secondary structure prediction)、跨膜螺旋(transmembrane helix)及信號肽(signal peptide)預測。特別是,自2007年以來,基於長短期記憶深度學習已被用於蛋白質同源性檢測,並成功預測了蛋白質的亞細胞定位。[3]近年來,在CASP(蛋白質結構預測關鍵評估)實驗中表現突出的方法包括I-TASSER、HHpred和AlphaFold。其中,2021年的研究報告顯示,AlphaFold的預測效果最佳。[4]

了解蛋白質的結構通常可以幫助推測其功能。例如,膠原蛋白(collagen)摺疊成一種細長的纖維狀鏈,因此它是一種纖維蛋白(fibrous protein)。近年來,一些技術已被開發用於預測蛋白質摺疊及其結構,例如I-TASSER和AlphaFold。

人工智慧方法

AlphaFold是最早用於預測蛋白質結構的人工智慧之一。它由谷歌DeepMind在2018年第13屆CASP競賽中首次推出。[4]AlphaFold採用神經網絡方法,利用胺基酸序列及比對的同源序列,直接預測蛋白質中所有非氫原子的三維坐標。AlphaFold的神經網絡由一個主幹(trunk)組成,該部分通過重複層處理輸入資料,同時包含一個結構模塊(structure module),用於顯式引入三維結構。[4]早期的蛋白質結構預測神經網絡使用了長短期記憶[3]

由於AlphaFold直接輸出蛋白質坐標,其預測時間在圖形處理單元(GPU)上通常為幾分鐘到幾小時,具體取決於蛋白質序列的長度。[4]

歐洲生物資訊學研究所DeepMind合作構建了AlphaFold-EBI資料庫,[5]用於存儲預測的蛋白質結構。[6]

目前的AI方法及預測蛋白質結構資料庫

AlphaFold2在CASP14中首次亮相,能夠以接近實驗精度預測蛋白質結構。[4]AlphaFold之後迅速迎來了RoseTTAFold,[7]以及後來的OmegaFold和ESM Metagenomic Atlas。

在一項研究中,Sommer等人(2022)展示了蛋白質結構預測在基因組注釋中的應用,特別是在使用計算預測結構識別功能性蛋白質亞型方面,該研究成果可在 https://www.isoform.io 查閱。[8]這項研究突出了蛋白質結構預測作為基因組注釋工具的潛力,並提出了一種實用的、基於結構的指導方法,可用於增強任何基因組的注釋。

2024年,戴維·貝克德米斯·哈薩比斯因其在計算蛋白質建模方面的貢獻,包括開發AlphaFold2,獲得諾貝爾化學獎[9]AlphaFold2的預測準確性通過均方根殘留誤差與實驗結構對比評估,[10]預測結果在高置信度區域與實驗結構的均方根殘留誤差為0.6 Å,但在低置信度區域可能超過2 Å。對於多結構域蛋白,AlphaFold2能準確預測各結構域,但可能隨機分配它們的位置,且未考慮如膜平面等結構限制。[11]

自動結構預測伺服器評估

CASP(蛋白質結構預測技術的關鍵測試)是一項自1994年以來每兩年舉辦一次的社區實驗,用於評估蛋白質結構預測。CASP為評估現有的人工(人類類別)和自動化預測方法(伺服器類別,從CASP7開始引入)提供了機會。[12]

持續自動化模型評估英語CAMEO3D伺服器每周評估自動蛋白質結構預測,使用盲預測評估新發布的蛋白質結構,並將結果發布在其網站上。

參考文獻

延伸閲讀

參閱

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads