化學資料庫是為記錄化學資訊而專門設計的資料庫。這些資訊包括了物質的分子結構晶體結構、譜學資訊、相關反應與合成方法,以及化學熱力學性質數據等。

化學資料庫的種類

分子結構資料庫

一般來說,用二維鍵線式來描述分子結構,對大多數小分子而言是較為常見的方法。儘管這種表述方法對化學家們來說簡單明了,卻不適合於在資料庫中的儲存和搜尋演算法的編寫。因此在資料庫中小分子(在藥物設計領域也常稱為配體)通常以將分子中的原子及其鍵連列表的方式描述,而大分子如蛋白質等,則常用氨基酸組裝單元序列等更緊湊的方式表示。

化學文獻資料庫

化學文獻資料庫的目的是將化學物質與相關文獻——如科學論文或專利——關聯起來。此類資料庫的典型代表如化學文摘社STNSciFinder。許多專注於物質表徵的資料庫都提供了文獻連結。

晶體學資料庫

晶體學資料庫主要提供物質的X射線繞射數據。這些數據反映了物質的結構資訊。最典型的代表是蛋白質資料庫劍橋晶體學資料庫

核磁共振譜資料庫

核磁共振譜資料庫提供物質的核磁共振波譜資訊。這類資料庫一般也提供物質的其他譜學資訊,如傅立葉變換紅外吸收光譜質譜等。

反應資料庫

大多數資料庫所記錄的都是穩態分子的資訊,但也有一些反應資料庫,着重記錄反應中瞬間產生的亞穩態分子或中間體。這類反應資料庫一般還會提供反應前驅物、產物和反應機理的資訊。

熱物理學性質資料庫

熱物理學性質包括以下方面:

分子結構的表示

在數碼化的化學資料庫中,分子結構一般有兩種表示方法,包括:

搜尋

亞結構搜尋

化學研究者在搜尋某一物質時,可以不必輸入整個分子式,而只搜尋其結構的一部分,或其IUPAC命名法名稱的一部分。這種亞結構搜尋功能,正是化學資料庫與一般資料庫最大的區別之一。這種搜尋是基於子圖同構問題實現的,而這一問題也在圖論中被廣泛研究。一般來說這類搜尋具有O (n3)或O (n4)的時間複雜性,其中n是涉及原子的數目。

構象搜尋

在一定的空間限制條件下,搜尋物質特定的三維構象,也是化學資料庫常需要實現的功能之一(尤其是在藥物設計領域)。這樣的搜尋相當消耗資源,因而人們也設計了多種近似方法來加以解決[1][2][3][4][5]

描述單元

分子的所有性質都可以拆分為具體的物理/化學性質或藥學性質,這些性質被稱作描述單元。最重要的描述單元當然是化合物名,在這方面,多年來已發展起多種接近標準化的命名方法,從而得以減少含義不清的命名或一物多名現象。其中,IUPAC名是一個很好的選擇,不僅對人而言直接可讀,從電腦角度也提供了獨一無二的字串。不過,對大分子而言,IUPAC名就顯得過分冗長了。至於化合物的俗名,則難免受到數詞同音或數詞同義的干擾,不適合作為搜尋關鍵詞。另一方面,分子的物理/化學描述單元,諸如分子量、(部分)電荷溶解度等等,幾乎可以直接從分子結構計算出來,而藥學描述單元則一般能從多元統計分析或實驗(藥物篩選生物檢定法等)結果中獲得。所有這些描述單元都和分子的表達式被儲存在一起。

化學相似性

對於化學相似性,並沒有統一的定義。不過,仍然可以將化學相似性從應用角度進行定義,比如描述為兩種分子在描述單元空間上距離的倒數。例如,如果兩種分子的分子量差距(比之其他分子對)較小,那麼就可以認為這兩種分子較為相似。多種衡量方式可以組合起來,產生多變數的距離度量。根據三角不等式的成立與否,距離度量還可以分為歐幾里得度量和非歐幾里得度量。通過進行最大共同子圖同構問題(MCS)基礎上的亞結構搜尋[6] ,來進行距離度量和化學相似性評估的方法也很常見。MCS也被用於藥物篩選,即嘗試與現有藥物具有共同亞結構的不同分子 [7]

資料庫中的化學品根據其相似性被歸入不同的群組中,對於屬性繁多的化學品,既可採用分級分類別方法,又可採用不分級的分類別方法。而這些化學品的性質則可能通過經驗或電腦計算得到。最為廣泛應用的分類別方法是Jarvis-Patrick演算法[8]

另外,在面向藥學應用的化學資料庫中,相似性通常被定義為化合物的生物效應。後者通常可以由分子的物理/化學性質,應用定量構效關係半自動地得到。

化學品登入系統

記錄化合物獨特性資訊的資料庫被稱為化學品登入系統。這類系統通常被用於化合物的索引化,專利註冊以及工業資料庫中。 物質登入系統一般對化合物在資料庫中的唯一表達有強制性要求。一般來說,這樣的唯一表達是所謂的「正則」字串,例如「正則SMILES」。有些化學品登入系統,如CAS則利用計算雜湊的方法達到相同的目的。 化學品登入系統與一般化學資料庫的關鍵區別在於,前者能夠準確地區分一種物質究竟是已知,未知抑或部分已知。譬如說,一般的化學資料庫中可能記錄了一個分子,但其立體化學資訊則付諸闕如,而在化學品登入系統中,登入者將會被要求提供關於分子構象的準確資訊——構象已知或未知,是否是混合物乃至外消旋體,等。每一種不同的情形在化學品登入系統中都作為一個單獨的記錄。 化學品登入系統也對分子資訊進行一些前處理,避免不重要的差別(如不同的離子)產生影響。 這類系統的一個典型例子是化學文摘註冊系統[1]。參見CAS編號

參見

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.