トップQs
タイムライン
チャット
視点

CATHデータベース

ウィキペディアから

Remove ads

CATHタンパク質構造分類データベース: CATH Protein Structure Classification database)は、タンパク質ドメインの進化的関係に関する情報を提供する、無料の公開オンラインリソースである。これは1990年代半ばにChristine Orengo英語版教授と同僚のJanet Thornton英語版David Jones英語版らによって開発され[2]、現在もユニヴァーシティ・カレッジ・ロンドンのOrengoグループによって開発が続けられている。CATHは、SCOPリソースと大くの幅広い特徴を共有しているが、詳細な分類が大きく異なる領域も多くある[3][4][5][6]

概要 内容, 説明 ...
Remove ads

階層的な構成

実験的に決定されたタンパク質の立体構造を蛋白質構造データバンク(PDB)から取得され、必要に応じて連続するポリペプチド鎖に分割する。これらの鎖の中にあるタンパク質のドメインは、自動化された方法と手作業によるキュレーションを組み合わせて識別される。

次に、それらのドメインはCATHの構造階層の中で分類される。クラス(C)レベルでは、二次構造の内容に応じてドメインが割り当てられる。すなわち、すべてがαヘリックス、すべてがβシート、αとβの混合、または二次構造がほとんどないなどである。アーキテクチャ(A)レベルでは、三次元空間における二次構造の配置に関する情報を用いて割り当てを行う。トポロジー/フォールド(T)レベルでは、二次構造の要素がどのように接続され、配置されているかの情報が用いられる。相同スーパーファミリー(H)レベルでは、ドメインが進化によって関連していること[2]、すなわちそれらが相同であることを示す十分な証拠がある場合に割り当てられる。

さらに見る #, レベル ...

構造が実験的に決定されていないドメインの追加の配列データは、CATHの姉妹リソースであるGene3Dから提供されており、相同スーパーファミリーの作成に使用されている。UniProtKBおよびEnsemblのタンパク質配列をCATH HMMと照合して、ドメイン配列の境界を予測し、相同スーパーファミリーの割り当てを行う。

Remove ads

リリース

CATHチームは、12ヶ月ごとにCATH分類の公式リリースを提供することを目標としている。このリリースプロセスは、内部検証、追加のアノテーション、および分析の提供を可能にするため重要である。ただし、PDBに新しい構造が登録されてから、CATHの最新の公式リリースまでに時間がかかることもある。

この問題に対処するために CATH-Bは、最新のドメインアノテーション(ドメイン境界やスーパーファミリーの分類など)ついて、限られた量の情報のみ提供する。

CATH-Gene3Dの最新リリース(v4.3)は2020年12月にリリースされ、以下で構成されている。

  • 500,238件の構造タンパク質ドメインのエントリ[1]
  • 151,000,000件の非構造タンパク質ドメインのエントリ[1]
  • 5,481件の相同スーパーファミリーのエントリ[1]
  • 212,872件の機能ファミリーのエントリ[1]

オープンソースソフトウェア

CATHはオープンソースソフトウェアプロジェクトであり、開発者は多くのオープンソースツールを開発および維持している[7]。CATHはGitHub上にTodoリストを保持しており、外部のユーザーがCATHタンパク質構造分類に関連する問題を作成し、追跡できるようにしている。

脚注

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads