Loading AI tools
De Wikipédia, l'encyclopédie libre
La bioinformatique structurale est la branche de la bio-informatique liée à l'analyse et à la prédiction de la structure tridimensionnelle des macromolécules biologiques telles que les protéines, l'ARN et l'ADN. Elle traite des généralisations sur les structures tridimensionnelles des macromolécules, telles que les comparaisons des repliements globaux et des motifs locaux, les principes du repliement moléculaire, l'évolution, les interactions de liaison et les relations structure/fonction, en travaillant à la fois à partir de structures résolues expérimentalement et de modèles informatiques. Le terme structural a la même signification qu'en biologie structurale, et la bio-informatique structurale peut être considérée comme faisant partie de la biologie structurale computationnelle. L'objectif principal de la bio-informatique structurale est la création de nouvelles méthodes d'analyse et de manipulation de données macromoléculaires biologiques afin de résoudre des problèmes de biologie et de générer de nouvelles connaissances[1].
La structure d'une protéine est directement liée à sa fonction. La présence de certains groupes chimiques à des endroits spécifiques permet aux protéines d'agir comme des enzymes, catalysant plusieurs réactions chimiques[2]. En général, les structures protéiques sont classées en quatre niveaux : primaire (séquences), secondaire (conformation locale de la chaîne polypeptidique), tertiaire (structure tridimensionnelle du pli protéique) et quaternaire (association de plusieurs structures polypeptidiques). La bio-informatique structurale traite principalement des interactions entre les structures en tenant compte de leurs coordonnées spatiales. Ainsi, la structure primaire est mieux analysée dans les branches traditionnelles de la bio-informatique. Cependant, la séquence implique des restrictions qui permettent la formation de conformations locales conservées de la chaîne polypeptidique, telles que l'hélice alpha, les feuillets bêta et les boucles (structure secondaire[3]). De plus, les interactions faibles (telles que les liaisons hydrogène) stabilisent le repliement des protéines. Les interactions peuvent être intra-chaîne, c'est-à-dire lorsqu'elles se produisent entre des parties du même monomère protéique (structure tertiaire), ou inter-chaîne, c'est-à-dire lorsqu'elles se produisent entre différentes structures (structure quaternaire).
La visualisation de la structure des protéines est un enjeu important pour la bio-informatique structurale[4]. Il permet aux utilisateurs d'observer des représentations statiques ou dynamiques des molécules, permettant également la détection d'interactions qui peuvent être utilisées pour faire des inférences sur les mécanismes moléculaires. Les types de visualisation les plus courants sont :
La structure classique des duplex d'ADN a été initialement décrite par Watson et Crick qui se sont appuyés sur les travaux de Rosalind Franklin. La molécule d'ADN est composée de trois substances : un groupe phosphate, un pentose et une base azotée (adénine, thymine, cytosine ou guanine). La structure en double hélice de l'ADN est stabilisée par des liaisons hydrogènes formées entre les paires de bases : l'adénine avec la thymine (AT) et la cytosine avec la guanine (CG). De nombreuses études de bio-informatique structurelle se sont concentrées sur la compréhension des interactions entre l'ADN et les petites molécules, ce qui a été la cible de plusieurs études de conception de médicaments.
Les interactions sont des contacts établis entre des parties de molécules à différents niveaux. Ils sont responsables de la stabilisation des structures protéiques et exercent une gamme variée d'activités. En biochimie, les interactions sont caractérisées par la proximité de groupes d'atomes ou de régions de molécules qui présentent un effet les uns sur les autres, tels que les forces électrostatiques, la liaison hydrogène et l'effet hydrophobe. Les protéines peuvent effectuer plusieurs types d'interactions, telles que les interactions protéine-protéine (PPI), les interactions protéine-peptide[5], les interactions protéine-ligand (PLI)[6] et l'interaction protéine-ADN.
Le calcul des contacts est une tâche importante en bio-informatique structurale, étant important pour la prédiction correcte de la structure et du repliement des protéines, de la stabilité thermodynamique, des interactions protéine-protéine et protéine-ligand, des analyses d'amarrage et de dynamique moléculaire, etc[8].
Traditionnellement, les méthodes de calcul ont utilisé la distance seuil entre les atomes (également appelée cutoff) pour détecter d'éventuelles interactions[9]. Cette détection est effectuée en fonction de la distance euclidienne et des angles entre atomes de types déterminés. Cependant, la plupart des méthodes basées sur la distance euclidienne simple ne peuvent pas détecter les contacts occlus. Par conséquent, les méthodes sans seuil, telles que la triangulation de Delaunay, ont pris de l'importance ces dernières années. De plus, la combinaison d'un ensemble de critères, par exemple, les propriétés physico-chimiques, la distance, la géométrie et les angles, a été utilisée pour améliorer la détermination du contact[8].
Nature | Critères de distance maximal |
---|---|
Liaison hydrogène | 3,9 Å |
Interaction hydrophobe | 5 Å |
Interaction ionique | 6 Å |
Empilage aromatique | 6 Å |
La banque de données sur les protéines (PDB) est une base de données de structure 3D pour les grandes molécules biologiques, telles que les protéines, l'ADN et l'ARN. PDB est géré par une organisation internationale appelée Worldwide Protein Data Bank (wwPDB), qui est composée de plusieurs organisations locales, telles que PDBe, PDBj, RCSB et BMRB. Ils sont responsables de la mise à disposition gratuite de copies des données PDB sur Internet. Le nombre structures disponibles au PDB continue d'augmenter chaque année, étant généralement obtenues par cristallographie aux rayons X, spectroscopie RMN ou cryomicroscopie électronique.
Le format PDB (.pdb) est l'ancien format de fichier texte utilisé pour stocker les informations des structures tridimensionnelles des macromolécules utilisées par la banque de données sur les protéines.
En raison de restrictions dans la conception de la structure du format, le format PDB ne permet pas de grandes structures contenant plus de 62 chaînes ou 99999 enregistrements d'atomes[10].
Le PDBx/mmCIF (fichier d'informations cristallographiques macromoléculaires) est un format de fichier texte standard pour représenter les informations cristallographiques[11]. Depuis 2014, le format PDB a été remplacé comme distribution d'archives PDB standard par le format de fichier PDBx/mmCIF (.cif). Alors que le format PDB contient un ensemble d'enregistrements identifiés par un mot-clé de six caractères maximum, le format PDBx/mmCIF utilise une structure basée sur la clé et la valeur, où la clé est un nom qui identifie une caractéristique et la valeur est l'information variable[12].
En plus de la Protein Data Bank (PDB), il existe plusieurs bases de données de structures protéiques et d'autres macromolécules. Les exemples comprennent :
L'alignement structurel est une méthode de comparaison entre des structures 3D en fonction de leur forme et de leur conformation[23]. Il pourrait être utilisé pour déduire la relation évolutive entre un ensemble de protéines, même avec une faible similitude de séquence. L'alignement structurel implique la superposition d'une structure 3D sur une seconde, la rotation et la translation des atomes dans des positions correspondantes (en général, en utilisant les atomes C α ou même les atomes lourds du squelette C, N, O et C α). Habituellement, la qualité de l'alignement est évaluée sur la base de l'écart quadratique moyen (RMSD) des positions atomiques, c'est-à-dire la distance moyenne entre les atomes après superposition :
où δ i est la distance entre l'atome i et soit un atome de référence correspondant dans l'autre structure, soit la coordonnée moyenne des N atomes équivalents. En général, le résultat RMSD est mesuré en unité Ångström (Å), ce qui équivaut à 10 −10 m. Plus la valeur RMSD est proche de zéro, plus les structures sont similaires.
Les signatures structurelles, également appelées empreintes digitales, sont des représentations de modèles de macromolécules qui peuvent être utilisées pour déduire des similitudes et des différences. Les comparaisons entre un grand nombre de protéines à l'aide de RMSD constituent toujours un défi en raison du coût de calcul élevé des alignements structurels. Des signatures structurelles basées sur des modèles de distance de graphe entre des paires d'atomes ont été utilisées pour déterminer des vecteurs d'identification de protéines et pour détecter des informations non triviales[24]. De plus, l'algèbre linéaire et l'apprentissage automatique peuvent être utilisés pour regrouper les signatures protéiques, détecter les interactions protéine-ligand, prédire ΔΔG et proposer des mutations basées sur la distance euclidienne[25].
Les structures atomiques des molécules peuvent être obtenues par plusieurs méthodes, telles que la cristallographie aux rayons X (XRC), la spectroscopie RMN et la microscopie électronique 3D ; cependant, ces processus peuvent présenter des coûts élevés et parfois certaines structures peuvent être difficilement établies, telles que les protéines membranaires. Par conséquent, il est nécessaire d'utiliser des approches informatiques pour déterminer les structures 3D des macromolécules. Les méthodes de prédiction de structure sont classées en modélisation comparative et modélisation de novo.
La modélisation comparative, également appelée modélisation par homologie, correspond à la méthodologie pour construire des structures tridimensionnelles à partir d'une séquence d'acides aminés d'une protéine cible et d'une matrice de structure connue. La littérature a décrit que les protéines liées à l'évolution ont tendance à présenter une structure tridimensionnelle conservée[26]. En outre, des séquences de protéines apparentées distantes dont l'identité est inférieure à 20 % peuvent présenter des replis différents[27].
En bioinformatique structurale, la modélisation ab initio, également connue sous le nom de modélisation ab initio, fait référence à des approches permettant d'obtenir des structures tridimensionnelles à partir de séquences sans la nécessité d'une structure 3D connue homologue. Malgré les nouveaux algorithmes et méthodes proposés ces dernières années, la prédiction de la structure des protéines de novo est toujours considérée comme l'un des problèmes restants en suspens dans la science moderne[28].
Après la modélisation de la structure, une étape supplémentaire de validation de la structure est nécessaire car de nombreux algorithmes et outils de modélisation comparative et « de novo » utilisent des heuristiques pour essayer d'assembler la structure 3D, ce qui peut générer de nombreuses erreurs. Certaines stratégies de validation consistent à calculer des scores énergétiques et à les comparer à des structures déterminées expérimentalement. Par exemple, le score DOPE est un score énergétique utilisé par l' outil MODELLER pour déterminer le meilleur modèle[29].
Une autre stratégie de validation consiste à calculer les angles dièdres du squelette φ et ψ de tous les résidus et à construire un diagramme de Ramachandran. La chaîne latérale des acides aminés et la nature des interactions dans le squelette restreignent ces deux angles, et ainsi, la visualisation des conformations autorisées pourrait être effectuée sur la base du graphique de Ramachandran. Une grande quantité d'acides aminés alloués dans des positions non permissives du graphique est une indication d'une modélisation de mauvaise qualité.
Une liste des outils logiciels couramment utilisés pour la prédiction de la structure des protéines, y compris la modélisation comparative, le filetage des protéines, la prédiction de la structure des protéines de novo et la prédiction de la structure secondaire est disponible dans la liste des logiciels de prédiction de la structure des protéines.
L'amarrage moléculaire (également appelé docking) est une méthode utilisée pour prédire les coordonnées d'orientation d'une molécule (ligand) lorsqu'elle est liée à une autre (récepteur ou cible). La liaison peut se faire principalement par le biais d'interactions non covalentes, tandis que la liaison liée de manière covalente peut également être étudiée. L'amarrage moléculaire vise à prédire les poses possibles (modes de liaison) du ligand lorsqu'il interagit avec des régions spécifiques du récepteur. Les outils d'amarrage utilisent des champs de force pour estimer un score permettant de classer les meilleures poses qui ont favorisé de meilleures interactions entre les deux molécules.
En général, les protocoles d'amarrage sont utilisés pour prédire les interactions entre les petites molécules et les protéines. Cependant, l'amarrage peut également être utilisé pour détecter des associations et des modes de liaison entre des protéines, des peptides, des molécules d'ADN ou d'ARN, des glucides et d'autres macromolécules.
Le criblage virtuel (VS) est une approche informatique utilisée pour le criblage rapide de grandes bibliothèques de composés pour la découverte de médicaments. Habituellement, le criblage virtuel utilise des algorithmes d'amarrage pour classer les petites molécules ayant la plus haute affinité pour un récepteur cible.
Ces derniers temps, plusieurs outils ont été utilisés pour évaluer l'utilisation du criblage virtuel dans le processus de découverte de nouveaux médicaments. Cependant, des problèmes tels que des informations manquantes, une compréhension inexacte des propriétés moléculaires de type médicament, des fonctions de notation faibles ou des stratégies d'amarrage insuffisantes entravent le processus d'amarrage. Par conséquent, la littérature a décrit qu'elle n'est toujours pas considérée comme une technologie mature[30],[31].
La dynamique moléculaire est une méthode de calcul pour simuler les interactions entre les molécules et leurs atomes pendant une période de temps donnée[33]. Cette méthode permet l'observation du comportement des molécules et de leurs interactions, en considérant le système dans son ensemble. Pour calculer le comportement des systèmes et, ainsi, déterminer les trajectoires, la dynamique moléculaire peut utiliser l'équation du mouvement de Newton, en plus d'utiliser des méthodes de mécanique moléculaire pour estimer les forces qui se produisent entre les particules (champs de force)[34].
Les approches informatiques utilisées en bioinformatique structurale sont :
Logiciel | La description |
---|---|
I-TASSER | Prédiction d'un modèle de structure tridimensionnelle de molécules de protéines à partir de séquences d'acides aminés. |
MEO | Molecular Operating Environment (MOE) est une plate-forme étendue comprenant la modélisation structurelle des protéines, des familles de protéines et des anticorps[35]. |
SBL | La bibliothèque de bioinformatique structurale : applications pour utilisateurs finaux et algorithmes avancés |
BALLVoir | Modélisation moléculaire et visualisation[36] |
PIQÛRE | Visualisation et analyse |
PyMOL | Visionneuse et modélisation[37] |
VMD | Visionneuse, dynamique moléculaire[38] |
Roi | Une visionneuse de kinemage Java open source |
FOULÉE | Détermination de la structure secondaire à partir des coordonnées[39] |
MolProbité | Serveur web de validation de structure |
PROCHECK | Un web service de validation de structure |
CheShift | Une application en ligne de validation de la structure des protéines |
3D-mol.js | Un visualiseur moléculaire pour les applications Web développées en Javascript |
PROPKA | Prédiction rapide des valeurs de pKa des protéines sur la base de relations empiriques structure/fonction |
CARA | Affectation de résonance assistée par ordinateur |
Serveur d'accueil | Un serveur web d'amarrage moléculaire |
StarBiochem | Un visualiseur de protéines Java, propose une recherche directe dans la banque de données de protéines |
BÊCHE | L'environnement de développement d'applications de protéomique structurale |
PocketSuite | Un portail Web pour divers serveurs Web pour l'analyse au niveau du site de liaison. PocketSuite est divisé en : PocketDepth (Prédiction du site de liaison) ; PocketMatch (comparaison des sites de liaison) ; PocketAlign (alignement des sites de liaison) et PocketAnnotate (annotation des sites de liaison). |
MSL | Une bibliothèque de logiciels de modélisation moléculaire C++ open-source pour la mise en œuvre de méthodes d'analyse structurelle, de prédiction et de conception |
PSSpred | Prédiction de la structure secondaire des protéines |
Protée | Outil Web pour suggérer des paires de mutations |
SDM | Un serveur pour prédire les effets des mutations sur la stabilité des protéines |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.