Top Qs
Chronologie
Chat
Contexte
Transcriptomique
De Wikipédia, l'encyclopédie libre
Remove ads
La transcriptomique est l'étude de l'ensemble des ARN produits lors du processus de transcription d'un génome, c'est à dire lors de la production passage de la molécule d'ADN à celle d'ARN. Les ARN peuvent être codant ou non codant. Un transcriptome capture un instantané dans le temps de l'ensemble des transcrits présents dans une cellule. La transcriptomique permet de savoir quels processus cellulaires sont potentiellement actifs et lesquels sont dormants. En particulier, la transcriptomique permet de savoir quels gènes sont exprimés et lesquels ne le sont pas.
Les premières tentatives d'étude des transcriptomes entiers ont commencé au début des années 1990. Les avancées technologiques qui ont suivi depuis la fin des années 1990 ont transformé le domaine à plusieurs reprises et ont fait de la transcriptomique une discipline très répandue dans les sciences biologiques. Il existe deux techniques contemporaines clés dans ce domaine : les puces à ADN, qui quantifient un ensemble de séquences prédéterminées, et le séquençage de l'ARN, qui utilise le séquençage à haut débit pour enregistrer tous les transcrits. Au fur et à mesure que la technologie s'est améliorée, le volume de données produites par chaque expérience sur le transcriptome a augmenté. En conséquence, les méthodes d'analyse des données ont été régulièrement adaptées pour analyser de manière plus précise et plus efficace des volumes de données de plus en plus importants. Les bases de données transcriptomiques se sont donc enrichies et sont devenues de plus en plus utiles au fur et à mesure que les chercheurs continuaient à collecter et à partager des transcriptomes. Il serait presque impossible d'interpréter les informations contenues dans un transcriptome sans la connaissance des expériences précédentes.
La mesure de l'expression des gènes d'un organisme dans différents tissus ou conditions, ou à différents moments, fournit des informations sur la manière dont les gènes sont régulés et révèle des détails de la biologie d'un organisme. Elle peut également être utilisée pour déduire les fonctions de gènes qui n'avaient pas été annotés (en) auparavant. L'analyse du transcriptome a permis d'étudier la façon dont l'expression des gènes change dans différents organismes et a joué un rôle déterminant dans la compréhension des maladies humaines. L'analyse de l'expression des gènes dans son intégralité permet de détecter des tendances générales coordonnées qui ne peuvent être discernées par des tests plus ciblés.
Remove ads
Historique
Résumé
Contexte

La transcriptomique a été marquée par une évolution technologique rapide, avec l'émergence de nouvelles techniques tous les dix ans environ, repoussant sans cesse les limites du possible et rendant obsolètes les technologies précédentes. La première tentative de saisie d'un transcriptome humain partiel a été publiée en 1991 et faisait état de 609 séquences d'ARNm provenant du cerveau humain[2]. En 2008, deux transcriptomes humains, composés de millions de séquences dérivées de transcriptions couvrant 16 000 gènes, ont été publiés[3],[4] et en 2015, des transcriptomes avaient été publiés pour des centaines d'individus[5],[6]. Des transcriptomes de différents états pathologiques, de tissus ou même de cellules uniques sont désormais régulièrement générés[6],[7],[8]. Cette explosion de la transcriptomique est due au développement rapide de nouvelles technologies plus sensibles et plus économiques[9],[10],[11],[12].
Avant la transcriptomique
Des études de transcrits (en) individuels étaient réalisées plusieurs décennies avant l'apparition des approches transcriptomiques. À la fin des années 1970, des banques (en) de transcrits d'ARNm de ver à soie ont été collectées et converties en ADN complémentaire (ADNc) pour être stockées par transcriptase inverse[13]. Dans les années 1980, le séquençage à bas débit par la méthode de Sanger (en) a permis de séquencer des transcrits aléatoires, produisant ainsi des marqueurs de séquence exprimée (MSE)[2],[14],[15],[16]. La méthode de Sanger a été prédominante jusqu'à l'avènement des méthodes à haut débit telles que le séquençage par synthèse (en) (Solexa/Illumina). Les MSE ont pris de l'importance dans les années 1990, car elles constituaient une méthode efficace pour déterminer le contenu génétique d'un organisme sans séquencer l'intégralité du génome[16]. Les quantités de transcriptions individuelles ont été quantifiées à l'aide de méthodes de transfert d'acide ribonucléique, et plus tard, de réaction en chaîne par polymérase quantitative à transcriptase inverse (RT-qPCR)[17],[18], mais ces méthodes sont laborieuses et ne peuvent capturer qu'une infime sous-section d'un transcriptome[12]. Par conséquent, la manière dont un transcriptome dans son ensemble est exprimé et régulé est restée inconnue jusqu'à ce que des techniques à plus haut débit soient développées.
Premières tentatives
Le mot « transcriptome » a été utilisé pour la première fois dans les années 1990[19]. En 1995, l'une des premières méthodes transcriptomiques basées sur le séquençage a été mise au point, l'analyse en série de l'expression des gènes (SAGE), qui repose sur le séquençage Sanger de fragments de transcription aléatoires concaténés[20],[21]. Les transcrits sont quantifiés en faisant correspondre les fragments à des gènes connus. Une variante de SAGE utilisant des techniques de séquençage à haut débit, appelée analyse numérique de l'expression génique, a également été brièvement utilisée[22]. Toutefois, ces méthodes ont été largement dépassées par le séquençage à haut débit de transcrits entiers, qui a fourni des informations supplémentaires sur la structure des transcrits, telles que les variantes d'épissage[9].
Développement de techniques contemporaines
Les techniques contemporaines dominantes, les puces à ADN et le séquençage de l'ARN, ont été développées au milieu des années 1990 et 2000[9],[34]. Les puces à ADN, qui mesurent l'abondance d'un ensemble défini de transcrits par hybridation (en) à un réseau de sondes (en) complémentaires, ont été publiées pour la première fois en 1995[35],[36]. La technologie des puces à ADN a permis de tester simultanément des milliers de transcrits, à un coût par gène et en main-d'œuvre considérablement réduits[37]. Les puces à ADN à points et les puces à haute densité Affymetrix ont été les méthodes de choix pour le profilage transcriptionnel jusqu'à la fin des années 2000[12],[34]. Durant cette période, une gamme de puces à ADN a été produite pour couvrir des gènes connus dans des organismes modèles ou d'importance économique. Les progrès dans la conception et la fabrication des puces ont amélioré la spécificité des sondes et ont permis de tester davantage de gènes sur une seule puce. Les progrès dans la détection par fluorescence ont augmenté la sensibilité et la précision des mesures pour les transcrits de faible abondance[36],[38].
Le séquençage de l'ARN est réalisé par transcription inverse de l'ARN in vitro et séquençage des ADNc obtenus[10]. L'abondance des transcrits est déduite du nombre de comptes de chaque transcrit. Cette technique a donc été fortement influencée par le développement des technologies de séquençage à haut débit[9],[11]. Le séquençage de signatures massivement parallèles (en) (SSMP) en est un exemple précoce, basé sur la génération de séquences de 16 à 20 paire de bases via une série complexe d'hybridations[39], et a été utilisé en 2004 pour valider l'expression de dix mille gènes chez Arabidopsis thaliana[40]. Les premiers travaux sur le séquençage de l'ARN ont été publiés en 2006, avec cent mille transcrits séquencés grâce à la technologie 454[41]. Cette couverture était suffisante pour quantifier l'abondance relative des transcrits. Le séquençage de l'ARN a commencé à gagner en popularité après 2008, lorsque les nouvelles technologies Solexa/Illumina ont permis d'enregistrer un milliard de séquences de transcrits[4],[10],[42],[43]. Ce rendement permet désormais la quantification et la comparaison des transcriptomes humains[4].
Remove ads
Collecte de données
Résumé
Contexte
La génération de données sur les transcrits d'ARN peut être réalisée selon deux principes principaux : le séquençage de transcrits individuels (EST ou ARN-Seq) ou l'hybridation de transcrits à un réseau ordonné de sondes nucléotidiques (microarrays)[44].
Isolement de l'ARN
Toutes les méthodes transcriptomiques nécessitent l'isolement préalable de l'ARN de l'organisme expérimental avant l'enregistrement des transcrits. Bien que les systèmes biologiques soient extrêmement diversifiés, les techniques d'extraction de l'ARN (en) sont globalement similaires et impliquent la rupture mécanique des cellules (en) ou des tissus[36], la rupture de la ribonucléase par des sels chaotropiques[45], la rupture des macromolécules et des complexes nucléotidiques, la séparation de l'ARN des biomolécules indésirables, dont l'ADN, et la concentration de l'ARN par précipitation en solution ou élution à partir d'une matrice solide[45],[46]. L'ARN isolé peut également être traité par la désoxyribonucléase pour digérer toute trace d'ADN[47]. Il est nécessaire d'enrichir l'ARN messager, car les extraits d'ARN total sont généralement composés à 98 % d'acide ribonucléique ribosomique[48]. L'enrichissement des transcrits peut être réalisé par des méthodes d'affinité poly-A ou par déplétion de l'ARN ribosomique à l'aide de sondes spécifiques de séquence[36]. L'ARN dégradé peut affecter les résultats en aval ; Par exemple, l'enrichissement en ARNm à partir d'échantillons dégradés entraînera l'épuisement des extrémités 5' de l'ARNm et un signal irrégulier sur toute la longueur du transcrit. La congélation rapide des tissus avant l'isolement de l'ARN est courante, et une attention particulière est portée à la réduction de l'exposition aux enzymes RNase une fois l'isolement terminé[45].
Marqueur de séquence exprimée
Un marqueur de séquence exprimée (MSE) est une courte séquence nucléotidique générée à partir d'un seul transcrit d'ARN. L'ARN est d'abord copié sous forme d'ADN complémentaire (ADNc) par une enzyme transcriptase inverse avant que l'ADNc résultant ne soit séquencé[16]. Les MSE pouvant être collectées sans connaissance préalable de l'organisme dont elles proviennent, elles peuvent être fabriquées à partir de mélanges d'organismes ou d'échantillons environnementaux[16]. Bien que des méthodes à haut débit soient désormais utilisées, les bibliothèques de MSE fournissaient couramment des informations de séquence pour les premières conceptions de puces à ADN ; par exemple, une puce à ADN d'orge a été conçue à partir de 350 000 MSE précédemment séquencés[49].
Analyse en série de l'expression des gènes

L'analyse sériée de l'expression génique (SAGE) est une évolution de la méthodologie MSE visant à accroître le débit des marqueurs générés et à quantifier l'abondance des transcrits[21]. L'ADNc est généré à partir de l'ARN, puis digéré en fragments « marqueurs » de 11 paire de bases à l'aide d'enzymes de restriction qui coupent l'ADN au niveau d'une séquence spécifique et de 11 paire de bases à partir de cette séquence. Ces marqueurs d'ADNc sont ensuite assemblés tête-bêche en longs brins (> 500 paire de bases) et séquencés à l'aide de méthodes à faible débit, mais à lecture longue, comme le séquençage de Sanger. Les séquences sont ensuite redécoupées en leurs marqueurs d'origine de 11 paire de base à l'aide d'un logiciel, selon un processus appelé déconvolution[21]. Si un génome de référence (en) de haute qualité est disponible, ces marqueurs peuvent être appariés au gène correspondant dans le génome. En l'absence de génome de référence, les marqueurs peuvent être utilisés directement comme marqueurs de diagnostics s'ils présentent une expression différentielle (en) dans une maladie[21].
La méthode d'analyse de l'expression génique par cap-analyse (en) (CAGE) est une variante de la méthode SAGE qui séquence les marqueurs uniquement à partir de l'extrémité 5' d'un transcrit d'ARNm[51]. Par conséquent, le site d'initiation de la transcription des gènes peut être identifié lorsque les marqueurs sont alignés sur un génome de référence. L'identification des sites d'initiation des gènes est utile pour l'analyse des promoteurs et le clonage (en) d'ADNc complets.
Les méthodes SAGE et CAGE produisent des informations sur davantage de gènes que le séquençage de MSE uniques, mais la préparation des échantillons et l'analyse des données sont généralement plus laborieuses[51].
Puce à ADN

Principes et avancées
Les puces à ADN sont généralement constituées d'une grille de courts oligonucléotides, appelés « sondes », généralement disposés sur une lame de verre. L'abondance des transcrits est déterminée par l'hybridation de transcrits marqués par fluorescence à ces sondes. L'intensité de fluorescence à chaque emplacement de sonde sur la puce indique l'abondance des transcrits pour cette séquence[52]. Les groupes de sondes conçus pour mesurer le même transcrit (c'est-à-dire l'hybridation d'un transcrit spécifique à différentes positions) sont généralement appelés « ensembles de sondes »[53].
Les puces à ADN nécessitent des connaissances génomiques sur l'organisme d'intérêt, par exemple sous la forme d'une séquence génomique annotée ou d'une bibliothèque de MSE pouvant être utilisée pour générer les sondes pour la puce[53].
Méthodes
Les puces à ADN utilisées en transcriptomique se répartissent généralement en deux grandes catégories : les puces à ADN spottées à faible densité et les puces à ADN courte à haute densité. L’abondance des transcrits est déduite de l’intensité de la fluorescence des transcrits marqués par un fluorophore qui se lient à la puce[37].
Les puces à ADN spottées à faible densité contiennent généralement des gouttes de l’ordre du picolitre d’ADNc purifiés est disposés sur la surface d’une lame de verre[53]. Ces sondes sont plus longues que celles des puces à ADN haute densité et ne permettent pas d’identifier les épissages alternatifs. Les puces à ADN spottées utilisent deux fluorophores différents pour marquer les échantillons test et témoin, et le rapport de fluorescence est utilisé pour calculer une mesure relative de l’abondance[53]. Les puces à ADN haute densité utilisent un seul marqueur fluorescent, et chaque échantillon est hybridé et détecté individuellement[54]. Les puces à haute densité ont été popularisées par la puce Affymetrix GeneChip, où chaque transcrit est quantifié par plusieurs sondes courtes de 25-mères qui, ensemble, analysent un gène[55].
Les puces NimbleGen étaient des puces à haute densité produites par une méthode de photochimie sans masque, ce qui permettait une fabrication flexible de puces en petites ou grandes quantités. Ces puces comportaient des centaines de milliers de sondes de 45 à 85-mères et étaient hybridées avec un échantillon marqué d'une seule couleur pour l'analyse de l'expression[53]. Certaines conceptions incorporaient jusqu'à 12 puces indépendantes par lame.
ARNseq

Principes et avancés
Le séquençage de l'ARN (ARN-Seq) combine une méthodologie de séquençage à haut débit avec des méthodes informatiques pour capturer et quantifier les transcrits présents dans un extrait d'ARN[10]. Les séquences nucléotidiques générées mesurent généralement environ 100 pb, mais peuvent varier de 30 pb à plus de 10 000 pb selon la méthode de séquençage utilisée. Le séquençage de l'ARN s'appuie sur un échantillonnage approfondi du transcriptome, composé de nombreux fragments courts, pour permettre la reconstruction informatique du transcrit d'ARN original en alignant les lectures sur un génome de référence ou entre elles (assemblage de novo)[36],[9]. Les ARN, qu'ils soient peu ou très abondants, peuvent être quantifiés lors d'une expérience de séquençage de l'ARN (plage dynamique de 5 ordres de grandeur), ce qui constitue un avantage majeur par rapport aux transcriptomes sur puces à ADN. De plus, les quantités d'ARN d'entrée sont bien plus faibles pour l'ARN-Seq (quantité de l'ordre du nanogramme) que pour les puces à ADN (quantité de l'ordre du microgramme), ce qui permet l'examen du transcriptome même à une résolution unicellulaire lorsqu'il est combiné à l'amplification d'ADNc[56],[57]. Théoriquement, il n'existe pas de limite supérieure de quantification pour le RNA-Seq, et le bruit de fond est très faible pour les lectures de 100 pb dans les régions non répétitives[10].
Le RNA-Seq peut être utilisé pour identifier les gènes d'un génome, ou identifier les gènes actifs à un instant T, et le nombre de lectures peut servir à modéliser avec précision le niveau relatif d'expression des gènes. La méthodologie du RNA-Seq a constamment progressé, principalement grâce au développement des technologies de séquençage de l'ADN pour augmenter le débit, la précision et la longueur des lectures[58]. Depuis les premières descriptions en 2006 et 2008[41], le séquençage de l'ARN a été rapidement adopté et a supplanté les puces à ADN comme technique transcriptomique dominante en 2015[36].
La quête de données transcriptomiques à l'échelle des cellules individuelles a permis des avancées dans les méthodes de préparation de banques de séquençage de l'ARN, entraînant des avancées spectaculaires en termes de sensibilité. Les transcriptomes unicellulaires sont désormais bien décrits et ont même été étendus au séquençage de l'ARN in situ, où les transcriptomes de cellules individuelles sont directement intégrés dans des tissus fixés[59].
Méthode
Le séquençage de l'ARN a été développé parallèlement au développement rapide de diverses technologies de séquençage de l'ADN à haut débit[60]. Cependant, avant le séquençage des transcrits d'ARN extraits, plusieurs étapes clés de traitement sont réalisées. Les méthodes diffèrent quant à l'utilisation de l'enrichissement, de la fragmentation, de l'amplification, du séquençage simple ou apparié des transcrits, et quant à la préservation ou non des informations sur les brins[60].
La sensibilité d'une expérience de séquençage de l'ARN peut être accrue en enrichissant les classes d'ARN d'intérêt et en épuisant les ARN connus comme abondants. Les molécules d'ARNm peuvent être séparées à l'aide de sondes oligonucléotidiques qui lient leurs queues poly-A. Alternativement, la ribodéplétion peut être utilisée pour éliminer spécifiquement les ARN ribosomiques (ARNr) abondants mais non informatifs par hybridation avec des sondes adaptées aux séquences d'ARNr spécifiques du taxon (par exemple, ARNr de mammifère, ARNr de plante). Cependant, la ribodéplétion peut également introduire un biais via une déplétion non spécifique de transcrits hors cible[61]. Les petits ARN, tels que les micro-ARN, peuvent être purifiés en fonction de leur taille par électrophorèse sur gel et extraction.
Les ARNm étant plus longs que les longueurs de lecture des méthodes classiques de séquençage à haut débit, les transcrits sont généralement fragmentés avant le séquençage[62]. La fragmentation est un aspect clé de la construction d'une bibliothèque de séquençage. La fragmentation peut être réalisée par hydrolyse chimique, nébulisation, sonication ou transcription inverse avec des nucléotides de terminaison de chaîne[62]. Alternativement, la fragmentation et le marquage de l'ADNc peuvent être réalisés simultanément à l'aide d'enzymes transposases[63].
Lors de la préparation au séquençage, les copies d'ADNc des transcrits peuvent être amplifiées par PCR afin d'enrichir les fragments contenant les séquences adaptatrices 5' et 3' attendues[64]. L'amplification est également utilisée pour le séquençage de très faibles quantités d'ARN, jusqu'à 50 pg dans les applications extrêmes[65]. Des contrôles d'ARN connus peuvent être utilisés pour le contrôle qualité afin de vérifier la préparation et le séquençage de la bibliothèque, en termes de teneur en GC, de longueur des fragments, ainsi que de biais dû à leur position dans un transcrit[66]. Les identifiants moléculaires uniques (IMU) sont de courtes séquences aléatoires utilisées pour marquer individuellement les fragments de séquence lors de la préparation de la bibliothèque, afin que chaque fragment marqué soit unique[67]. Les IMU fournissent une échelle absolue pour la quantification, la possibilité de corriger les biais d'amplification ultérieurs introduits lors de la construction de la bibliothèque et d'estimer avec précision la taille initiale de l'échantillon. Les UMI sont particulièrement adaptés à la transcriptomique du séquençage d'ARN unicellulaire, où la quantité d'ARN d'entrée est limitée et où une amplification étendue de l'échantillon est nécessaire[68],[69],[70].
Une fois les molécules de transcription préparées, elles peuvent être séquencées dans une seule direction (single-end) ou dans les deux directions (paired-end). Une séquence simple est généralement plus rapide à produire, moins coûteuse que le séquençage paired-end et suffisante pour quantifier l'expression génique. Le séquençage paired-end produit des alignements/assemblages plus robustes, ce qui est bénéfique pour l'annotation des gènes et la découverte des isoformes de transcription[10]. Les méthodes d'ARN-Seq spécifiques à un brin préservent les informations sur le brin d'une transcription séquencée[71]. Sans ces informations, les lectures peuvent être alignées sur un locus génétique, mais n'indiquent pas dans quelle direction le gène est transcrit. Le séquençage d'ARN-Seq brined est utile pour déchiffrer la transcription de gènes qui se chevauchent dans différentes directions et pour établir des prédictions génétiques plus robustes chez des organismes non modèles[71].
Légende : NCBI SRA – Archives de lecture de séquences d'informations du Centre national d'information sur la biotechnologie.
Actuellement, le séquençage de l'ARN repose sur la copie des molécules d'ARN dans des molécules d'ADNc avant le séquençage ; les plateformes ultérieures sont donc les mêmes pour les données transcriptomiques et génomiques. Par conséquent, le développement des technologies de séquençage de l'ADN a été une caractéristique déterminante du séquençage de l'ARN[73],[75],[76]. Le séquençage direct de l'ARN par nanopores représente une technique de pointe en matière de séquençage de l'ARN[77],[78]. Le séquençage de l'ARN par nanopores permet de détecter des bases modifiées qui seraient autrement masquées lors du séquençage de l'ADNc et élimine également les étapes d'amplification susceptibles d'introduire des biais[79],[11].
La sensibilité et la précision d'une expérience de séquençage de l'ARN dépendent du nombre de lectures obtenues à partir de chaque échantillon[80],[81]. Un grand nombre de lectures est nécessaire pour assurer une couverture suffisante du transcriptome, permettant la détection de transcrits peu abondants. La conception expérimentale est encore compliquée par les technologies de séquençage à portée de sortie limitée, l'efficacité variable de la création de séquences et leur qualité. À cela s'ajoute le fait que chaque espèce possède un nombre de gènes différent et nécessite donc un rendement de séquence adapté pour un transcriptome efficace. Les premières études ont déterminé empiriquement des seuils appropriés, mais à mesure que la technologie a mûri, une couverture adéquate a été prédite informatiquement par la saturation du transcriptome. De manière quelque peu contre-intuitive, le moyen le plus efficace d'améliorer la détection de l'expression différentielle dans les gènes à faible expression est d'ajouter davantage de réplicats biologiques plutôt que davantage de lectures[82]. Les critères de référence actuels recommandés par le projet ENCODE (Encyclopedia of DNA Elements) sont une couverture exomique de 70 fois pour le séquençage d'ARN standard et jusqu'à 500 fois pour la détection de transcrits et d'isoformes rares[83],[84],[85].
Remove ads
Analyse des données
Résumé
Contexte
Les méthodes transcriptomiques sont hautement parallèles et nécessitent des calculs importants pour produire des données pertinentes, tant pour les expériences de microarray que de séquençage d'ARN[86],[87],[88],[89],[90]. Les données de microarray sont enregistrées sous forme d'images haute résolution, nécessitant une détection de caractéristiques et une analyse spectrale[91]. Les fichiers d'images brutes de microarray font environ 750 Mo chacun, tandis que les intensités traitées sont d'environ 60 Mo. Plusieurs sondes courtes correspondant à un même transcrit peuvent révéler des détails sur la structure intron-exon, ce qui nécessite des modèles statistiques pour déterminer l'authenticité du signal obtenu. Les études de séquençage d'ARN produisent des milliards de courtes séquences d'ADN, qui doivent être alignées sur des génomes de référence composés de millions, voire de milliards de paires de bases. L'assemblage de novo des lectures au sein d'un ensemble de données nécessite la construction de graphes de séquences très complexes[92]. Les opérations de séquençage d'ARN sont très répétitives et bénéficient d'un calcul parallélisé. Cependant, grâce aux algorithmes modernes, le matériel informatique grand public est suffisant pour des expériences de transcriptomique simples qui ne nécessitent pas d'assemblage de novo de lectures[93]. Un transcriptome humain pourrait être capturé avec précision grâce au séquençage d'ARN avec 30 millions de séquences de 100 pb par échantillon[80],[81]. Cet exemple nécessiterait environ 1,8 gigaoctet d'espace disque par échantillon s'il était stocké au format FASTQ compressé. Les données de comptage traitées pour chaque gène seraient beaucoup plus petites, équivalentes aux intensités traitées des puces à ADN. Les données de séquence peuvent être stockées dans des référentiels publics, tels que Sequence Read Archive (SRA)[94]. Les ensembles de données de séquençage d'ARN peuvent être téléchargés via Gene Expression Omnibus (GEO)[95].
Traitement d'image

Le traitement des images de puce d'ADN doit permettre d'identifier correctement la grille régulière de spots dans une image et de quantifier indépendamment l'intensité de fluorescence pour chaque spot. Les artéfacts d'image doivent également être identifiés et éliminés de l'analyse globale. Les intensités de fluorescence indiquent directement l'abondance de chaque séquence, puisque la séquence de chaque sonde sur le réseau est déjà connue[97].
Les premières étapes de l'ARN-seq comprennent également un traitement d'image similaire ; toutefois, la conversion des images en données de séquence est généralement gérée automatiquement par le logiciel de l'instrument. La méthode de séquençage par synthèse d'Illumina produit un réseau de grappes réparties sur la surface d'une Flow Cell[98], qui est imagée jusqu'à quatre fois au cours de chaque cycle de séquençage, avec des dizaines ou des centaines de cycles au total. Les grappes de cellules de flux sont analogues aux taches des microréseaux et doivent être correctement identifiées au cours des premières étapes du processus de séquençage. Dans la méthode de pyroséquençage de Roche, l'intensité de la lumière émise détermine le nombre de nucléotides consécutifs dans une répétition homopolymère. Il existe de nombreuses variantes de ces méthodes, chacune ayant un profil d'erreur différent pour les données obtenues[99].
Analyse des données de séquençage d'ARN
Les expériences de séquençage d'ARN génèrent un volume important de lectures de séquences brutes qui doivent être traitées pour produire des informations utiles. L'analyse des données nécessite généralement une combinaison d'outils bioinformatiques qui varient selon le protocole expérimental et les objectifs. Le processus peut être décomposé en quatre étapes : contrôle qualité, alignement, quantification et expression différentielle[100]. Les programmes de séquençage d'ARN les plus courants s'exécutent depuis une interface en ligne de commande, soit dans un environnement Unix, soit dans l'environnement statistique R/Bioconductor[89].
Contrôle qualité
Les lectures de séquences ne sont pas parfaites ; la précision de chaque base de la séquence doit donc être estimée pour les analyses en aval. Les données brutes sont examinées afin de garantir : des scores de qualité élevés pour les appels de bases, une conformité du contenu en GC à la distribution attendue, une absence de surreprésentation des motifs de séquence courts (k-mers) et un taux de duplication de lecture suffisamment bas[81]. Plusieurs logiciels existent pour l'analyse de la qualité des séquences, notamment FastQC et FaQCs[101],[102]. Les anomalies peuvent être supprimées (trimming) ou marquées pour un traitement spécifique lors des processus ultérieurs.
Alignement
Afin de lier l'abondance des lectures de séquences à l'expression d'un gène particulier, les séquences de transcrits sont alignées sur un génome de référence ou alignées de novo les unes sur les autres si aucune référence n'est disponible[36]. Les principaux défis des logiciels d'alignement incluent une vitesse suffisante pour aligner des milliards de séquences courtes dans un délai raisonnable, une flexibilité pour reconnaître et gérer l'épissage des introns de l'ARNm eucaryote, et une affectation correcte des lectures qui se localisent à plusieurs endroits. Les avancées logicielles ont largement résolu ces problèmes, et l'augmentation de la longueur des lectures de séquençage réduit le risque d'alignements ambigus. L'EBI tient à jour une liste des aligneurs de séquences à haut débit actuellement disponibles[103],[36].
L'alignement des séquences primaires d'ARNm de transcrits d'eucaryotes sur un génome de référence nécessite une manipulation spécialisée des séquences d'introns, absentes de l'ARNm mature[104]. Les aligneurs de lectures courtes effectuent une série d'alignements supplémentaires spécifiquement conçus pour identifier les jonctions d'épissage, informés par les séquences canoniques des sites d'épissage et les informations connues sur les sites d'épissage des introns. L'identification des jonctions d'épissage des introns évite que les lectures soient mal alignées entre les jonctions d'épissage ou rejetées par erreur, ce qui permet d'aligner davantage de lectures sur le génome de référence et d'améliorer la précision des estimations de l'expression génique. La régulation génique pouvant se produire au niveau des isoformes d'ARNm, les alignements sensibles à l'épissage permettent également de détecter les variations d'abondance des isoformes qui seraient autrement perdues lors d'une analyse groupée[105].
L'assemblage de novo peut être utilisé pour aligner les lectures les unes sur les autres afin de construire des séquences de transcription complètes sans utiliser de génome de référence[106]. Les défis spécifiques à l'assemblage de novo incluent des exigences de calcul plus importantes par rapport à un transcriptome de référence, une validation supplémentaire des variants ou fragments de gènes, et une annotation supplémentaire des transcriptions assemblées. Les premières mesures utilisées pour décrire les assemblages transcriptomiques, comme N50, se sont révélées trompeuses[107] et des méthodes d'évaluation améliorées sont désormais disponibles[108],[109]. Les mesures basées sur l'annotation permettent de mieux évaluer l'exhaustivité des assemblages, comme le nombre de meilleurs résultats réciproques des contigs. Une fois assemblé de novo, l'assemblage peut servir de référence pour les méthodes ultérieures d'alignement de séquences et d'analyse quantitative de l'expression génétique.
Quantification

La quantification des alignements de séquences peut être effectuée au niveau du gène, de l'exon ou du transcrit[86],[82]. Les résultats typiques incluent un tableau des nombres de lectures pour chaque caractéristique fournie au logiciel ; par exemple, pour les gènes d'un fichier au format General feature format (GFF). Le nombre de lectures des gènes et des exons peut être calculé assez facilement à l'aide de HTSeq, par exemple[111]. La quantification au niveau du transcrit est plus complexe et nécessite des méthodes probabilistes pour estimer l'abondance des isoformes du transcrit à partir d'informations de lecture courtes ; par exemple, à l'aide du logiciel Cufflinks[105]. Les lectures qui s'alignent également bien sur plusieurs emplacements doivent être identifiées et soit supprimées, soit alignées sur l'un des emplacements possibles, soit alignées sur l'emplacement le plus probable[111].
Certaines méthodes de quantification permettent de se passer d'un alignement exact d'une lecture sur une séquence de référence. La méthode du logiciel Kallisto combine pseudo-alignement et quantification en une seule étape, deux fois plus rapide que les méthodes contemporaines telles que celles utilisées par le logiciel Tophat/Cufflinks, avec une charge de calcul moindre[112].
Expression différentielle
Une fois les comptages quantitatifs de chaque transcrit disponibles, l'expression différentielle des gènes est mesurée par normalisation, modélisation et analyse statistique des données[113]. La plupart des outils lisent un tableau de gènes et leurs comptages en entrée, mais certains programmes, comme cuffdiff, acceptent les alignements de lecture au format Binary Alignment Map (BAM) en entrée. Les résultats finaux de ces analyses sont des listes de gènes accompagnées de tests par paires pour l'expression différentielle entre les traitements et les estimations de probabilité de ces différences[111].
Légende : ARNm - ARN messager.
Validation
Les analyses transcriptomiques peuvent être validées à l'aide d'une technique indépendante, par exemple la PCR quantitative (qPCR), reconnaissable et statistiquement évaluable[116]. L'expression génique est mesurée par rapport à des normes définies, tant pour le gène d'intérêt que pour les gènes témoins. La mesure par qPCR est similaire à celle obtenue par RNA-Seq, qui permet de calculer la concentration d'une région cible dans un échantillon donné. La qPCR est toutefois limitée aux amplicons inférieurs à 300 pb, généralement situés vers l'extrémité 3' de la région codante, évitant ainsi la région 3'UTR[117]. Si la validation des isoformes de transcription est requise, une inspection des alignements de lecture RNA-Seq devrait indiquer où placer les amorces de qPCR pour une discrimination maximale. La mesure de plusieurs gènes témoins, en même temps que les gènes d'intérêt, produit une référence stable dans un contexte biologique[118]. La validation par qPCR des données de séquençage de l'ARN a généralement montré une forte corrélation entre les différentes méthodes de séquençage de l'ARN[119],[120],[121].
La validation fonctionnelle des gènes clés est un élément important de la planification post-transcriptomique. Les profils d'expression génique observés peuvent être fonctionnellement liés à un phénotype par une étude indépendante de Gene knockdown (en)/sauvetage dans l'organisme d'intérêt[122].
Remove ads
Applications
Résumé
Contexte
Diagnostic et profilage des maladies
Les stratégies transcriptomiques ont connu de nombreuses applications dans divers domaines de la recherche biomédicale, notamment le diagnostic et le profilage des maladies[11],[123]. Les approches de séquençage de l'ARN ont permis l'identification à grande échelle de sites d'initiation de la transcription, la découverte d'utilisations alternatives de promoteurs et de nouvelles altérations de l'épissage. Ces éléments régulateurs sont importants dans les maladies humaines et, par conséquent, la définition de ces variants est cruciale pour l'interprétation des études d'association aux maladies[124]. Le séquençage de l'ARN permet également d'identifier les polymorphismes nucléotidiques simples (SNP) associés aux maladies, l'expression spécifique des allèles et les fusions de gènes, contribuant ainsi à la compréhension des variants causaux des maladies[125].
Les rétrotransposons sont des éléments transposables qui prolifèrent au sein des génomes eucaryotes par un processus impliquant la transcription inverse. Le séquençage de l'ARN peut fournir des informations sur la transcription des rétrotransposons endogènes susceptibles d'influencer la transcription des gènes voisins par divers mécanismes épigénétiques responsables de la maladie[126]. De même, le potentiel d’utilisation de l’ARN-Seq pour comprendre les maladies liées au système immunitaire se développe rapidement en raison de la capacité à disséquer les populations de cellules immunitaires et à séquencer les répertoires de récepteur des lymphocytes T et des récepteur des lymphocytes B des patients[127],[128].
Transcriptomes humains et pathogènes
Le séquençage de l'ARN des pathogènes humains est devenu une méthode reconnue pour quantifier les changements d'expression génétique, identifier de nouveaux facteurs de virulence, prédire la résistance aux antibiotiques et mettre en évidence les interactions immunitaires hôte-pathogène[129],[130]. L'un des principaux objectifs de cette technologie est de développer des mesures optimisées de contrôle des infections et des traitements individualisés ciblés[128].
L'analyse transcriptomique s'est principalement concentrée sur l'hôte ou le pathogène. Le double séquençage de l'ARN a été appliqué pour profiler simultanément l'expression de l'ARN chez le pathogène et chez l'hôte tout au long du processus d'infection. Cette technique permet d'étudier la réponse dynamique et les réseaux de régulation génétique interspécifiques chez les deux partenaires d'interaction, du contact initial à l'invasion et à la persistance finale du pathogène ou à son élimination par le système immunitaire de l'hôte[131],[132].
Réponses à l'environnement
La transcriptomique permet d'identifier les gènes et les voies qui répondent aux stress environnementaux biotiques et abiotiques et les neutralisent[133],[122]. La nature non ciblée de la transcriptomique permet l'identification de nouveaux réseaux transcriptionnels dans des systèmes complexes. Par exemple, l'analyse comparative de diverses lignées de pois chiche à différents stades de développement a permis d'identifier des profils transcriptionnels distincts associés aux stress de sécheresse et de salinité, notamment le rôle des isoformes de transcription d'AP2-EREBP[133]. L'étude de l'expression génique lors de la formation du biofilm par le champignon pathogène Candida albicans a révélé un ensemble de gènes corégulés essentiels à l'établissement et au maintien du biofilm[134].
Le profilage transcriptomique fournit également des informations cruciales sur les mécanismes de résistance aux médicaments. L'analyse de plus de 1 000 isolats de Plasmodium falciparum, un parasite virulent responsable du paludisme chez l'homme[135], a révélé que la régulation positive de la réponse protéique dépliée et le ralentissement de la progression aux premiers stades du cycle de développement intraérythrocytaire asexué étaient associés à la résistance à l'artémisinine chez les isolats d'Asie du Sud-Est[136].
L'utilisation de la transcriptomique est également importante pour étudier les réponses en milieu marin[137]. En écologie marine, le stress et l'adaptation figurent parmi les sujets de recherche les plus courants, notamment en lien avec les stress anthropiques, tels que le changement climatique et à la pollution[137]. La plupart des études dans ce domaine ont été réalisées sur des animaux, bien que les invertébrés aient été sous-représentés[137]. Un problème persiste : le manque d'études de génétique fonctionnelle, ce qui entrave l'annotation des gènes, en particulier pour les espèces non modèles, et peut conduire à des conclusions vagues sur les effets des réponses étudiées[137].
Annotation des fonctions des gènes
Toutes les techniques transcriptomiques se sont révélées particulièrement utiles pour identifier les fonctions des gènes et les responsables de phénotypes particuliers. La transcriptomique des écotypes d'Arabidopsis hyperaccumulateurs de métaux a permis de corréler les gènes impliqués dans l'absorption, la tolérance et l'homéostasie des métaux avec le phénotype[138]. L'intégration de jeux de données ARN-Seq de différents tissus a été utilisée pour améliorer l'annotation des fonctions des gènes chez des organismes d'importance commerciale (par exemple, le concombre[139]) ou des espèces menacées (par exemple, le koala[140]).
L'assemblage des lectures ARN-Seq ne dépend pas d'un génome de référence[122] et est donc idéal pour les études d'expression génique d'organismes non modèles dont les ressources génomiques sont inexistantes ou peu développées. Par exemple, une base de données de SNP utilisée dans les programmes de sélection du sapin Douglas a été créée par analyse transcriptomique de novo en l'absence de génome séquencé[141]. De même, les gènes qui fonctionnent dans le développement des tissus cardiaques, musculaires et nerveux chez les homards ont été identifiés en comparant les transcriptomes des différents types de tissus sans utiliser de séquence génomique[142]. L'ARN-Seq peut également être utilisé pour identifier des régions codantes de protéines jusqu'alors inconnues dans des génomes séquencés existants.
ARN non codant
La transcriptomique est le plus souvent appliquée au contenu en ARNm de la cellule. Cependant, les mêmes techniques s'appliquent également aux ARN non codants (ARNnc) qui ne sont pas traduits en protéines, mais qui ont des fonctions directes (par exemple, des rôles dans la traduction des protéines, la réplication de l'ADN, l'épissage de l'ARN et la régulation transcriptionnelle)[143],[144],[145],[146]. Nombre de ces ARNnc influencent des pathologies, notamment le cancer, les maladies cardiovasculaires et neurologiques[147].
Remove ads
Bases de données transcriptomiques
Résumé
Contexte
Les études transcriptomiques génèrent de grandes quantités de données dont les applications potentielles vont bien au-delà des objectifs initiaux d'une expérience. Ainsi, les données brutes ou traitées peuvent être déposées dans des bases de données publiques afin de garantir leur utilité pour la communauté scientifique au sens large. Par exemple, en 2018, le Gene Expression Omnibus contenait des millions d'expériences[148].
Légende : NCBI – National Center for Biotechnology Information; EBI – European Bioinformatics Institute; DDBJ – DNA Data Bank of Japan; ENA – European Nucleotide Archive; MIAME – Minimum Information About a Microarray Experiment; MINSEQE – Minimum Information about a high-throughput nucleotide SEQuencing Experiment.
Remove ads
Articles connexes
Liens externes
Notes et références
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads