Génomique
Le principe
Le séquençage d’un génome est une méthode qui consiste à déterminer la séquence du génome d’un organisme donné.
Le premier génome bactérien entier a été séquencé en 1995 (cfr. page Haemophilus influenzae). Cette même année une autre bactérie a été séquencé, il s’agissait de Mycoplasma genitalium, choisie en raison de son génome très petit.
Le séquençage du génome bactérien a également permis de séquencer des organismes multicellulaires. C. elegans en 1998 et puis le génome humain en 2001.
Au cours des 25 dernières années le temps nécessaire pour le séquençage à diminué, ainsi que les couts. Ces améliorations, avec le développement de nouvelles techniques encore plus performantes, ont permis une augmentation exponentielle de l’utilisation de la génomique en microbiologie.
Le génome bactérien est généralement constitué d’un chromosome circulaire haploïde (ADN simple brin). Certaines souches ont également des éléments génétiques extra-chromosomiques comme les plasmides. Ces éléments extra-chromosomiques peuvent être à l’origine de transfert horizontal de matériel génétique.
La majorité des plasmides sont comme les chromosomes à double brin. Ils sont capables de s’auto-répliquer et peuvent parfois s’intégrer aux chromosomes, en formant des îlots génomiques. Ils codent généralement pour des gènes non essentiels à la bactérie mais qui peuvent lui conférer un avantage sélectif. Par exemple il peuvent coder pour des facteurs de virulence ou des gènes de résistance aux antibiotiques.
Technique
Le séquençage d’un génome comporte 6 étapes principales
- Le choix d’une souche ou d’un échantillon
- L’extraction de l’ADN et le séquençage proprement dit
- L’assemblage du génome
- La fermeture des trous résiduels après l’assemblage (GAP closure)
- L’annotation
- L’analyse et l’interprétation des données
Les génomes peuvent être effectués à partir d’une culture pure, d’une colonie isolée ou directement sur un échantillon clinique. Sur ce dernier par contre la génomique est possible seulement si le germe est présent en quantité suffisante et idéalement dans un échantillon stérile.
Après l’extraction de l’ADN, le séquençage se fait par des nouvelles technologies dites de séquençage à haut débit.
L’assemblage consiste à joindre bout à bout les séquences obtenues, dites reads, en des plus grandes séquences qui s’appellent contigs, par chevauchement des reads obtenu selon certains critères (p. ex. plus de 45 paires de bases qui se superposent dont l’identité est supérieure à 90%). Le plus souvent les assemblages sont effectués par mapping, c’est à dire par comparaison avec un génome de référence d’une autre souche de la même espèce. Quand il n’y a pas de référence disponible il faut faire un assemblage ex novo, qui est beaucoup plus difficile et laborieux.
Les contigs peuvent ensuite être ordonnés entre eux et des liens virtuels peuvent parfois être établis. On parle alors de scaffold. Après l’assemblage, l’annotation a lieu en deux étapes.
Une première annotation de région pour connaître les zones codantes pour des protéines (Open Reading Frame), qui sont des cadres de lecture dans lesquels il n’y a pas de codons stop. Elle inclut également l’identification de la présence d’ARN.
La deuxième étape est l’annotation de fonction qui se fait par comparaison à des gènes homologues dans différentes bases de données internationales ou par génomique fonctionnelle (test de fonction au laboratoire). L’annotation permet par exemple d’obtenir une cartographie des voies métaboliques disponibles chez une bactérie ou de détecter d’éventuels facteurs de virulence.
En 2009 le concept de dirty genome a été proposé. Il consiste en analyser un génome assemblé mais dans lequel il restent encore des trous (GAP). Il permet de donner plus rapidement des informations, qui est important dans les applications médical.
Les couts et la difficulté sont aussi considérablement diminués, en effet on estime que plus du 80% du temps et des efforts sont utilisés pour combler les trous.
Le dirty genome permet d’apporter plus de 95% de l’information, car la plupart du temps les trous sont liés à des zones répétées et les facteurs de virulence ou les gènes impliqués dans la résistance aux antibiotiques ne se trouveront pas dans ces zones.
Indications et applications
Les premiers génomes séquencés visaient à mieux comprendre la biologie d’organismes modèles. La génomique est également une technique précieuse pour mieux comprendre l’évolution des organismes et établir des arbres phylogénétiques. Aujourd’hui la génomique comparée est utilisée aussi pour le typage des souches lors des analyses épidémiologiques.
Le séquençage a aussi des importantes applications médicales, notamment la recherche de protéines immunogéniques, potentielles cibles vaccinales ou utilisées pour des tests sérologiques.
Les génomes ont également permis de découvrir des nouvelles cibles thérapeutiques (p. ex. pour l’agent de la tuberculose).
Outre la détection de protéines antigéniques utiles à la sérologie, les génomes permettent aussi d’affiner les cibles en biologie moléculaire pour détecter les pathogènes par PCR.
Dans certains cas cliniques particuliers, la génomique peut aussi permettre de détecter d’éventuels facteurs de virulence ou de résistance antibiothique dans un court délai. On peut aussi établir des cartes de ces facteurs, appelés virulome et resistome.
Avantages
Comparée à la PCR, la génomique présente quelques avantage.
- Elle offre une vue globale sur les facteurs de virulence et de résistance d’un microbe, et ne répond pas uniquement à la question si oui ou non une telle souche possède un tel facteur. La PCR en effet permet uniquement de répondre à une question fermée. On ne peut trouver que ce que l’on cherche.
- La génomique reste efficace et même très utile en cas de variations, tandis que la PCR risque d’être faussée par une mutation dans le site d’amorçage.
- Les informations obtenues avec la génomique sont très complètes et facilement échangeables avec des autres laboratoires au niveau global. Il s’agit de données définitives.
Inconvenients
Même si les couts ont diminué considérablement au cours des dernières années, il reste une technique relativement chère.
Elle nécessite aussi une expertise technique et surtout bioinformatique pour gérer les données.
La génomique fournit des information sur le matériel génétique d’un microbe, donc sur ses potentielles capacités et pas sur son phénotype, c’est à dire ses caractéristiques effectives.
Perspectives
Dans l’avenir la récolte de données de plus en plus complets permettra d’avoir encore plus d’informations sur les traits cliniques et la réponse au traitement des pathogènes. Comme pour la recherche génétique sur l’homme, il s’agit d’identifier les polymorphismes pour établir des profils génétiques.
On sait déjà que le génome des microbes se divise en core genome, c’est à dire les gènes nécessaires à la survie de la bactérie, et en gènes accessoires, qui peuvent être transmis horizontalement et qui codent typiquement pour des facteurs de virulence. Avec le séquençage systématique on pourrait arriver à déterminer le pangénome de l’espèce et établir l’entier arsenal des possibles outils d’un pathogène.
Anecdote
Le paradigme du dirty genome fut proposé lors de l’élimination d’une souche du genre Parachlamydia, isolée lors d’une épidémie de pneumonie survenue dans une imprimerie. Cette souche, séquencée par deux techniques à haut débit, a permis d’obtenir 94% des séquences totales du génome.
Par la suite, pour deux épidémies majeures, la même approche fut utilisée : d’une part, lors de l’épidémie de choléra survenue à Haïti en 2010, et celle survenue en Allemagne en 2011, causant des syndromes hémolytiques urémiques liés à E. coli.
Les données obtenues par dirty genome lors de l’épidémie de choléra ont permis de démontrer que l’origine de cette épidémie était liée à une souche d’origine népalaise, apportée à Haïti par les volontaires venus sur place pour aider des suites des tremblements de terre. De même, la génomique effectuée lors de l’épidémie allemande a permis d’obtenir en 3 jours une séquence. Cette séquence du génome fut très utile, d’une part, pour le développement d’une PCR diagnostique plus spécifique permettant de tracer la souche épidémique, et d’autre part, pour mieux connaître les facteurs de virulence présents chez cette souche.