Introduction

De nombreuses maladies ont une base génétique. Certaines sont la conséquence d’une absence ou d’un dysfonctionnement d’une protéine donnée dû à des mutations du gène codant. C’est le cas des maladies à transmission mendélienne, comme la maladie de Huntington, la thalassémie et environ 1 000 autres maladies rares héréditaires.1 De nombreuses maladies ont une base génétique, même si elles ne sont pas exclusivement dues à la mutation d’un seul gène, et un nombre croissant de variantes génétiques et de polymorphismes sont identifiés comme des facteurs de risque pour des maladies complexes2. Le cancer est une maladie génétique causée par la mutation d’un ou de plusieurs gènes qui soit augmentent le risque de cancer (comme les mutations de la lignée germinale), soit favorisent le cancer (oncogènes), soit altèrent les mécanismes cellulaires qui contrôlent la prolifération cellulaire (gènes suppresseurs), comme c’est le cas avec les mutations somatiques.3

L’identification de la base génétique de ces maladies a été un projet exigeant en travail et en défis, jusqu’à il y a quelques années. Ces projets commençaient souvent par l’identification d’une région du génome susceptible d’être impliquée dans la transmission de la maladie par des études d’association génétique.1 L’analyse de grandes familles comptant plusieurs membres affectés est généralement nécessaire pour définir une région du génome fortement liée à la transmission de la maladie. En général, cette région contient plusieurs gènes qui doivent être séquencés pour identifier une mutation génétique présente chez tous les individus atteints et non chez leurs parents sains, dans le cas d’une transmission dominante. Dans le cas d’une transmission récessive, la mutation doit être présente dans les deux allèles des membres affectés et dans un, ou aucun, des allèles des parents non affectés.

Le diagnostic des maladies génétiques était, et dans la plupart des cas est encore, tout aussi laborieux. Dans le meilleur des cas, la maladie peut trouver son origine dans une mutation d’un seul gène. Le diagnostic nécessite alors de déterminer la séquence nucléotidique de ce seul gène. En général, le gène est amplifié sous forme de plusieurs fragments par des réactions en chaîne par polymérase et la séquence nucléotidique de chacun est déterminée. Souvent, la maladie peut être causée par des mutations dans plusieurs gènes, et tous ces gènes doivent être amplifiés et séquencés afin de trouver l’origine génétique de la maladie chez les patients atteints. Par exemple, dans la dyskératose congénitale, des mutations peuvent être trouvées dans n’importe lequel des gènes dkc, tert, terc, NOP10, NH2 ou TINF2, et le nombre de gènes affectés peut être encore plus important puisqu’il existe une fraction de patients chez qui la mutation causale n’a pas été identifiée.4,5 La séquence nucléotidique de tous ces gènes doit être déterminée pour le diagnostic moléculaire de chaque patient. On retrouve plusieurs gènes mutés dans différents types de cancers.3 Le diagnostic moléculaire nécessite de déterminer la séquence nucléotidique de plusieurs de ces gènes. Actuellement, il s’agit d’un processus laborieux et coûteux qui ne peut être utilisé pour une large population de patients. En pratique, seuls quelques gènes qui sont mutés chez une proportion importante de patients affectés par certains types de cancer sont séquencés pour le diagnostic et le traitement.

Ce n’est que depuis quelques années que des techniques ont été développées pour la détection simultanée de multiples variants de séquence dans un échantillon donné. Beaucoup d’entre elles sont basées sur la technologie des microréseaux d’acide désoxyribonucléique (ADN). Dans les matrices de génotypage, des oligonucléotides contenant les mutations activement identifiées liées à une maladie donnée sont déposés sur une lame. L’échantillon d’ADN d’un patient est ajouté sur la lame et les oligonucléotides d’hybridation sont identifiés. Des millions de mutations connues peuvent être testées en une seule hybridation de microréseau.6 Les variations du nombre de copies peuvent également être analysées à l’aide de microréseaux d’ADN conçus pour détecter la présence de régions d’ADN dupliquées ou supprimées dans l’ADN du patient.7 Ces techniques sont fréquemment utilisées dans la recherche médicale et pour le diagnostic clinique8.

Cependant, une étape majeure dans la médecine moléculaire a été le développement récent de technologies de séquençage massif qui permettent de déterminer la séquence nucléotidique de l’ADN d’un patient dans un délai court et à un prix abordable.9,10 Ces méthodologies sont utilisées depuis 2005 et sont basées sur la détermination simultanée de la séquence nucléotidique de millions de fragments d’ADN. Elles ont été baptisées séquençage de deuxième génération, séquençage de nouvelle génération, séquençage profond ou séquençage massivement parallèle. Des milliers de millions de séquences nucléotidiques sont déterminées en 2 semaines maximum à l’aide de ces machines. Pour illustrer la capacité de ces nouveaux systèmes de séquençage, notons que le séquençage du premier génome humain, publié en 200111, a nécessité le travail coordonné de 23 laboratoires, qui a duré 13 ans, pour un coût total d’environ 3 milliards de dollars US. Avec les nouvelles méthodologies, le séquençage d’un génome humain prend un laboratoire et environ 2 semaines, avec un coût approximatif de 4 000 $ US.

La disponibilité des méthodologies modernes de séquençage produit la croissance exponentielle de nos connaissances sur le génome humain, la variabilité entre les individus et l’identification des variantes génétiques dans les maladies. Par exemple, ces méthodologies constituent le fondement d’un projet en cours, le 1000 Genomes12, visant à déterminer la séquence nucléotidique complète d’environ 1 000 personnes d’origines géographiques et ethniques différentes afin de déterminer la variation moyenne de la séquence entre les individus et d’identifier les polymorphismes les plus fréquents.

Les technologies de séquençage massif évoluent actuellement à un rythme rapide. Des machines plus petites et plus rapides sont développées, et de nouvelles méthodes de séquençage sont introduites. Un objectif important, par exemple, est de séquencer une seule molécule d’ADN à partir d’une cellule individuelle.13,14 En dehors des défis techniques, les progrès diminuent régulièrement le prix du séquençage de l’ADN, de sorte que l’objectif de séquencer un génome humain individuel pour 1 000 dollars US semble être à portée de main dans quelques années. Actuellement, le séquençage d’un génome humain entier et l’analyse de toutes les données de séquence générées sont complexes, coûteux et longs, et de nombreuses études sont menées sur une partie plus petite du génome. En particulier, on accorde actuellement beaucoup d’attention au séquençage de la région du génome codant pour les protéines, que l’on appelle l’exome. Le séquençage de l’exome est beaucoup plus abordable que le séquençage du génome entier, et les possibilités, les avantages et les limites de cette technique seront discutés dans cette revue.

Qu’est-ce qu’un exome ?

La quasi-totalité des gènes codant pour les protéines humaines ont une structure discontinue. La région codant pour les protéines est fragmentée en plusieurs morceaux, appelés exons. Les exons sont reliés par des fragments d’ADN non codant pour les protéines, ou introns, comme le montre schématiquement la figure 1. Les gènes sont transcrits à partir de la région promotrice sous le contrôle de plusieurs régions régulatrices, qui sont présentes à différents endroits par rapport au gène, en amont, en aval ou même à l’intérieur du gène. La transcription crée un transcrit primaire qui contient des exons et des introns. Des processus ultérieurs d’épissage de l’acide ribonucléique (ARN) suppriment les introns et réunissent les exons pour générer l’ARN messager (ARNm) mature qui ne contient qu’une seule région continue codant pour une protéine. Des études récentes montrent que les transcrits primaires de la plupart des gènes peuvent être épissés de plusieurs façons, donnant lieu à divers ARNm matures contenant des combinaisons spécifiques d’exons, connues sous le nom de variantes d’épissage alternatives (figure 1). Ces ARNm codent pour des isoformes de protéines qui ont certaines régions communes, mais qui diffèrent également d’autres, en fonction des exons incorporés.15

L’analyse du génome humain a montré que les gènes codant pour les protéines représentent une faible proportion de l’ADN, seulement environ 3 %.16 Les exons représentent une fraction encore plus faible, soit 1 % du génome.16 Un résumé de ces données est présenté dans le tableau 1. Le génome humain est composé de 3,3 ×109 paires de bases (pb) et contient 20 078 gènes codant pour des protéines.17 Chaque gène est divisé en un nombre moyen de huit exons, chacun d’une longueur d’environ 170 pb. L’ensemble des exons contient environ 3 ×107 pb. Cependant, le séquençage de tous les exons fournit les mêmes informations sur la séquence d’acides aminés des protéines codées que le séquençage du génome entier, à l’exception des mutations qui modifient l’épissage de l’ARNm, comme nous le verrons dans la section Séquençage de l’exome et analyse des données. Ce système de séquençage de tous les exons a été baptisé séquençage de l’exome et est devenu une méthode valable pour détecter les variations de la séquence d’acides aminés de toutes les protéines humaines18. La différence de taille très marquée rend le séquençage de l’exome beaucoup moins cher que le séquençage du génome, ce qui facilite les analyses computationnelles et fonctionnelles des données de séquence générées.

Figure 1 Représentation schématique de la structure et de l’expression des gènes.
Notes : Les gènes codant pour les protéines sont composés d’exons qui contiennent des informations codant pour les protéines (boîtes), séparés par des introns non codants (lignes). Les cases grises indiquent les régions codant pour les protéines des exons et les cases blanches représentent les régions non traduites 5′ et 3′ de l’ARNm. Les gènes sont transcrits à partir des régions promotrices, immédiatement en amont de l’exon 1. Le site de début de transcription est indiqué par une flèche. L’expression des gènes est contrôlée par un certain nombre de régions TR qui peuvent être situées en amont ou en aval du gène, à des distances variables, ou à l’intérieur du gène (le plus souvent dans les introns). La stabilité et la traduction de l’ARNm peuvent être régulées par la liaison de microARN à des sites spécifiques dans la région 3′ non traduite (indiquée par des astérisques). Les gènes sont transcrits en ARN primaires contenant des introns et des exons. Des processus d’épissage ultérieurs éliminent les introns pour générer des ARNm matures. Les processus d’épissage alternatif peuvent donner naissance à différents ARNm, selon les exons qu’ils contiennent (ARNm1, ARNm2), qui codent pour différentes isoformes de protéines.
Abréviations : TR, région régulatrice de la transcription ; ARN, acide ribonucléique ; ARNm, acide ribonucléique messager.

Tableau 1 Caractéristiques générales du génome et de l’exome humains

Techniques de capture de l’exome

La première étape, et la plus critique, du séquençage de l’exome est l’isolement ou la capture des exons. Les méthodes utilisées sont basées sur l’hybridation de l’ADN. L’analyse du génome humain a rendu possible l’identification de tous les exons des gènes et facilite la conception de sondes oligonucléotidiques spécifiques à chacun d’eux. Les sondes sont utilisées pour purifier les exons de l’ADN.19 La première étape consiste à fragmenter l’ADN en morceaux ne dépassant pas 500 pb. L’ADN est ensuite hybridé avec les sondes oligonucléotidiques spécifiques des exons et les fragments hybridés sont purifiés. L’hybridation peut être réalisée en phase liquide. Dans ce cas, les oligonucléotides sont marqués de façon à ce que les complexes ADN-oligonucléotides puissent être séparés de la masse d’ADN non hybridé. Dans un exemple courant, les oligonucléotides sont liés de manière covalente à la biotine afin que les hybrides ADN-oligonucléotide puissent être isolés à l’aide de la molécule liant la biotine, la streptavidine, couplée à des billes magnétiques. Les fragments d’ADN qui ne contiennent pas d’exons ne se lient pas aux billes de streptavidine et peuvent être éliminés efficacement après plusieurs étapes de lavage. Les fragments contenant des exons, liés aux billes, peuvent être récupérés après dissociation des hybrides ADN-oligonucléotides dans des conditions de faible force ionique.

Les exons peuvent également être isolés par hybridation sur un support solide où les oligonucléotides spécifiques des exons ont été repérés, comme dans le cas des puces à ADN. Dans ce cas, l’ADN fragmenté est étalé sur les oligonucléotides pour permettre l’hybridation. Plus tard, l’ADN non hybridé est éliminé par lavage et l’ADN enrichi en exon est élué dans des conditions faiblement ioniques.

Plusieurs fournisseurs commerciaux proposent des kits pour l’isolement des exomes à l’aide de protocoles d’hybridation en phase liquide, notamment Agilent Technologies (Santa Clara, CA, USA), Roche NimbelGen, Inc. (Madison, WI, USA), Illumina, Inc. (San Diego, CA, USA), et Life Technologies (Carlsbad, CA, USA). Ces kits permettent d’isoler plus de 90 % des exons présents dans le génome, avec une spécificité de plus de 90 %, pour un prix approximatif de 150 dollars par exome. Plusieurs auteurs ont comparé ces plateformes de capture d’exome,20-22 et les données obtenues par Clark et al22 comparant la SureSelect Human All Exon 50 Mb (Agilent Technologies), la SeqCap EZ Exome Library v2.0 de Roche NimbleGen, Inc. et les kits TruSeq Exome Enrichment d’Illumina, Inc. sont résumées dans le tableau 2. Certains de ces kits couvrent les régions non traduites de l’ARNm, en plus des régions codant pour les protéines, ce qui permet d’analyser les régions régulatrices telles que les sites de liaison des microARN (miRNA). L’inclusion des régions 5′ non traduites permet également l’analyse des régions promotrices proximales.22 En outre, la plupart des kits couvrent jusqu’à 80 % des régions codantes des miARN.21 Récemment, des kits améliorés ont été développés par ces fournisseurs et d’autres, de sorte que les données présentées dans le tableau 2 doivent être considérées comme une indication seulement. Il est important de noter que la purification des exons est une étape critique. Il est difficile de récupérer 100 % des exons, et les exons sont souvent perdus ou sous-représentés dans l’exome isolé. Par exemple, si l’exome d’un patient est analysé et que 10 % des exons sont perdus pendant la purification, la probabilité de manquer une mutation pertinente sera d’environ 10 % en raison de cette erreur technique. Par conséquent, l’utilisation de procédures de capture d’exons très efficaces est d’une importance critique dans le séquençage d’exome.

Tableau 2 Comparaison de trois grandes plateformes de capture d’exome
Notes : aComparaison des bases de données Ensemble81 et RefSeq82, respectivement ; bPourcentage des régions sélectionnées séquencées par chaque plateforme au moins dix fois après les analyses de 80 méga lectures de la séquence d’ADN. Agilent Technologies (Santa Clara, CA, USA) ; Roche NimbelGen, Inc. (Madison, WI, USA) ; Illumina, Inc. (San Diego, CA, USA).
Abréviations : ARNm, acide ribonucléique messager ; miARN, acide micro ribonucléique ; ADN, acide désoxyribonucléique.

Séquençage de l’exome et analyse des données

Les fragments contenant des exons sont séquencés à l’aide de l’un quelconque des systèmes ou technologies d’équipement de séquençage massif actuellement disponibles. Comme mentionné dans l’introduction, ces plateformes déterminent la séquence nucléotidique de millions de fragments d’ADN simultanément. La longueur déterminée de la séquence de chaque fragment dans le séquençage de l’exome n’est pas longue, généralement entre 35 pb et 100 pb. Cependant, comme l’ADN a été initialement fragmenté de façon aléatoire, chaque nucléotide individuel sera présent dans de nombreux fragments qui se chevauchent. Par conséquent, si l’on obtient un nombre suffisamment élevé de séquences, même courtes, chaque base sera séquencée indépendamment dans plusieurs fragments d’ADN. Le nombre de fois que chaque base est séquencée est appelé couverture ou profondeur de séquençage. La couverture est directement liée à la qualité et à la confiance de la séquence de nucléotides générée. En général, une couverture de 20×-30× est considérée comme nécessaire pour obtenir des résultats fiables dans le séquençage de l’exome.59 Cette profondeur de séquençage signifie qu’une éventuelle variation de séquence aurait été séquencée indépendamment dans 20-30 fragments d’ADN différents.

L’analyse des données est la dernière étape des projets de séquençage de l’exome (figure 2). Comme mentionné ci-dessus, des données provenant de millions de séquences sont générées, et leurs analyses nécessitent des programmes informatiques spécifiques et complexes ainsi qu’une expertise.19,23 Une étape préliminaire est une analyse de la qualité de la séquence générée. La précision de la lecture de la séquence à différentes longueurs de séquence, la longueur moyenne des lectures, ainsi que d’autres paramètres, sont testés. Si la qualité est suffisamment bonne, chaque séquence est comparée à une séquence de référence, qui est généralement la dernière version disponible de la séquence du génome humain. En général, plus de 80 % des séquences générées peuvent être alignées avec le génome de référence.22 Cette étape permet un faible degré de variation des nucléotides par rapport au génome de référence. L’étape suivante de l’analyse consiste à identifier les variations de séquence entre la séquence de référence et la séquence de l’exome obtenue dans notre étude. Les analyses ultérieures de ces variantes pourraient fournir les informations souhaitées sur le problème médical étudié.

Figure 2 Analyse des données de séquençage de l’exome.
Notes : Les étapes nécessaires à l’isolement de l’exome, au séquençage et à l’analyse des données sont représentées schématiquement. Ce processus conduit à l’identification de variantes de gènes impliqués dans l’origine des maladies (gènes pilotes) ou autrement liés à la susceptibilité à la maladie, l’évolution ou la réponse pharmaceutique. Ces données fournissent des informations précieuses pour le diagnostic et le pronostic, pour le conseil génétique et pour la conception de traitements personnalisés.
Abréviation : ADN, acide désoxyribonucléique.

Le séquençage de l’exome permet de détecter plusieurs types de variations génétiques. L’une des différences les plus fréquemment trouvées est le changement d’un nucléotide en un autre, par exemple, A pour G (codon ATA à ATG). Ces variations sont appelées variantes nucléotidiques simples (SNV), bien qu’elles soient considérées comme des polymorphismes nucléotidiques simples (SNP) lorsque leur fréquence dans la population est supérieure à 1 %-5 % et qu’elles n’ont pas d’effet marqué sur le risque d’une quelconque maladie. La plupart des SNV sont silencieux, ou également appelés synonymes, car les deux variantes de séquence codent pour le même acide aminé (par exemple, une variation de GCA en GCC, puisque les deux sont des codons d’alanine). La plupart de ces polymorphismes ne représentent aucune différence pour la protéine codée, ne sont pas soumis à une sélection évolutive et représentent les variations les plus fréquemment trouvées dans l’exome humain. L’exception est constituée par certaines mutations silencieuses qui affectent les signaux de régulation de l’épissage, voire les sites de régulation de la transcription, modifiant l’épissage ou l’expression de l’ARNm même si elles ne changent pas les acides aminés codés. Dans d’autres cas, la variation nucléotidique a une conséquence dans la protéine codée et ce sont des variantes non silencieuses ou non synonymes. Ces changements peuvent entraîner des variations de l’acide aminé codé (par exemple, GAT à GAG change l’acide aspartique en acide glutamique), et sont appelés mutations faux-sens. Des altérations plus radicales sont produites lorsque la variation nucléotidique crée un codon d’arrêt de traduction (par exemple, TGC en TGA change un codon cystéine en un codon d’arrêt), ce qui est appelé une mutation non-sens. Il existe également un type de SNV qui peut être détecté par le séquençage de l’exome même s’il n’affecte pas les codons protéiques. Les exons étant sélectionnés après fragmentation aléatoire de l’ADN, ils peuvent également contenir des régions d’ADN contiguës, y compris des séquences d’introns voisines et même des promoteurs de gènes si des régions non traduites ont été capturées.24 Les régions d’introns contiennent les signaux de régulation nécessaires à l’épissage de l’ARNm. Les SNV dans ces régions peuvent modifier l’épissage de diverses manières.15 Par exemple, l’intron affecté peut être conservé dans l’ARNm mature, ou l’exon contigu peut être épissé (saut d’exon). Ces altérations modifient la séquence nucléotidique de l’ARNm mature et, par conséquent, la protéine codée en aval du SNV.25 Le séquençage de l’exome peut également détecter des variations de séquence dues à de petites insertions ou délétions (indels).22 Ces variations peuvent entraîner un décalage de cadre, sauf lorsqu’elles affectent trois ou un multiple de trois nucléotides. Dans ce cas, de petites délétions ou insertions d’acides aminés seraient produites.

Identification des mutations causales

La pertinence fonctionnelle des variants de séquence détectés doit être déterminée lors de l’étape suivante d’analyse des données. Même si tous les humains sont presque identiques d’un point de vue génétique, le nombre de différences de séquences nucléotidiques entre les individus est considérable.26 Cette hétérogénéité complique l’interprétation des données obtenues dans les projets de séquençage individuels. Quelques données générales sur les variations de séquences individuelles sont présentées dans le tableau 3. Si l’on considère le génome entier, le nombre de différences de séquences entre les individus a été estimé à 4 × 106, d’après les données obtenues dans le cadre du projet 1000 génomes et de projets plus modestes de séquençage du génome entier.27 Les exomes présentent un nombre plus faible, mais néanmoins considérable, de variations de séquences, de l’ordre de 20 000 à 25 000 entre deux individus non apparentés.27,28 La plupart de ces variations génétiques sont silencieuses, comme nous l’avons vu précédemment. Le nombre de différences de séquence non silencieuses entre individus a été estimé à 10 000. La plupart de ces variantes existent dans la population générale et sont transmises de génération en génération. On estime que moins d’un SNV non silencieux apparaît de novo chez chaque individu.29

Les données obtenues dans le cadre des projets de séquençage de l’exome sont souvent filtrées afin d’identifier tous les SNP qui sont présents chez d’autres individus et qui ne sont donc pas liés à la maladie étudiée.2,19,23 Ce processus peut être effectué par comparaison avec des bases de données publiques où sont compilés les SNP trouvés dans les projets de séquençage. Une mise en garde à prendre en compte est que toutes les grandes bases de données contiennent un certain nombre de mutations avérées causant des maladies relativement fréquentes. Il reste environ 400 à 700 SNV nouveaux, et peut-être pertinents, après cette étape de filtrage (tableau 3).28 Le défi suivant consiste à déterminer quels SNV, parmi ceux qui ne sont pas présents dans la population mondiale, sont à l’origine de la maladie étudiée. De nombreuses différences observées ne seront pas associées à une quelconque incidence de la maladie, et elles sont connues sous le nom de changements passagers.23 En revanche, un ou quelques changements peuvent avoir un rôle causal et ils sont appelés changements moteurs. L’approche utilisée pour identifier ces changements dépend des circonstances particulières de l’étude. Dans le cas des maladies dont le mode d’hérédité est mendélien, il est généralement nécessaire d’analyser un certain nombre d’individus affectés et non affectés pour trouver les variations génétiques qui ségrègent parfaitement avec la maladie. Cette comparaison est plus instructive dans les grandes familles dont les pedigrees sont bien caractérisés. En l’absence de familles affectées suffisamment nombreuses, la comparaison d’un certain nombre de patients non apparentés et de témoins permet également d’identifier les gènes moteurs. Des critères supplémentaires sont utilisés pour sélectionner les éventuels SNV liés à la maladie, notamment des algorithmes in silico, qui prédisent l’importance possible de l’acide aminé muté sur la base de la conservation évolutive et de l’impact prévu sur la structure et la fonction de la protéine. La fonction prédite de la protéine mutée et son modèle d’expression spécifique au tissu sont également des critères utilisés pour sélectionner les mutations causales putatives.

Tableau 3 Résumé de la variation de la séquence entre les individus

Certains exemples de ces types d’études seront fournis dans une section ultérieure. Cependant, au fur et à mesure que des études sont menées, de plus en plus de variations génétiques sont identifiées comme étant à l’origine de maladies héréditaires, ce qui rend probable que certains des gènes mutés chez le patient auraient déjà été décrits. Ces gènes mutés peuvent être trouvés dans la littérature et dans des bases de données spécialisées telles que la base de données Online Mendelian Inheritance in Man (http://www.omim.org). La pertinence éventuelle des mutations trouvées dans divers gènes peut également être recherchée dans la page Genome Ensemble (http://www.ensembl.org/) si elles ont été décrites précédemment.

Le cancer est probablement le groupe le plus répandu de maladies ayant une base génétique. De nombreuses études ont été menées pour déterminer les gènes moteurs de divers types de cancer.30 Le groupe émergent de gènes moteurs du cancer peut être consulté dans des bases de données telles que le Catalogue of Somatic Mutations In Cancer (COSMIC ; http://cancer.sanger.ac.uk) ou The Cancer Genome Atlas (http://cancergenome.nih.gov/). Plusieurs exemples plus détaillés seront présentés dans la section Exemples d’utilisation clinique du séquençage de l’exome.

Comparaison du séquençage de l’exome avec d’autres approches de séquençage massif

Séquençage du génome

Comme mentionné dans l’introduction, le séquençage du génome humain entier devient de plus en plus abordable. Par rapport au séquençage de l’exome, le séquençage du génome entier est une alternative beaucoup plus complexe. Le nombre de réactions de séquençage à effectuer est beaucoup plus élevé, tout comme le nombre de données de séquences nucléotidiques générées. L’analyse computationnelle est considérablement accrue. En outre, on trouve beaucoup plus de variantes génétiques, comme le montre le tableau 3, ce qui rend l’identification des gènes pilotes plus difficile. Cependant, le séquençage du génome fournit une vue complète des altérations génétiques présentes chez le patient, y compris les grandes réorganisations du génome. Cependant, le séquençage à lecture courte d’un génome à une profondeur modérée manquera des variations structurelles, en particulier dans les régions de faible complexité. Ces informations sont résumées dans le tableau 4, qui compare le séquençage de l’exome à d’autres approches de séquençage.

Comme mentionné précédemment, les gènes codant pour les protéines ne représentent que 3 % du génome.16 Jusqu’à récemment, le reste du génome était considéré comme de l' » ADN en vrac  » sans grande valeur informative. Cependant, des études récentes ont complètement changé ce point de vue. Un grand projet à l’échelle du génome étudie la fonction de toutes les régions du génome, le projet ENCODE (Encyclopedia of DNA Elements).31 Les résultats actuellement disponibles montrent que plus de 70% du génome est transcrit. Un grand nombre des transcrits générés ne codent pas pour des protéines, mais ils semblent avoir un rôle régulateur dans l’expression des gènes. Parmi eux, on trouve les miARN déjà connus, qui régulent la stabilité et la traduction des ARNm (figure 1), mais aussi plus de 20 000 longs ARN non codants qui régulent la transcription. En outre, de nombreuses régions de l’ADN qui régulent l’expression des gènes ont été identifiées, y compris de nombreuses régions promotrices et régulatrices de la transcription inconnues jusqu’alors (figure 1). Ces informations présentent un intérêt clinique car les mutations dans les régions régulatrices peuvent affecter l’expression de gènes spécifiques et avoir des résultats pathologiques. En fait, une grande partie des études d’association à l’échelle du génome ont mis en relation des régions de l’ADN, où aucune mutation codant pour une protéine n’a été trouvée, avec des conditions pathologiques.32 Les données générées dans le cadre du projet ENCODE ont permis de réviser certains cas, qui ont révélé que des mutations dans les régions régulatrices de l’expression des gènes sont responsables de la maladie.31,32 De plus, dans un exemple récent, Weedon et al33 ont signalé que des mutations dans une région régulatrice de la transcription du gène PTF1A provoquent une agénésie isolée du pancréas. Les mutations dans les régions régulatrices ne peuvent pas être détectées par le séquençage de l’exome car elles n’affectent pas la protéine codée, mais plutôt son expression. Par conséquent, le séquençage du génome entier fournit plus d’informations que le séquençage de l’exome au prix d’une complexité accrue et d’un coût économique.

Tableau 4 Comparaison des techniques de séquençage massif
Abréviations : ARN, acide ribonucléique ; ADN, acide désoxyribonucléique.

Séquençage d’ARN

Les techniques de séquençage d’ARN consistent en la conversion de populations d’ARN en ADN complémentaire (ADNc) par transcription inverse et en leur séquençage ultérieur.34,35 Dans le cas du séquençage des ARNm, la population complète des ARNm exprimés dans une lignée cellulaire ou un échantillon de tissu (connu sous le nom de transcriptome) est convertie en ADNc et séquencée. Le processus de séquençage de l’ARNm fournit des informations sur la séquence nucléotidique des gènes qui sont transcrits dans l’échantillon analysé et, par conséquent, sur la séquence d’acides aminés des protéines correspondantes. En outre, le nombre de séquences générées pour chaque ARNm peut être estimé et est proportionnel à son abondance. Par conséquent, les niveaux d’expression des gènes peuvent être déterminés et comparés à ceux d’autres échantillons, y compris d’éventuels échantillons de contrôle (tableau 4). Un autre avantage spécifique du séquençage des ARNm est qu’il permet l’étude des événements d’épissage alternatif.36,37 Comme mentionné précédemment, les transcriptions primaires sont souvent traitées de plusieurs façons pour donner naissance à des ARNm qui contiennent différents exons (Figure 1). Ces ARNm peuvent être identifiés par le séquençage des ARNm et non par le séquençage de l’exome ou du génome, qui détermine le séquençage de l’ADN en cours de transcription et non celui du transcrit mature. Autrement, le séquençage de l’ARNm et de l’exome fournit des informations similaires sur la région du génome codant pour les protéines. La différence est que le séquençage de l’exome inclut tous les gènes et que le séquençage de l’ARNm se limite aux gènes exprimés dans l’échantillon analysé. Par exemple, une étude récente de séquençage de l’ARNm de lignées cellulaires lymphoblastoïdes provenant de 462 individus a permis de déterminer la séquence codante d’environ 13 000 gènes sur les 20 078 gènes humains.38 Dans cet exemple, environ 7 000 gènes n’ont pas été étudiés car ils n’étaient pas exprimés dans les lignées cellulaires lymphoblastoïdes. Cependant, dans les cas où le type de cellule ou de tissu affecté par une maladie donnée est bien connu, le séquençage de l’ARNm serait équivalent au séquençage de l’exome pour l’étude des mutations pilotes. Une autre caractéristique du séquençage de l’ARNm est qu’il permet de détecter les variations de séquence produites par l’édition de l’ARN.39 Un certain nombre d’ARNm sont traités de telle sorte que certains nucléotides sont modifiés, et les changements d’adénosine en inosine sont les plus fréquemment produits. Ces altérations sont détectées par le séquençage de l’ARNm, mais il est impossible de déterminer si elles sont produites par l’édition de l’ARN ou si elles sont la conséquence de variations génomiques, à moins de comparer les séquences de l’ARNm et du génome.

Déterminer les niveaux d’expression des ARNm peut être très pratique dans certains cas, car certaines maladies peuvent être causées par l’expression dérégulée d’un ou plusieurs gènes. Les modifications des niveaux d’expression peuvent être très informatives sur l’origine génétique de la maladie. Par exemple, des altérations de l’expression d’un ou plusieurs gènes chez un patient peuvent indiquer un dysfonctionnement des mécanismes qui régulent leur expression. Ce dysfonctionnement peut être dû à des mutations dans les régions régulatrices de la transcription des gènes, comme nous l’avons vu dans la section sur le séquençage du génome. Il pourrait également être dû à des altérations de l’expression ou de la structure des facteurs de régulation de la transcription.40 Les changements dans l’expression des gènes sont fréquemment dus à des altérations des mécanismes épigénétiques de régulation de l’expression des gènes, tels que la méthylation de l’ADN, qui ne peuvent pas être détectés par le séquençage du génome ou de l’exome.41 Des méthodes d’étude de la méthylation du génome entier permettant l’étude détaillée de cette information épigénétique ont été récemment développées.42 Le cancer est l’une des maladies sur lesquelles davantage d’études des niveaux d’expression des gènes ont été réalisées. Dans un nombre croissant de cas, les altérations de l’expression des gènes ou d’un groupe de gènes sont liées au diagnostic du cancer, au pronostic ou à la prédiction de la réponse aux médicaments anticancéreux43 . Nombre de ces études sont disponibles dans la base de données du projet d’anatomie du génome du cancer (http://cgap.nci.nih.gov).

Un type spécifique de projet de séquençage de l’ARN vise à déterminer la séquence nucléotidique et les niveaux d’expression des petits ARN régulateurs (miRNA). Les petits ARN régulent l’expression d’autres gènes en déterminant la stabilité et/ou la traduction de leurs ARNm (figure 1). Les changements dans les profils d’expression des miARN peuvent donc avoir un impact marqué sur le profil d’expression des protéines des cellules et des tissus. Des protocoles ont été développés pour la purification et le séquençage de la population complète de miRNA d’un échantillon donné et pour déterminer leurs niveaux d’expression.44 La plupart des plateformes de capture d’exon incluent également jusqu’à 80% des régions connues codant pour les miRNA.21

Séquençage d’ensembles sélectionnés de gènes

Certaines maladies ont déjà été étudiées de manière si détaillée que la plupart des gènes impliqués sont connus. Cela peut être le cas des maladies ayant un modèle d’hérédité mendélien, dans lesquelles tous les cas étudiés sont dus à des mutations dans l’un ou l’autre d’un certain nombre de gènes connus. D’autres exemples sont certains types de cancer qui sont principalement dus à des mutations dans un nombre réduit de gènes. Dans de tels cas, l’approche la plus directe pour caractériser l’échantillon d’un patient serait de déterminer la séquence des gènes précédemment identifiés comme responsables de la maladie. L’approche classique consisterait à amplifier tous les exons de ces gènes et à déterminer la séquence nucléotidique de chacun. L’approche alternative de séquençage massif consisterait à purifier toutes les régions génomiques putatives impliquées et à déterminer simultanément leur séquence nucléotidique en un seul passage.45-47 Deux méthodes sont généralement utilisées pour la purification des régions d’ADN candidates. La première est leur amplification par réactions en chaîne par polymérase en utilisant un ensemble d’oligonucléotides spécifiques comme amorces. La seconde méthode consiste à fragmenter l’ADN de l’échantillon et à purifier les fragments pertinents par hybridation avec des oligonucléotides spécifiques, soit en solution, soit fixés sur un support solide, comme décrit précédemment pour la purification des exons.48 Les régions sélectionnées peuvent contenir des exons codant pour des protéines, mais aussi d’autres régions d’ADN, comme les régions régulatrices de la transcription. Les régions sélectionnées peuvent contenir des exons codant pour des protéines, mais aussi d’autres régions d’ADN, telles que les régions régulatrices de la transcription. La principale limite est qu’il s’agit d’une approche basée sur des hypothèses qui ne permet pas de détecter des mutations dans des gènes qui ne sont pas précédemment liés à la maladie étudiée (tableau 4).

Exemples d’utilisation clinique du séquençage de l’exome

L’utilisation la plus courante du séquençage de l’exome est probablement le diagnostic des maladies monogéniques. Plus de 3 000 troubles monogéniques ont été décrits, bien que les causes génétiques moléculaires de la plupart d’entre eux soient encore inconnues.1 Le séquençage de l’exome peut être utilisé pour identifier ces mutations, comme le discutent Kuhlenbäumer et al1 dans une revue récente. Dans certaines des premières études, le séquençage de l’exome a été utilisé pour identifier les mutations génétiques responsables de maladies familières telles que les syndromes de Kabuki,49 de Schinzel-Giedion,50 de Joubert,51 et d’hyperphosphatasie pour le retard mental,52 les malformations cérébrales graves,53 ou la sclérose latérale amyotrophique familière.54 Le séquençage de l’exome a également été utilisé pour découvrir de nouvelles mutations présentes dans un cas sporadique de retard mental.29 En outre, cette technique a été utilisée pour le diagnostic, par exemple, de la diarrhée chlorure congénitale,55 de la maladie intestinale inflammatoire,56 de la maladie de Charcot-Marie-Tooth,57 du diabète sucré néonatal,58 ou du syndrome de Brown-Vialetto-van Laere.59 L’étude rapportée par Worthey et al56 représente un exemple pertinent de l’application clinique du séquençage de l’exome. Un enfant de sexe masculin présentait une maladie ressemblant à la maladie de Crohn sans diagnostic définitif, malgré une évaluation clinique complète. Les auteurs ont décidé d’utiliser une approche de séquençage de l’exome pour identifier la ou les mutations responsables. L’analyse des données de séquence a permis de détecter 16 124 variants chez le patient. En filtrant les données tout en considérant les nouveaux variants présents en homozygotie, hémizygotie ou hétérozygotie composée, et tout en affectant des résidus d’acides aminés hautement conservés prédits comme étant dommageables pour la fonction des protéines, les auteurs ont pu sélectionner une mutation dans le gène de l’inhibiteur de l’apoptose lié à l’X (XIAP). Des études fonctionnelles ont démontré la pertinence de cette mutation dans la réponse pro-inflammatoire observée chez le patient. Sur la base de l’identification de cette mutation, une greffe allogénique de progéniteurs hématopoïétiques a été réalisée. Par conséquent, le séquençage de l’exome a permis d’identifier une mutation non caractérisée afin de poser un diagnostic moléculaire pour un patient individuel, dans le cadre d’une nouvelle maladie, ce qui a donné lieu à un plan de gestion. L’utilisation du séquençage de l’exome dans la découverte de nouvelles mutations causales et dans le diagnostic a été récemment examinée.60,61

L’étude des maladies communes et complexes a également été abordée par le séquençage de l’exome. Les études d’association à l’échelle du génome ont montré que certaines variantes génétiques confèrent un risque pour un certain nombre de maladies. Des exemples bien caractérisés sont l’apolipoprotéine E dans la maladie d’Alzheimer, le facteur H du complément dans la dégénérescence maculaire, ou la glucocérébrosidase/leucine rich repeat kinase 2 dans la maladie de Parkinson.62-64 L’utilisation possible du séquençage de l’exome pour l’étude des maladies complexes a été discutée.2,28 L’une des limites de l’utilisation du séquençage de l’exome dans ces études est que la plupart des variants associés au phénotype sont distaux par rapport aux régions codant pour les protéines, ce qui ferait du séquençage du génome entier une meilleure approche.32 Certains de ces variants génétiques peuvent affecter la fonctionnalité des régions régulatrices de la transcription qui contrôlent l’expression des gènes. Le projet ENCODE31,65 a réalisé une analyse de ces régions régulatrices à l’échelle du génome, et il a été constaté que plusieurs variantes génétiques dans des régions spécifiques du chromosome 5 (par exemple) sont des sites de liaison pour le facteur de transcription, GATA2, qui sont fortement associés à la maladie de Crohn et à d’autres maladies inflammatoires.

Les cancers sont des maladies causées par l’accumulation de modifications génomiques qui entraînent l’altération de multiples processus biologiques19. Contrairement aux altérations génétiques monogéniques évoquées précédemment, la plupart des mutations du conducteur du cancer ne sont pas présentes dans le tissu normal du patient ; une grande partie de ces mutations réside dans les régions codant pour les protéines et peut être détectée par le séquençage de l’exome19. Cependant, un autre groupe important d’altérations génétiques est constitué par les grandes réorganisations génomiques telles que les délétions, les inversions ou les translocations qui ne peuvent pas être détectées par le séquençage de l’exome.66 Malgré cette limitation, le séquençage de l’exome a été appliqué à la découverte de gènes moteurs du cancer en utilisant deux stratégies générales : la comparaison de l’exome des tumeurs à celui des tissus sains du même patient ; ou la comparaison d’un certain nombre d’exomes de patients non apparentés à celui d’un nombre similaire de contrôles sains.67-Actuellement, des études approfondies sont menées qui impliquent le séquençage de l’exome ou du génome d’une grande cohorte de patients cancéreux et de témoins afin d’identifier tous les gènes moteurs du cancer.19,71,72 Le projet 5 000 génomes du cancer en est un exemple,73 car il vise à séquencer le génome de 50 des types de cancer les plus courants. Les données disponibles ont déjà fourni un paysage génomique général des cancers les plus courants, comme l’ont analysé Vogelstein et al.3 On a identifié environ 140 gènes qui favorisent la tumorigenèse lorsqu’ils sont altérés, et on peut les trouver dans la base de données COSMIC mentionnée précédemment.3 La détection de la mutation de l’un de ces gènes dans l’exome d’un échantillon de cancer peut constituer une étape importante vers un diagnostic et un traitement appropriés du patient. Les données actuelles donnent également une idée de la complexité du génome du cancer.3 Les tumeurs solides communes présentent un nombre moyen de 33 à 66 mutations somatiques non silencieuses.3 Ce nombre augmente à plus de 200 dans les tumeurs induites par des agents mutagènes, comme le cancer du poumon et le mélanome, et même à plus de 1000 dans les tumeurs déficientes dans les mécanismes de réparation de l’ADN ou dans l’ADN polymérase E.3 En revanche, les tumeurs liquides et pédiatriques présentent moins de dix mutations somatiques.3 Une caractéristique importante des tumeurs est qu’elles évoluent rapidement et deviennent hétérogènes, de sorte que l’on peut trouver différentes mutations dans des échantillons d’un même patient prélevés dans différentes régions ou à différentes périodes du traitement, comme l’a récemment montré le séquençage de l’exome74,75. Malgré cette complexité, certains concepts unificateurs émergent, et la plupart des gènes pilotes de cancer connus participent à une ou plusieurs des 12 voies qui régulent la survie cellulaire, le destin cellulaire et la maintenance du génome.3,19 Dans ce scénario, le séquençage de l’exome commence à être utilisé pour le diagnostic du cancer grâce à l’identification des mutations pilotes, par exemple dans le cancer de la prostate.76

Le séquençage de l’exome peut également être utile pour le traitement du cancer. La présence de certaines mutations génétiques peut conférer une sensibilité ou une résistance à un médicament donné, ce qui a été nommé pharmacogénomique. Par exemple, l’utilisation d’inhibiteurs de protéine tyrosine kinase dans les cancers qui surexpriment les protéines Abelson murine leukemia viral oncogene homolog 1 (ABL) ou epidermal growth factor receptor (EGFR) est connue depuis plusieurs années. Cependant, les approches de séquençage de l’exome et du génome révèlent beaucoup plus de réponses mutationnelles aux associations de traitements (comme le souligne une revue77). Un exemple instructif est la publication récente de l’exome du panel de cellules NCI-60.78 Ce panel contient 60 lignées cellulaires bien caractérisées provenant de neuf types de cancer et a été utilisé dans un large éventail d’études biologiques et pharmacologiques.79 La séquence nucléotidique de l’exome de ces cellules a été déterminée pour établir les gènes conducteurs de cancer mutés dans chacune d’elles. En plus de fournir une liste de nouveaux gènes cancérigènes putatifs, les auteurs ont étudié la corrélation possible entre le génotype de chaque lignée cellulaire et la réponse précédemment déterminée à un grand nombre d’agents anticancéreux. Une corrélation a été trouvée entre des mutations génétiques spécifiques et la réponse à plusieurs médicaments, révélant l’importance possible du séquençage de l’exome dans la sélection d’un traitement personnalisé. Le séquençage de l’exome peut également être utilisé pour prédire la prédisposition au cancer. Quelques exemples peuvent être trouvés dans une revue récente centrée sur le cancer colorectal et utilisant le séquençage du génome entier.72

Défis médicaux du séquençage de l’exome

Le séquençage de l’exome promet des améliorations significatives dans les diagnostics, les pronostics et les traitements personnalisés des patients. Cependant, l’application étendue de cette technologie nécessite encore un certain nombre d’améliorations, ainsi que la définition de considérations éthiques et médicales importantes, comme cela a été discuté dans des revues récentes.23,27,60,61,71,77 Les défis techniques comprennent le développement de techniques plus efficaces de capture d’exons, de séquençage et d’alignement pour obtenir une représentation complète et régulière de tous les exons de la séquence. Des améliorations des outils logiciels d’analyse des données pour une détection rapide et précise des variants pathologiques sont également nécessaires. Le séquençage exome extensif nécessitera la mise en œuvre d’équipements spécialisés et l’embauche d’équipes de spécialistes disposant de l’expertise adéquate pour générer les séquences et pour analyser et interpréter les données obtenues.

L’utilisation du séquençage exome pour le diagnostic nécessitera également la mise en œuvre de directives et de réglementations techniques. Des paramètres tels que la profondeur de séquençage, la couverture d’exon, les métriques de qualité des données de séquences nucléotidiques ou l’appel d’alignement devront être normalisés. Le stockage des données devra également être réglementé.

Il existe également un certain nombre de questions éthiques complexes. Une question importante est liée aux informations qui doivent être fournies au patient. Le séquençage de l’exome pourrait détecter des variations génétiques qui ne sont pas liées à la maladie diagnostiquée. Le patient peut présenter des variantes génétiques qui représentent des facteurs de risque ou qui peuvent être à l’origine d’autres maladies. Quelles sont les informations qui devraient être communiquées au patient ? Quelles seraient les preuves requises pour considérer qu’une variante génétique est liée à une maladie ? La propriété, l’accès et le stockage des données sont d’autres questions pertinentes. Les données générées doivent-elles être conservées pour une éventuelle utilisation future du vivant du patient ? Ces considérations éthiques et d’autres soulèveront probablement une controverse considérable80 et nécessiteront des discussions approfondies pour parvenir à un accord sur les critères à utiliser dans la pratique clinique.

Conclusion

Le séquençage de l’exome est déjà un outil puissant utilisé pour déterminer la base moléculaire des maladies génétiques. La profondeur de l’analyse génétique est moindre que celle du séquençage du génome entier puisque les variations génétiques dans les régions non codantes pour les protéines ne sont pas détectées. Cependant, le nombre réduit de séquences et d’analyses de séquences nécessaires au séquençage de l’exome en fait une approche plus abordable en pratique clinique. Par conséquent, le séquençage de l’exome sera probablement la technique de choix pour l’analyse initiale des patients, au moins jusqu’à ce que le prix du séquençage du génome entier diminue et que la procédure d’analyse des données considérables soit améliorée. Une limitation importante de l’application du séquençage de l’exome en pratique clinique est que la signification fonctionnelle de la plupart des variants génétiques attendus est encore inconnue. Cette situation évolue rapidement, car un nombre croissant de variantes génétiques associées à des maladies sont déterminées et mises à disposition dans des bases de données publiques. Il est plausible que dans quelques années, la plupart des variations génétiques liées au risque de contracter une maladie, avec un diagnostic moléculaire précis, une prédiction de l’évolution de la maladie et une réponse pharmacologique, seront connues. La connaissance précise de l’exome, ou génome, du patient sera alors un facteur déterminant dans la pratique médicale.

Remerciements

Je remercie vivement Rosario Perona et Juliette Siegfried (ServingEdit.com) pour la révision critique du manuscrit.

Divulgation

L’auteur ne signale aucun conflit d’intérêts dans ce travail.

Kuhlenbäumer G, Hullmann J, Appenzeller S. Les nouvelles techniques génomiques ouvrent de nouvelles voies dans l’analyse des troubles monogéniques. Hum Mutat. 2011;32(2):144-151.

Kiezun A, Garimella K, Do R, et al. Exome sequencing and the genetic basis of complex traits. Nat Genet. 2012;44(6):623-630.

Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA Jr, Kinzler KW. Paysages génomiques du cancer. Science. 2013;339(6127):1546-1558.

Kirwan M, Dokal I. Dyskératose congénitale : un trouble génétique aux multiples visages. Clin Genet. 2008;73(2):103-112.

Walne AJ, Dokal I. Advances in the understanding of dyskeratosis congenita. Br J Haematol. 2009;145(2):164-172.

Brady PD, Vermeesch JR. Les microréseaux génomiques : un aperçu de la technologie. Prenat Diagn. 2012;32(4):336-343.

Hehir-Kwa JY, Pfundt R, Veltman JA, de Leeuw N. Pathogène ou non ? Évaluation de la pertinence clinique des variantes du nombre de copies. Clin Genet. 2013;84(5):415-421.

Simons A, Sikkema-Raddatz B, de Leeuw N, Konrad NC, Hastings RJ, Schoumans J. Genome-wide arrays in routine diagnostics of hematological malignancies. Hum Mutat. 2012;33(6):941-948.

Metzker ML. Les technologies de séquençage – la prochaine génération. Nat Rev Genet. 2010;11(1):31-46.

Sastre L. Les nouvelles technologies de séquençage de l’ADN ouvrent une ère prometteuse pour la recherche et le traitement du cancer. Clin Transl Oncol. 2011;13(5):301-306.

Lander ES, Linton LM, Birren B, et al. Consortium international de séquençage du génome humain. Séquençage initial et analyse du génome humain. Nature. 2001;409(6822):860-921.

Abecasis GR, Auton A, Brooks LD, et al. 1000 Genomes Project Consortium. Une carte intégrée de la variation génétique de 1 092 génomes humains. Nature. 2012;491(7422):56-65.

Yang Y, Liu R, Xie H, et al. Advances in nanopore sequencing technology. J Nanosci Nanotechnol. 2013;13(7):4521-4538.

Chen YS, Lee CH, Hung MY, Pan HA, Chiou JC, Huang GS. Séquençage de l’ADN à l’aide de mesures de conductance électrique d’une ADN polymérase. Nat Nanotechnol. 2013;8(6):452-458.

Lu ZX, Jiang P, Xing Y. Variation génétique de l’épissage alternatif des pré-ARNm dans les populations humaines. Wiley Interdiscip Rev RNA. 2012;3(4):581-592.

Pruitt KD, Harrow J, Harte RA, et al. Le projet de séquence codante consensus (CCDS) : Identification d’un ensemble commun de gènes codant pour les protéines des génomes humain et murin. Genome Res. 2009;19(7):1316-1323.

Harrow J, Frankish A, Gonzalez JM, et al. GENCODE : l’annotation de référence du génome humain pour le projet ENCODE. Genome Res. 2012;22(9):1760-1774.

Teer JK, Mullikin JC. Séquençage de l’exome : le sweet spot avant les génomes entiers. Hum Mol Genet. 2010;19(R2):R145-R151.

Liu X, Wang J, Chen L. Le séquençage de l’exome entier révèle des réseaux de mutations somatiques récurrentes dans le cancer. Cancer Lett. 2013;340(2):270-276.

Parla JS, Iossifov I, Grabill I, Spector MS, Kramer M, McCombie WR. Une analyse comparative de la capture d’exome. Genome Biol. 2011 ; 12(9):R97.

Sulonen AM, Ellonen P, Almusa H, et al. Comparaison des méthodes de capture d’exome basées sur des solutions pour le séquençage de nouvelle génération. Genome Biol. 2011;12(9):R94.

Clark MJ, Chen R, Lam HY, et al. Comparaison des performances des technologies de séquençage de l’ADN des exomes. Nat Biotechnol. 2011;29(10):908-914.

Gullapalli RR, Desai KV, Santana-Santos L, Kant JA, Becich MJ. Le séquençage de nouvelle génération en médecine clinique : Défis et leçons pour la pathologie et l’informatique biomédicale. J Pathol Inform. 2012;3:40.

Samuels DC, Han L, Li J, et al. Finding the lost treasures in exome sequencing data. Trends Genet. 2013;29(10):593-599.

Taneri B, Asilmaz E, Gaasterland T. Impact biomédical des mutations d’épissage révélées par le séquençage de l’exome. Mol Med. 2012;18:314-319.

Fu W, O’Connor TD, Jun G, et al ; NHLBI Exome Sequencing Project. L’analyse de 6 515 exomes révèle l’origine récente de la plupart des variants codant pour des protéines humaines. Nature. 2013;493(7431):216-220.

Marian AJ. Défis des applications médicales des découvertes du séquençage de l’exome entier/du génome. Trends Cardiovasc Med. 2012;22(8):219-223.

Singleton AB. Séquençage de l’exome : une technologie transformatrice. Lancet Neurol. 2011;10(10):942-946.

Vissers LE, de Ligt J, Gilissen C, et al. Un paradigme de novo pour le retard mental. Nat Genet. 2010;42(12):1109-1112.

Gonzalez-Perez A, Perez-Llamas C, Deu-Pons J, et al. IntOGen-mutations identifie les conducteurs de cancer à travers les types de tumeurs. Nat Methods. 2013;10(11):1081-1082.

Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M ; Consortium du projet ENCODE. Une encyclopédie intégrée des éléments d’ADN dans le génome humain. Nature. 2012;489(7414):57-74.

Hardison RC. Les données épigénétiques à l’échelle du génome facilitent la compréhension des études d’association de susceptibilité aux maladies. J Biol Chem. 2012;287(37):30932-30940.

Weedon MN, Cebola I, Patch AM, et al. International Pancreatic Agenesis Consortium. Des mutations récessives dans un exhausteur distal de PTF1A provoquent une agénésie pancréatique isolée. Nat Genet. 2014;46(1):61-64.

Wang Z, Gerstein M, Snyder M. RNA-Seq : un outil révolutionnaire pour la transcriptomique. Nat Rev Genet. 2009;10(1):57-63.

Mutz KO, Heilkenbrinker A, Lönne M, Walter JG, Stahl F. Analyse du transcriptome à l’aide du séquençage de nouvelle génération. Curr Opin Biotechnol. 2013;24(1):22-30.

Hitzemann R, Bottomly D, Darakjian P, et al. Gènes, comportement et séquençage ARN de nouvelle génération. Genes Brain Behav. 2013;12(1):1-12.

Costa V, Aprile M, Esposito R, Ciccodicola A. RNA-Seq et maladies complexes humaines : réalisations récentes et perspectives futures. Eur J Hum Genet. 2013;21(2):134-142.

Lappalainen T, Sammeth M, Friedländer MR, et al ; Geuvadis Consortium ; Geuvadis Consortium. Le séquençage du transcriptome et du génome découvre la variation fonctionnelle chez les humains. Nature. 2013 ; 501(7468):506-511.

Slotkin W, Nishikura K. Edition de l’ARN de l’adénosine à l’inosine et maladie humaine. Genome Med. 2013;5:105.

Lee TI, Young RA. La régulation transcriptionnelle et sa mauvaise régulation dans la maladie. Cell. 2013;152(6):1237-1251.

Suvà ML, Riggi N, Bernstein BE. Reprogrammation épigénétique dans le cancer. Science. 2013;339(6127):1567-1570.

Li P, Demirci F, Mahalingam G, Demirci C, Nakano M, Meyers BC. Un flux de travail intégré pour l’analyse de la méthylation de l’ADN. J Genet Genomics. 2013;40(5):249-260.

Chibon F. Cancer gene expression signatures – the rise and fall ? Eur J Cancer. 2013;49:2000-2009.

Dedeoğlu BG. Approches à haut débit pour l’analyse de l’expression des microARN. Methods Mol Biol. 2014;1107:91-103.

Ni T, Wu H, Song S, Jelley M, Zhu J. Amplification sélective des gènes pour le séquençage à haut débit. Pat récent DNA Gene Seq. 2009 ; 3(1):29-38.

Barretina J, Caponigro G, Stransky N, et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature. 2012;483(7391):603-607.

Garnett MJ, Edelman EJ, Heidorn SJ, et al. Identification systématique des marqueurs génomiques de la sensibilité aux médicaments dans les cellules cancéreuses. Nature. 2012;483(7391):570-575.

Hoischen A, Gilissen C, Arts P, et al. Séquençage massivement parallèle des gènes de l’ataxie après enrichissement basé sur la matrice. Hum Mutat. 2010;31(4):494-499.

Ng SB, Bigham AW, Buckingham KJ, et al. Le séquençage de l’exome identifie les mutations MLL2 comme une cause du syndrome de Kabuki. Nat Genet. 2010;42(9):790-793.

Hoischen A, van Bon BW, Gilissen C, et al. Des mutations de novo de SETBP1 causent le syndrome de Schinzel-Giedion. Nat Genet. 2010;42(6):483-485.

Edvardson S, Shaag A, Zenvirt S, et al. Le syndrome de Joubert 2 (JBTS2) chez les Juifs ashkénazes est associé à une mutation de TMEM216. Am J Hum Genet. 2010;86(1):93-97.

Krawitz PM, Schweiger MR, Rödelsperger C, et al. Le filtrage de l’identité par descendance des données de séquences d’exome identifie les mutations PIGV dans le syndrome de retard mental d’hyperphosphatasie. Nat Genet. 2010;42(10):827-829.

Bilgüvar K, Oztürk AK, Louvi A, et al. Le séquençage de l’exome entier identifie les mutations récessives WDR62 dans les malformations cérébrales graves. Nature. 2010;467(7312):207-210.

Johnson JO, Mandrioli J, Benatar M, et al. Consortium ITALSGEN. Le séquençage de l’exome révèle des mutations VCP comme cause de la SLA familiale. Neuron. 2010;68(5):857-864.

Choi M, Scholl UI, Ji W, et al. Diagnostic génétique par capture d’exome entier et séquençage d’ADN massivement parallèle. Proc Natl Acad Sci U S A. 2009;106(45):19096-19101.

Worthey EA, Mayer AN, Syverson GD, et al. Making a definitive diagnosis : successful clinical application of whole exome sequencing in a child with intractable inflammatory bowel disease. Genet Med. 2011;13(3):255-262.

Montenegro G, Powell E, Huang J, et al. Le séquençage de l’exome permet une identification rapide des gènes dans une famille de Charcot-Marie-Tooth. Ann Neurol. 2011;69(3):464-470.

Bonnefond A, Durand E, Sand O, et al. Diagnostic moléculaire du diabète sucré néonatal par séquençage de nouvelle génération de l’exome entier. PLoS One. 2010;5(10):e13630.

Johnson JO, Gibbs JR, Van Maldergem L, Houlden H, Singleton AB. Séquençage de l’exome dans le syndrome de Brown-Vialetto-van Laere. Am J Hum Genet. 2010;87(4):567-9 ; réponse de l’auteur 569.

Bras JM, Singleton AB. Séquençage de l’exome dans la maladie de Parkinson. Clin Genet. 2011;80(2):104-109.

Topper S, Ober C, Das S. Le séquençage de l’exome et la génétique de la déficience intellectuelle. Clin Genet. 2011;80(2):117-126.

Corder EH, Saunders AM, Strittmatter WJ, et al. Dose génétique de l’allèle de l’apolipoprotéine E de type 4 et risque de maladie d’Alzheimer dans les familles à déclenchement tardif. Science. 1993;261(5123):921-923.

Klein RJ, Zeiss C, Chew EY, et al. Polymorphisme du facteur H du complément dans la dégénérescence maculaire liée à l’âge. Science. 2005;308(5720):385-389.

Tan EK. Identification d’une variante de risque génétique commune (LRRK2 Gly2385Arg) dans la maladie de Parkinson. Ann Acad Med Singapore. 2006;35(11):840-842.

Libioulle C, Louis E, Hansoul S, et al. Novel Crohn disease locus identified by genome-wide association maps to a gene desert on 5p13.1 and modulates expression of PTGER4. PLoS Genet. 2007;3(4):e58.

Stephens PJ, Greenman CD, Fu B, et al. Réarrangement génomique massif acquis en un seul événement catastrophique pendant le développement du cancer. Cell. 2011;144(1):27-40.

Jones S, Zhang X, Parsons DW, et al. Core signaling pathways in human pancreatic cancers revealed by global genomic analyses. Science. 2008;321(5897):1801-1806.

Parsons DW, Jones S, Zhang X, et al. Une analyse génomique intégrée du glioblastome multiforme humain. Science. 2008;321(5897):1807-1812.

Timmermann B, Kerick M, Roehr C, et al. Profils de mutation somatique du cancer colorectal MSI et MSS identifiés par séquençage de nouvelle génération de l’exome entier et analyse bioinformatique. PLoS One. 2010;5(12):e15661.

Varela I, Tarpey P, Raine K, et al. Le séquençage de l’exome identifie une mutation fréquente du gène PBRM1 du complexe SWI/SNF dans le carcinome rénal. Nature. 2011;469(7331):539-542.

Ku CS, Cooper DN, Roukos DH. Pertinence clinique du séquençage du génome du cancer. World J Gastroenterol. 2013;19(13):2011–2018.

Kilpivaara O, Aaltonen LA. Le séquençage du génome du cancer diagnostique et la contribution des variants germinaux. Science. 2013;339(6127):1559-1562.

Hudson TJ, Anderson W, Artez A, et al ; International Cancer Genome Consortium. Réseau international de projets sur le génome du cancer. Nature. 2010;464(7291):993-998.

Gerlinger M, Rowan AJ, Horswell S, et al. Hétérogénéité intratumorale et évolution ramifiée révélée par le séquençage multirégional. N Engl J Med. 2012;366(10):883-892.

Ren SC, Qu M, Sun YH. Investigation de l’hétérogénéité intratumorale par le séquençage de cellules uniques. Asian J Androl. 2013;15(6):729-734.

Hieronymus H, Sawyers CL. Traverser le paysage génomique du cancer de la prostate, du diagnostic à la mort. Nat Genet. 2012;44(6):613-614.

McLeod HL. Pharmacogénomique du cancer : promesse précoce, mais effort concerté nécessaire. Science. 2013;339(6127):1563-1566.

Abaan OD, Polley EC, Davis SR, et al. Les exomes du panel NCI-60 : une ressource génomique pour la biologie du cancer et la pharmacologie des systèmes. Cancer Res. 2013;73(14):4372-4382.

Weinstein JN. Découverte de médicaments : Les lignées cellulaires combattent le cancer. Nature. 2012;483:544-545.

Shahmirzadi L, Chao EC, Palmaer E, Parra MC, Tang S, Gonzalez KD. Décisions des patients pour la divulgation des résultats secondaires parmi les 200 premiers individus subissant un séquençage d’exome de diagnostic clinique. Genet Med. Epub October 10, 2013.

Flicek P, Amode MR, Barrell D, et al. Ensembl 2011. Nucleic Acids Res. 2011;39:D800-D806.

Pruitt KD, Tatusova T, Klimke W, Maglott DR. Séquences de référence du NCBI : état actuel, politique et nouvelles initiatives. Nucleic Acids Res. 2009;37:D32-D36.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.