Introducción

Numerosas enfermedades tienen una base genética. Algunas son consecuencia de la ausencia o disfunción de una determinada proteína debido a mutaciones en el gen que la codifica. Este es el caso de las enfermedades de herencia mendeliana, como la enfermedad de Huntington, la talasemia y aproximadamente otras 1.000 enfermedades raras hereditarias.1 Muchas enfermedades tienen una base genética, aunque no se deban exclusivamente a la mutación de un solo gen, y cada vez se identifican más variantes y polimorfismos genéticos como factores de riesgo de enfermedades complejas.2 El cáncer es una enfermedad genética causada por la mutación de uno o más genes que, o bien aumentan el riesgo de cáncer (como las mutaciones de la línea germinal), o bien promueven el cáncer (oncogenes), o bien deterioran los mecanismos celulares que controlan la proliferación celular (genes supresores), como ocurre con las mutaciones somáticas.3

La identificación de las bases genéticas de estas enfermedades ha sido un proyecto laborioso y desafiante, hasta hace pocos años. Estos proyectos solían comenzar con la identificación de una región del genoma posiblemente implicada en la transmisión de la enfermedad mediante estudios de asociación genética.1 El análisis de grandes familias con varios miembros afectados suele ser necesario para definir una región del genoma altamente relacionada con la transmisión de la enfermedad. Generalmente, esta región contiene varios genes que deben ser secuenciados para identificar una mutación genética presente en todos los individuos afectados y no en sus familiares sanos, en el caso de la herencia dominante. En el caso de la transmisión recesiva, la mutación debe estar presente en ambos alelos de los miembros afectados y en uno, o en ninguno, de los alelos de los parientes no afectados.

El diagnóstico de las enfermedades genéticas fue, y en la mayoría de los casos sigue siendo, igualmente laborioso. En el mejor de los casos, la enfermedad puede tener su origen en una mutación en un solo gen. El diagnóstico requeriría determinar únicamente la secuencia de nucleótidos de ese gen. Normalmente, el gen se amplifica como varios fragmentos mediante reacciones en cadena de la polimerasa y se determina la secuencia de nucleótidos de cada uno. A menudo, la enfermedad puede estar causada por mutaciones en cualquiera de varios genes, y todos ellos deben ser amplificados y secuenciados para encontrar el origen genético de la enfermedad en los pacientes afectados. Por ejemplo, en la disqueratosis congénita se pueden encontrar mutaciones en cualquiera de los genes dkc, tert, terc, NOP10, NH2 o TINF2, y el número de genes afectados puede ser incluso mayor ya que hay una fracción de pacientes en los que no se ha identificado la mutación causante.4,5 La secuencia nucleotídica de todos estos genes debe ser determinada para el diagnóstico molecular de cada paciente. Encontramos varios genes mutados en varios tipos de cánceres.3 El diagnóstico molecular requiere determinar la secuencia de nucleótidos de varios de estos genes. Actualmente, se trata de un proceso laborioso y costoso que no puede utilizarse para una gran población de pacientes. En la práctica, sólo se secuencian unos pocos genes que están mutados en una proporción importante de pacientes afectados por algunos tipos de cáncer para su diagnóstico y tratamiento.

Sólo en los últimos años se han desarrollado técnicas para la detección simultánea de múltiples variantes de secuencia en una muestra determinada. Muchas de ellas se basan en la tecnología de microarrays de ácido desoxirribonucleico (ADN). En las matrices de genotipado, los oligonucleótidos que contienen las mutaciones activamente identificadas relacionadas con una determinada enfermedad se colocan en un portaobjetos. Se añade una muestra de ADN del paciente sobre el portaobjetos y se identifican los oligonucleótidos hibridantes. En una sola hibridación de microarrays pueden analizarse millones de mutaciones conocidas.6 Las variaciones del número de copias también pueden analizarse mediante microarrays de ADN diseñados para detectar la presencia de regiones de ADN duplicadas o eliminadas en el ADN del paciente.7 Estas técnicas se utilizan con frecuencia en la investigación médica y para el diagnóstico clínico.8

Sin embargo, un paso importante en la medicina molecular ha sido el reciente desarrollo de tecnologías de secuenciación masiva que permiten determinar la secuencia de nucleótidos del ADN de un paciente en poco tiempo y a un precio asequible.9,10 Estas metodologías se utilizan desde 2005 y se basan en la determinación simultánea de la secuencia de nucleótidos de millones de fragmentos de ADN. Se han denominado secuenciación de segunda generación, secuenciación de próxima generación, secuenciación profunda o secuenciación masivamente paralela. Con estas máquinas se determinan miles de millones de secuencias de nucleótidos en no más de dos semanas. Como ejemplo de la capacidad de estos nuevos sistemas de secuenciación, obsérvese que el hito de la secuenciación del primer genoma humano, publicado en 2001,11 requirió el trabajo coordinado de 23 laboratorios, que tardó 13 años, con un coste total de unos 3.000 millones de dólares. Con las nuevas metodologías, la secuenciación de un genoma humano requiere un laboratorio y unas 2 semanas, con un coste aproximado de 4.000 dólares.

La disponibilidad de las modernas metodologías de secuenciación está produciendo el crecimiento exponencial de nuestros conocimientos sobre el genoma humano, la variabilidad entre individuos y la identificación de variantes genéticas en enfermedades. Por ejemplo, estas metodologías son la base del Proyecto 1000 Genomas,12 en curso, cuyo objetivo es determinar la secuencia completa de nucleótidos de unas 1.000 personas de diferentes orígenes geográficos y étnicos para determinar la variación media de la secuencia entre los individuos e identificar los polimorfismos más frecuentes.

Las tecnologías de secuenciación masiva están evolucionando actualmente a gran velocidad. Se están desarrollando máquinas más pequeñas y rápidas, y se están introduciendo nuevos métodos de secuenciación. Un objetivo importante, por ejemplo, es secuenciar una sola molécula de ADN de una célula individual.13,14 Aparte de los desafíos técnicos, los avances están disminuyendo constantemente el precio de la secuenciación del ADN, de modo que el objetivo de secuenciar un genoma humano individual por 1.000 dólares parece estar al alcance de la mano en pocos años. Actualmente, la secuenciación de todo un genoma humano y el análisis de todos los datos de la secuencia generados es complejo, caro y requiere mucho tiempo, por lo que se están realizando muchos estudios en una parte más pequeña del genoma. En particular, actualmente se está prestando mucha atención a la secuenciación de la región del genoma que codifica las proteínas, lo que se conoce como exoma. La secuenciación del exoma es mucho más asequible que la secuenciación del genoma completo, y en esta revisión se analizarán las posibilidades, ventajas y limitaciones de esta técnica.

¿Qué es un exoma?

Casi todos los genes humanos que codifican proteínas tienen una estructura discontinua. La región codificadora de proteínas está fragmentada en varios trozos, llamados exones. Los exones están conectados por fragmentos de ADN que no codifican proteínas, o intrones, como se muestra esquemáticamente en la Figura 1. Los genes se transcriben a partir de la región promotora bajo el control de varias regiones reguladoras, que están presentes en diferentes lugares en relación con el gen, aguas arriba, aguas abajo o incluso dentro del gen. La transcripción crea un transcrito primario que contiene exones e intrones. Los procesos posteriores de empalme del ácido ribonucleico (ARN) eliminan los intrones y unen los exones para generar el ARN mensajero (ARNm) maduro que contiene sólo una región continua de codificación de proteínas. Estudios recientes demuestran que los transcritos primarios de la mayoría de los genes pueden empalmarse de varias maneras, dando lugar a diversos ARNm maduros que contienen combinaciones específicas de exones, conocidas como variantes de empalme alternativas (Figura 1). Estos ARNm codifican isoformas proteicas que tienen algunas regiones comunes, pero que también difieren de otras, dependiendo de los exones incorporados.15

El análisis del genoma humano ha demostrado que los genes codificadores de proteínas representan una pequeña proporción del ADN, sólo alrededor del 3%.16 Los exones representan una fracción aún más pequeña, el 1% del genoma.16 En la Tabla 1 se muestra un resumen de estos datos. El genoma humano está compuesto por 3,3 ×109 pares de bases (pb) y contiene 20.078 genes codificadores de proteínas.17 Cada gen está dividido en un número medio de ocho exones, cada uno de ellos de unos 170 pb de longitud. Todos los exones en su conjunto contienen unos 3 ×107 pb. Sin embargo, la secuenciación de todos los exones proporciona la misma información sobre la secuencia de aminoácidos de las proteínas codificadas que la secuenciación de todo el genoma, con la excepción de las mutaciones que alteran el empalme del ARNm, como se verá en la sección Secuenciación del exoma y análisis de datos. Este sistema de secuenciación de todos los exones se ha denominado secuenciación del exoma y se ha convertido en un método válido para detectar variaciones en la secuencia de aminoácidos de todas las proteínas humanas.18 La diferencia de tamaño tan marcada hace que la secuenciación del exoma sea mucho más barata que la del genoma, lo que facilita los análisis computacionales y funcionales de los datos de la secuencia generada.

Figura 1 Representación esquemática de la estructura y expresión de los genes.
Notas: Los genes codificadores de proteínas están compuestos por exones que contienen información de codificación de proteínas (recuadros), separados por intrones no codificantes (líneas). Los recuadros grises indican las regiones codificadoras de proteínas de los exones y los recuadros blancos representan las regiones no traducidas 5′ y 3′ del ARNm. Los genes se transcriben desde las regiones promotoras, inmediatamente antes del exón 1. El sitio de inicio de la transcripción se indica con una flecha. La expresión del gen está controlada por una serie de regiones TR que pueden estar situadas aguas arriba o aguas abajo del gen, a distancias variables, o dentro del gen (más frecuentemente en los intrones). La estabilidad del ARNm y la traducción pueden ser reguladas por la unión de microARN a sitios específicos en la región no traducida 3′ (indicada por asteriscos). Los genes se transcriben en ARN primarios que contienen intrones y exones. Los procesos de splicing posteriores eliminan los intrones para generar ARNm maduros. Los procesos de splicing alternativo pueden dar lugar a diferentes ARNm, en función de los exones que contengan (ARNm1, ARNm2), que codifican diferentes isoformas proteicas.
Abreviaturas: TR, región reguladora de la transcripción; ARN, ácido ribonucleico; ARNm, ácido ribonucleico mensajero.

Tabla 1 Características generales del genoma y del exoma humanos

Técnicas de captura del exoma

El primer y más crítico paso en la secuenciación del exoma es el aislamiento o captura de los exones. Los métodos utilizados se basan en la hibridación del ADN. El análisis del genoma humano ha hecho posible la identificación de todos los exones del gen, y facilita el diseño de sondas de oligonucleótidos específicas para cada uno de ellos. Las sondas se utilizan para la purificación de los exones del ADN.19 La fragmentación del ADN en trozos no mayores de 500 pb es el primer paso. A continuación, el ADN se hibrida con las sondas de oligonucleótidos específicas de los exones y se purifican los fragmentos hibridados. La hibridación puede realizarse en fase líquida. En este caso, los oligonucleótidos se marcan para que los complejos ADN-oligonucleótidos puedan separarse del grueso del ADN no hibridado. En un ejemplo común, los oligonucleótidos se unen covalentemente a la biotina para que los híbridos ADN-oligonucleótido puedan aislarse utilizando la molécula de unión a la biotina, la estreptavidina, acoplada a perlas magnéticas. Los fragmentos de ADN que no contienen exones no se unen a las perlas de estreptavidina y pueden eliminarse eficazmente tras varios pasos de lavado. Los fragmentos que contienen exones, unidos a las perlas, pueden recuperarse tras la disociación de los híbridos ADN-oligonucleótidos en condiciones de baja fuerza iónica.

Los exones también pueden aislarse por hibridación a un soporte sólido en el que se han manchado los oligonucleótidos específicos de los exones, como ocurre con los microarrays de ADN. En este caso, el ADN fragmentado se extiende sobre los oligonucleótidos para permitir la hibridación. Posteriormente, el ADN no hibridado se lava y el ADN enriquecido en exones se eluye en condiciones de baja ionización.

Varios proveedores comerciales ofrecen kits para el aislamiento del exoma utilizando protocolos de hibridación en fase líquida, entre ellos Agilent Technologies (Santa Clara, CA, EE.UU.), Roche NimbelGen, Inc. (Madison, WI, EE.UU.), Illumina, Inc. (San Diego, CA, USA), y Life Technologies (Carlsbad, CA, USA). Estos kits permiten aislar más del 90% de los exones presentes en el genoma, con una especificidad superior al 90% y a un precio aproximado de 150 dólares por exoma. Varios autores han comparado estas plataformas de captura de exomas,20-22 y los datos obtenidos por Clark et al22 comparando el SureSelect Human All Exon 50 Mb (Agilent Technologies), el SeqCap EZ Exome Library v2.0 de Roche NimbleGen, Inc. y los kits TruSeq Exome Enrichment de Illumina, Inc. se resumen en la Tabla 2. Algunos de los kits cubren las regiones no traducidas del ARNm, además de las regiones de codificación de proteínas, lo que permite el análisis de regiones reguladoras como los sitios de unión de microARN (miARN). La inclusión de las regiones no traducidas 5′ también permite el análisis de las regiones promotoras proximales.22 Además, la mayoría de los kits cubren hasta el 80% de las regiones codificantes de miARN.21 Recientemente, estos y otros proveedores han desarrollado kits mejorados, por lo que los datos mostrados en la Tabla 2 deben considerarse sólo una indicación. Es importante señalar que la purificación de los exones es un paso crítico. Recuperar el 100% de los exones es difícil, y con frecuencia los exones se pierden o están infrarrepresentados en el exoma aislado. Por ejemplo, si se analiza el exoma de un paciente y se pierde el 10% de los exones durante la purificación, la probabilidad de que se pierda una mutación relevante será de aproximadamente el 10% debido a este error técnico. Por lo tanto, el uso de procedimientos de captura de exones altamente eficientes es de importancia crítica en la secuenciación del exoma.

Tabla 2 Comparación de las tres principales plataformas de captura de exomas
Notas: aComparación de las bases de datos Ensemble81 y RefSeq82, respectivamente; bPorcentaje de las regiones seleccionadas secuenciadas por cada plataforma al menos diez veces tras los análisis de 80 mega lecturas de la secuencia de ADN. Agilent Technologies (Santa Clara, CA, EE.UU.); Roche NimbelGen, Inc. (Madison, WI, EE.UU.); Illumina, Inc. (San Diego, CA, EE.UU.).
Abreviaturas: ARNm, ácido ribonucleico mensajero; miARN, ácido micro ribonucleico; ADN, ácido desoxirribonucleico.

Secuenciación del exoma y análisis de datos

Los fragmentos que contienen exones se secuencian utilizando cualquiera de los sistemas o tecnologías de equipos de secuenciación masiva actualmente disponibles. Como se ha mencionado en la introducción, estas plataformas determinan la secuencia de nucleótidos de millones de fragmentos de ADN simultáneamente. La longitud determinada de la secuencia de cada fragmento en la secuenciación del exoma no es larga, normalmente entre 35 pb y 100 pb. Sin embargo, como el ADN se fragmentó inicialmente de forma aleatoria, cada nucleótido individual estará presente en muchos fragmentos superpuestos. Por lo tanto, si se obtiene un número suficiente de secuencias, aunque sean cortas, cada base se secuenciará de forma independiente en varios fragmentos de ADN. El número de veces que se secuencia cada base se denomina cobertura o profundidad de secuenciación. La cobertura está directamente relacionada con la calidad y la confianza de la secuencia de nucleótidos generada. En general, se considera necesaria una cobertura de 20×-30× para obtener resultados fiables en la secuenciación del exoma.59 Esta profundidad de secuenciación significa que una posible variación de la secuencia se habría secuenciado de forma independiente en 20-30 fragmentos de ADN diferentes.

El análisis de los datos es el último paso en los proyectos de secuenciación del exoma (Figura 2). Como se ha mencionado anteriormente, se generan datos de millones de secuencias, y su análisis requiere programas informáticos específicos y complejos, así como experiencia.19,23 Un paso preliminar es el análisis de la calidad de la secuencia generada. Se comprueba la exactitud de la lectura de la secuencia en varias longitudes de secuencia, la longitud media de las lecturas, así como otros parámetros. Si la calidad es suficientemente buena, cada secuencia se compara con una secuencia de referencia, que suele ser la última versión disponible de la secuencia del genoma humano. Normalmente, más del 80% de las secuencias generadas pueden alinearse con el genoma de referencia.22 Este paso permite un pequeño grado de variación de nucleótidos con respecto al genoma de referencia. El siguiente paso en el análisis es identificar las variaciones de secuencia entre la secuencia de referencia y la secuencia del exoma obtenida en nuestro estudio. Los análisis posteriores de estas variantes podrían proporcionar la información deseada sobre el problema médico en estudio.

Figura 2 Análisis de los datos de secuenciación del exoma.
Notas: Se representan esquemáticamente los pasos necesarios para el aislamiento del exoma, la secuenciación y el análisis de los datos. Este proceso impulsa la identificación de variantes genéticas implicadas en el origen de las enfermedades (genes conductores) o relacionadas de otro modo con la susceptibilidad a la enfermedad, la evolución o la respuesta farmacéutica. Estos datos proporcionan una valiosa información para el diagnóstico y el pronóstico, para el asesoramiento genético y para el diseño de tratamientos personalizados.
Abstáculos: ADN, ácido desoxirribonucleico.

La secuenciación del exoma puede detectar varios tipos de variaciones genéticas. Una de las diferencias más frecuentemente encontradas es el cambio de un nucleótido por otro, por ejemplo, A por G (codón ATA por ATG). Estas variaciones se denominan variantes de un solo nucleótido (SNV), aunque se consideran polimorfismos de un solo nucleótido (SNP) cuando su frecuencia en la población es superior al 1%-5% y no hay un efecto fuerte sobre el riesgo de alguna enfermedad. La mayoría de los SNV son silenciosos, o también conocidos como sinónimos, porque ambas variantes de la secuencia codifican el mismo aminoácido (por ejemplo, una variación de GCA a GCC, ya que ambos son codones de alanina). La mayoría de estos polimorfismos no representan ninguna diferencia para la proteína codificada, no están bajo selección evolutiva y representan las variaciones más frecuentemente encontradas en el exoma humano. La excepción son algunas mutaciones silenciosas que afectan a las señales reguladoras del empalme, o incluso a los sitios reguladores de la transcripción, alterando el empalme o la expresión del ARNm aunque no cambien los aminoácidos codificados. En otros casos, la variación de nucleótidos tiene una consecuencia en la proteína codificada y se trata de variantes no silenciosas o no sinónimas. Estos cambios pueden dar lugar a variaciones en el aminoácido codificado (por ejemplo, GAT a GAG cambia el ácido aspártico por el ácido glutámico), y se denominan mutaciones missense. Se producen alteraciones más drásticas cuando la variación de nucleótidos crea un codón de parada de la traducción (por ejemplo, TGC a TGA cambia un codón de cisteína a un codón de parada), lo que se denomina mutación sin sentido. También hay un tipo de SNV que puede detectarse mediante la secuenciación del exoma aunque no afecte a los codones de la proteína. Dado que los exones se seleccionan tras la fragmentación aleatoria del ADN, también pueden contener regiones de ADN contiguas, incluyendo secuencias de intrones vecinas e incluso promotores de genes si se capturan regiones no traducidas.24 Las regiones de intrones contienen las señales reguladoras necesarias para el empalme del ARNm. Las SNVs en estas regiones pueden alterar el splicing de varias maneras.15 Por ejemplo, el intrón afectado puede ser retenido en el ARNm maduro, o el exón contiguo puede ser empalmado (omisión de exón). Estas alteraciones cambian la secuencia de nucleótidos del ARNm maduro y, por tanto, la proteína codificada aguas abajo de la SNV.25 La secuenciación del exoma también puede detectar variaciones de la secuencia debidas a pequeñas inserciones o deleciones (indels).22 Estas variaciones pueden dar lugar a un cambio de marco, excepto cuando afectan a tres o a un múltiplo de tres nucleótidos. En ese caso, se producirían pequeñas deleciones o inserciones de aminoácidos.

Identificación de mutaciones causales

La relevancia funcional de las variantes de secuencia detectadas debe determinarse en el siguiente paso de análisis de datos. Aunque todos los humanos son casi idénticos desde el punto de vista genético, el número de diferencias de secuencia de nucleótidos entre los individuos es considerable.26 Esta heterogeneidad complica la interpretación de los datos obtenidos en los proyectos de secuenciación individuales. En la Tabla 3 se muestran algunos datos generales sobre las variaciones de las secuencias individuales. Cuando se considera el genoma completo, el número de diferencias de secuencia entre individuos se ha estimado en 4 × 106, según los datos obtenidos en el Proyecto 1000 Genomas y en proyectos más pequeños de secuenciación del genoma completo.27 Los exomas muestran un número menor, pero aún considerable, de variaciones de secuencia, que asciende a unas 20.000-25.000 entre dos individuos no relacionados.27,28 La mayoría de estas variaciones genéticas son silenciosas, como ya se ha comentado. El número de diferencias de secuencia no silenciosas entre individuos se ha estimado en 10.000. La mayoría de estas variantes existen en la población general y se transmiten durante generaciones. Se ha estimado que menos de una SNV no silente aparece de novo en cada individuo.29

Los datos obtenidos en los proyectos de secuenciación del exoma son frecuentemente filtrados para identificar todos los SNPs que están presentes en otros individuos y que no están, por tanto, relacionados con la enfermedad que se está estudiando.2,19,23 Este proceso puede realizarse mediante la comparación con bases de datos públicas donde se recopilan los SNPs que se encuentran en los proyectos de secuenciación. Una advertencia que hay que tener en cuenta es que todas las grandes bases de datos contienen un número de mutaciones probadas que causan enfermedades relativamente frecuentes. Tras este paso de filtrado quedan unos 400-700 SNV novedosos y posiblemente relevantes (Tabla 3).28 El siguiente reto es determinar cuáles de los SNV que no están presentes en la población global, si es que hay alguno, están en el origen de la enfermedad estudiada. Muchas de las diferencias observadas no estarán asociadas a ninguna incidencia de la enfermedad, y se conocen como cambios pasajeros.23 En cambio, uno o unos pocos cambios podrían tener un papel causal y se denominan cambios impulsores. El enfoque utilizado para identificar estos cambios impulsores dependerá de las circunstancias particulares del estudio. En las enfermedades con un patrón de herencia mendeliano, suele ser necesario analizar un número de individuos afectados y no afectados para encontrar las variaciones genéticas que segregan perfectamente con la enfermedad. Esta comparación es más informativa en familias grandes con pedigríes bien caracterizados. En ausencia de familias afectadas suficientemente grandes, la comparación de un número de pacientes y controles no emparentados también permite la identificación de genes conductores. Se utilizan criterios adicionales para seleccionar posibles SNVs relacionados con la enfermedad, incluyendo algoritmos in silico, que predicen la posible importancia del aminoácido mutado basándose en la conservación evolutiva, y en el impacto previsto en la estructura y función de la proteína. La función prevista de la proteína mutada y su patrón de expresión específico de los tejidos son también criterios utilizados para seleccionar las mutaciones causales putativas.

Tabla 3 Resumen de la variación de la secuencia entre los individuos

En una sección posterior se ofrecerán algunos ejemplos de este tipo de estudios. Sin embargo, a medida que se realizan más estudios, se identifican más variaciones genéticas como causantes de enfermedades hereditarias, lo que hace probable que algunos de los genes mutados en el paciente ya hayan sido descritos. Estos genes mutados pueden encontrarse en la literatura y en bases de datos especializadas como la base de datos Online Mendelian Inheritance in Man (http://www.omim.org). La posible relevancia de las mutaciones encontradas en varios genes también puede buscarse en la página Genome Ensemble (http://www.ensembl.org/) si se han descrito previamente.

El cáncer es probablemente el grupo más prevalente de enfermedades con base genética. Muchos estudios se han dirigido a determinar los genes impulsores de varios tipos de cáncer.30 El grupo emergente de genes impulsores del cáncer puede consultarse en bases de datos como el Catalogue of Somatic Mutations In Cancer (COSMIC; http://cancer.sanger.ac.uk) o The Cancer Genome Atlas (http://cancergenome.nih.gov/). Se mostrarán varios ejemplos más detallados en la sección Ejemplos del uso clínico de la secuenciación del exoma.

Comparación de la secuenciación del exoma con otros enfoques de secuenciación masiva

Secuenciación del genoma

Como se mencionó en la Introducción, la secuenciación del genoma humano completo es cada vez más asequible. En comparación con la secuenciación del exoma, la secuenciación del genoma completo es una alternativa mucho más compleja. El número de reacciones de secuenciación que deben llevarse a cabo es mucho mayor, al igual que el número de datos de secuencias de nucleótidos generados. El análisis computacional aumenta enormemente. Además, se encuentran muchas más variantes genéticas, como se muestra en la Tabla 3, lo que dificulta la identificación de los genes conductores. Sin embargo, la secuenciación del genoma proporciona una visión completa de las alteraciones genéticas presentes en el paciente, incluidas las grandes reorganizaciones del genoma. Sin embargo, la secuenciación de lectura corta de un genoma a una profundidad moderada pasará por alto las variaciones estructurales, especialmente en las regiones de baja complejidad. Esta información se resume en la Tabla 4, que compara la secuenciación del exoma con otros enfoques de secuenciación.

Como se ha mencionado anteriormente, los genes que codifican proteínas sólo representan el 3% del genoma.16 Hasta hace poco, el resto del genoma se consideraba «ADN a granel» sin mucho valor informativo. Sin embargo, estudios recientes han cambiado por completo este punto de vista. Un gran proyecto que abarca todo el genoma está estudiando la función de todas las regiones del mismo, el proyecto Encyclopedia of DNA Elements (ENCODE).31 Los resultados actualmente disponibles muestran que más del 70% del genoma está transcrito. Muchos de los transcritos generados no codifican proteínas, pero parecen tener un papel regulador en la expresión de los genes. Entre ellos se encuentran los ya conocidos miRNAs, que regulan la estabilidad del mRNA y la traducción (Figura 1), pero también más de 20.000 RNAs largos no codificantes que regulan la transcripción. Además, se han identificado muchas regiones del ADN que regulan la expresión de los genes, incluidas muchas regiones promotoras y reguladoras de la transcripción desconocidas hasta ahora (Figura 1). Esta información es de relevancia clínica porque las mutaciones en las regiones reguladoras pueden afectar a la expresión de genes específicos y tener resultados patológicos. De hecho, una gran proporción de estudios de asociación de todo el genoma han relacionado regiones del ADN, en las que no se han encontrado mutaciones que codifiquen proteínas, con condiciones patológicas.32 Los datos generados en el proyecto ENCODE han permitido revisar algunos casos, en los que se ha encontrado que las mutaciones en regiones reguladoras de la expresión de los genes son responsables de la enfermedad.31,32 Asimismo, en un ejemplo reciente, Weedon et al33 informaron de que las mutaciones en una región reguladora de la transcripción del gen PTF1A causan agenesia aislada del páncreas. Las mutaciones en las regiones reguladoras no pueden detectarse mediante la secuenciación del exoma, ya que no afectan a la proteína codificada, sino a su expresión. Por tanto, la secuenciación del genoma completo proporciona más información que la secuenciación del exoma a costa de una mayor complejidad y coste económico.

Tabla 4 Comparación de las técnicas de secuenciación masiva
Abreviaciones: ARN, ácido ribonucleico; ADN, ácido desoxirribonucleico.

Secuenciación de ARN

Las técnicas de secuenciación de ARN consisten en la conversión de poblaciones de ARN a ADN complementario (ADNc) mediante transcripción inversa y su posterior secuenciación.34,35 En el caso de la secuenciación de ARNm, la población completa de ARNm expresada en una línea celular o muestra de tejido (conocida como transcriptoma) se convierte en ADNc y se secuencia. El proceso de secuenciación del ARNm proporciona información sobre la secuencia de nucleótidos de los genes que se transcriben en la muestra analizada y, por tanto, sobre la secuencia de aminoácidos de las proteínas correspondientes. Además, el número de secuencias generadas para cada ARNm puede estimarse y es proporcional a su abundancia. Por lo tanto, se pueden determinar los niveles de expresión de los genes y compararlos con los de otras muestras, incluidas las posibles muestras de control (Tabla 4). Otra ventaja específica de la secuenciación de ARNm es que permite el estudio de eventos de splicing alternativo.36,37 Como se ha mencionado anteriormente, los transcritos primarios suelen procesarse de múltiples maneras para dar lugar a ARNm que contienen diferentes exones (Figura 1). Estos ARNm pueden identificarse mediante la secuenciación del ARNm y no mediante la secuenciación del exoma o del genoma, que determina la secuenciación del ADN que se transcribe y no la del transcrito maduro. Por lo demás, la secuenciación del ARNm y del exoma proporcionan información similar sobre la región del genoma que codifica las proteínas. La diferencia es que la secuenciación del exoma incluye todos los genes y la del ARNm se limita a los genes expresados en la muestra analizada. Por ejemplo, un estudio reciente de secuenciación de ARNm de líneas celulares linfoblastoides de 462 individuos determinó la secuencia codificante de unos 13.000 genes de los 20.078 genes humanos.38 En este ejemplo, unos 7.000 genes no se estudiaron porque no se expresaban en las líneas celulares linfoblastoides. Sin embargo, en aquellos casos en los que se conoce bien el tipo de célula o tejido afectado por una determinada enfermedad, la secuenciación del ARNm sería equivalente a la secuenciación del exoma para el estudio de las mutaciones conductoras. Otra característica de la secuenciación del ARNm es que permite detectar las variaciones de secuencia producidas por la edición del ARN.39 Una serie de ARNm se procesan de forma que se cambian algunos nucleótidos, y los cambios de adenosina a inosina son los que se producen con más frecuencia. Estas alteraciones se detectan mediante la secuenciación del ARNm, pero no se puede determinar si se producen por la edición del ARN o como consecuencia de variaciones genómicas a menos que se comparen las secuencias del ARNm y del genoma.

Determinar los niveles de expresión del ARNm puede ser muy conveniente en ciertos casos, ya que algunas enfermedades pueden estar causadas por la expresión desregulada de uno o más genes. Los cambios en los niveles de expresión pueden ser muy informativos sobre el origen genético de la enfermedad. Por ejemplo, las alteraciones en la expresión de uno o más genes en un paciente podrían indicar una disfunción en los mecanismos que regulan su expresión. Esta disfunción podría deberse a mutaciones en las regiones reguladoras de la transcripción de los genes, como se ha comentado en la sección de secuenciación del genoma. También podría deberse a alteraciones en la expresión o en la estructura de los factores reguladores de la transcripción.40 Los cambios en la expresión génica se deben con frecuencia a alteraciones en los mecanismos epigenéticos de regulación de la expresión génica, como la metilación del ADN, que no pueden detectarse mediante la secuenciación del genoma o del exoma.41 Recientemente se han desarrollado métodos para el estudio de la metilación de todo el genoma que permiten el estudio detallado de esta información epigenética.42 El cáncer es una de las enfermedades sobre las que se han realizado más estudios en los niveles de expresión génica. En un número creciente de casos, las alteraciones en la expresión de los genes o de un grupo de genes se relacionan con el diagnóstico del cáncer, el pronóstico o la predicción de la respuesta a los fármacos contra el cáncer.43 Estos cambios en la expresión de los genes se están utilizando como biomarcadores. Muchos de estos estudios están disponibles a través de la base de datos del Proyecto Anatomía del Genoma del Cáncer (http://cgap.nci.nih.gov).

Un tipo específico de proyecto de secuenciación de ARN tiene como objetivo determinar la secuencia de nucleótidos y los niveles de expresión de los pequeños ARN reguladores (miARN). Los ARN pequeños regulan la expresión de otros genes determinando la estabilidad y/o la traducción de sus ARNm (Figura 1). Por lo tanto, los cambios en los patrones de expresión de los miARN pueden tener un marcado impacto en el perfil de expresión proteica de las células y los tejidos. Se han desarrollado protocolos para la purificación y secuenciación de la población completa de miARN de una muestra dada y para determinar sus niveles de expresión.44 La mayoría de las plataformas de captura de exones incluyen también hasta el 80% de las regiones codificantes de miARN conocidas.21

Secuenciación de conjuntos de genes seleccionados

Algunas enfermedades se han estudiado ya con tanto detalle que se conocen la mayoría de los genes implicados. Este puede ser el caso de las enfermedades con un patrón de herencia mendeliano, en las que todos los casos estudiados se deben a mutaciones en alguno de los genes conocidos. Otros ejemplos son algunos tipos de cáncer que se deben predominantemente a mutaciones en un número reducido de genes. En estos casos, el enfoque más directo para caracterizar la muestra de un paciente sería determinar la secuencia de los genes previamente identificados como causantes de la enfermedad. El enfoque clásico sería amplificar todos los exones de estos genes y determinar la secuencia de nucleótidos de cada uno. El enfoque alternativo de secuenciación masiva consistiría en purificar todas las regiones genómicas putativas implicadas y determinar simultáneamente su secuencia de nucleótidos en una sola tirada.45-47 Generalmente se utilizan dos métodos para la purificación de las regiones de ADN candidatas. El primero es su amplificación mediante reacciones en cadena de la polimerasa utilizando un conjunto de oligonucleótidos específicos como cebadores. El segundo método consiste en la fragmentación del ADN de la muestra y la purificación de los fragmentos pertinentes mediante la hibridación con oligonucleótidos específicos, ya sea en solución o fijados a un soporte sólido, como se ha descrito anteriormente para la purificación de exones.48 Las regiones seleccionadas pueden contener exones codificadores de proteínas y también otras regiones de ADN, como las regiones reguladoras de la transcripción. Estas regiones suelen corresponder a unos pocos cientos de genes y, por lo tanto, el análisis de los datos de la secuencia generada es mucho más fácil que en otros enfoques de secuenciación masiva. La principal limitación es que se trata de un enfoque basado en hipótesis que no permite detectar mutaciones en genes no relacionados previamente con la enfermedad estudiada (Tabla 4).

Ejemplos del uso clínico de la secuenciación del exoma

El uso más común de la secuenciación del exoma es probablemente para el diagnóstico de enfermedades monogénicas. Se han descrito más de 3.000 trastornos monogénicos, aunque las causas genéticas moleculares de la mayoría de ellos aún se desconocen.1 La secuenciación del exoma puede utilizarse para identificar estas mutaciones, como comentan Kuhlenbäumer et al1 en una reciente revisión. En algunos de los primeros estudios, la secuenciación del exoma se utilizó para identificar las mutaciones genéticas responsables de enfermedades familiares como los síndromes de Kabuki,49 Schinzel-Giedion,50 Joubert,51 e hiperfosfatasia de retraso mental,52 malformaciones cerebrales graves,53 o la conocida esclerosis lateral amiotrófica.54 La secuenciación del exoma también se ha utilizado para descubrir nuevas mutaciones presentes en un caso esporádico de retraso mental.29 Además, esta técnica se ha utilizado para el diagnóstico, por ejemplo, de la diarrea de cloruro congénita,55 la enfermedad inflamatoria intestinal,56 la enfermedad de Charcot-Marie-Tooth,57 la diabetes mellitus neonatal,58 o el síndrome de Brown-Vialetto-van Laere.59 El estudio comunicado por Worthey et al56 representa un ejemplo relevante de la aplicación clínica de la secuenciación del exoma. Un niño varón se presentó con una enfermedad similar a la enfermedad de Crohn sin un diagnóstico definitivo, a pesar de una evaluación clínica exhaustiva. Los autores decidieron utilizar un enfoque de secuenciación del exoma para identificar la(s) mutación(es) causante(s). El análisis de los datos de la secuencia detectó 16.124 variantes en el paciente. El filtrado de los datos teniendo en cuenta las nuevas variantes presentes en homocigosidad, hemizigosidad o heterocigosidad compuesta, y afectando a residuos de aminoácidos altamente conservados que se prevé que sean perjudiciales para la función de la proteína, permitió a los autores seleccionar una mutación en el gen inhibidor de la apoptosis ligado al cromosoma X (XIAP). Los estudios funcionales demostraron la relevancia de esta mutación en la respuesta proinflamatoria observada en la paciente. A partir de la identificación de esta mutación, se realizó un trasplante alogénico de células progenitoras hematopoyéticas. Por lo tanto, la secuenciación del exoma permitió la identificación de una mutación no caracterizada para hacer un diagnóstico molecular para un paciente individual, en el marco de una nueva enfermedad, que dio lugar a un plan de gestión. El uso de la secuenciación del exoma en el descubrimiento de nuevas mutaciones causales y en el diagnóstico se ha revisado recientemente.60,61

El estudio de enfermedades comunes y complejas también se ha abordado mediante la secuenciación del exoma. Los estudios de asociación de todo el genoma han demostrado que algunas variantes genéticas confieren riesgo para una serie de enfermedades. Ejemplos bien caracterizados son la apolipoproteína E en la enfermedad de Alzheimer, el factor H del complemento en la degeneración macular, o la glucocerebrosidasa/repetición rica en leucina quinasa 2 en la enfermedad de Parkinson.62-64 Se ha discutido el posible uso de la secuenciación del exoma para el estudio de enfermedades complejas.2,28 Una limitación del uso de la secuenciación del exoma en estos estudios es que la mayoría de las variantes asociadas al fenotipo se encuentran distales a las regiones de codificación de proteínas, lo que haría que la secuenciación del genoma completo fuera un mejor enfoque.32 Algunas de estas variantes genéticas pueden afectar a la funcionalidad de las regiones reguladoras de la transcripción que controlan la expresión génica. El proyecto ENCODE31,65 ha realizado un análisis de estas regiones reguladoras en todo el genoma, y se descubrió que varias variantes genéticas en regiones específicas del cromosoma 5 (por ejemplo) son sitios de unión para el factor de transcripción, GATA2, que están fuertemente asociados con la enfermedad de Crohn y otras enfermedades inflamatorias.

Los cánceres son enfermedades causadas por la acumulación de cambios genómicos que resultan en la alteración de múltiples procesos biológicos.19 A diferencia de las alteraciones genéticas monogénicas comentadas anteriormente, la mayoría de las mutaciones impulsoras del cáncer no están presentes en el tejido normal del paciente; una gran proporción de estas mutaciones residen en regiones codificadoras de proteínas y pueden detectarse mediante la secuenciación del exoma.19 Sin embargo, otro grupo importante de alteraciones genéticas son las grandes reorganizaciones genómicas, como deleciones, inversiones o translocaciones, que no pueden detectarse mediante la secuenciación del exoma.66 A pesar de esta limitación, la secuenciación del exoma se ha aplicado al descubrimiento de genes impulsores del cáncer utilizando dos estrategias generales: la comparación del exoma de los tumores con el de los tejidos sanos del mismo paciente; o la comparación de un número de exomas de pacientes no relacionados con el de un número similar de controles sanos.67-70 Actualmente se están llevando a cabo amplios estudios que implican la secuenciación del exoma o del genoma de una gran cohorte de pacientes con cáncer y controles para identificar todos los genes impulsores del cáncer.19,71,72 El proyecto de los 5.000 genomas del cáncer es un ejemplo,73 ya que pretende secuenciar el genoma de 50 de los tipos de cáncer más comunes. Los datos disponibles ya han proporcionado un panorama genómico general de los cánceres más comunes, como han revisado Vogelstein et al.3 Se han identificado unos 140 genes que promueven la tumorigénesis cuando están alterados, y esto se puede encontrar en la base de datos COSMIC mencionada anteriormente.3 Detectar la mutación de uno de estos genes en el exoma de una muestra de cáncer puede ser un paso importante hacia el diagnóstico y el tratamiento adecuados del paciente. Los datos actuales también dan una idea de la complejidad del genoma del cáncer.3 Los tumores sólidos comunes presentan un número medio de 33 a 66 mutaciones somáticas no silentes.3 Este número aumenta a más de 200 en los tumores inducidos por agentes mutagénicos, como el cáncer de pulmón y el melanoma, e incluso a más de 1.000 en los tumores deficientes en los mecanismos de reparación del ADN o en la ADN polimerasa E.3 En cambio, los tumores líquidos y pediátricos presentan menos de diez mutaciones somáticas.3 Una característica importante de los tumores es que evolucionan rápidamente y se vuelven heterogéneos, de manera que se pueden encontrar diferentes mutaciones en muestras de un mismo paciente recogidas en diferentes regiones o en diferentes periodos de tiempo a lo largo del tratamiento, como ha demostrado recientemente la secuenciación del exoma.74,75 A pesar de esta complejidad, están surgiendo algunos conceptos unificadores, y la mayoría de los genes conductores del cáncer conocidos participan en una o más de las 12 vías que regulan la supervivencia celular, el destino de las células y el mantenimiento del genoma.3,19 En este escenario, la secuenciación del exoma está empezando a utilizarse para el diagnóstico del cáncer mediante la identificación de mutaciones conductoras, por ejemplo, en el cáncer de próstata.76

La secuenciación del exoma también puede ser útil para el tratamiento del cáncer. La presencia de algunas mutaciones genéticas puede conferir sensibilidad o resistencia a un determinado fármaco, lo que se ha denominado farmacogenómica. Por ejemplo, desde hace varios años se conoce el uso de inhibidores de la proteína tirosina quinasa en los cánceres que sobreexpresan las proteínas oncogén viral de la leucemia murina de Abelson 1 (ABL) o el receptor del factor de crecimiento epidérmico (EGFR). Sin embargo, los enfoques de secuenciación del exoma y del genoma están revelando muchas más respuestas de mutación a las asociaciones de tratamiento (como se destaca en una revisión77). Un ejemplo informativo es la reciente publicación del exoma del panel de células NCI-60.78 Este panel contiene 60 líneas celulares bien caracterizadas de nueve tipos de cáncer y se ha utilizado en una amplia gama de estudios biológicos y farmacológicos.79 La secuencia de nucleótidos del exoma de estas células se determinó para establecer los genes conductores del cáncer mutados en cada una de ellas. Además de proporcionar una lista de posibles nuevos genes impulsores del cáncer, los autores estudiaron la posible correlación entre el genotipo de cada línea celular y la respuesta previamente determinada a un gran número de agentes anticancerígenos. Se encontró una correlación entre mutaciones genéticas específicas y la respuesta a varios fármacos, revelando la posible importancia de la secuenciación del exoma en la selección de un tratamiento personalizado. La secuenciación del exoma también puede utilizarse para predecir la predisposición al cáncer. Se pueden encontrar algunos ejemplos en una revisión reciente centrada en el cáncer colorrectal y que utiliza la secuenciación del genoma completo.72

Desafíos médicos de la secuenciación del exoma

La secuenciación del exoma promete mejoras significativas en los diagnósticos, pronósticos y tratamientos personalizados de los pacientes. Sin embargo, la aplicación extensiva de esta tecnología todavía requiere una serie de mejoras, así como la definición de importantes consideraciones éticas y médicas, como se ha discutido en recientes revisiones.23,27,60,61,71,77 Los retos técnicos incluyen el desarrollo de técnicas más eficientes de captura de exones, secuenciación y alineación para obtener una representación completa y uniforme de todos los exones de la secuencia. También son necesarias mejoras en las herramientas de software de análisis de datos para la detección rápida y precisa de variantes patológicas. La secuenciación extensiva del exoma requerirá la implementación de equipos especializados y la contratación de equipos de especialistas con la experiencia adecuada para generar las secuencias y analizar e interpretar los datos obtenidos.

El uso de la secuenciación del exoma para el diagnóstico también requerirá la implementación de directrices y regulaciones técnicas. Habrá que normalizar parámetros como la profundidad de la secuenciación, la cobertura de exones, las métricas de calidad de los datos de la secuencia de nucleótidos o la llamada a la alineación. También habrá que regular el almacenamiento de los datos.

También hay una serie de cuestiones éticas complejas. Una cuestión importante está relacionada con la información que debe proporcionarse al paciente. La secuenciación del exoma podría detectar variaciones genéticas que no están relacionadas con la enfermedad diagnosticada. El paciente podría presentar variantes genéticas que representan factores de riesgo o podrían ser causantes de otras enfermedades. ¿Qué información debe devolverse al paciente? ¿Cuáles serían las pruebas necesarias para considerar que una variante genética está relacionada con una enfermedad? La propiedad, el acceso y el almacenamiento de los datos son otras cuestiones relevantes. ¿Deben conservarse los datos generados para un posible uso futuro durante la vida del paciente? Estas y otras consideraciones éticas suscitarán probablemente una considerable controversia80 y requerirán un amplio debate para llegar a un acuerdo sobre los criterios que deben utilizarse en la práctica clínica.

Conclusión

La secuenciación del exoma es ya una poderosa herramienta utilizada para determinar la base molecular de las enfermedades genéticas. La profundidad del análisis genético es menor que la de la secuenciación del genoma completo, ya que no se detectan las variaciones genéticas en las regiones que no codifican proteínas. Sin embargo, el reducido número de secuencias y de análisis de secuencias que requiere la secuenciación del exoma la convierte en un enfoque más asequible en la práctica clínica. Por lo tanto, la secuenciación del exoma será probablemente la técnica de elección para el análisis inicial de los pacientes, al menos hasta que disminuya el precio de la secuenciación del genoma completo y se mejore el considerable procedimiento de análisis de datos. Una limitación importante de la aplicación de la secuenciación del exoma en la práctica clínica es que aún se desconoce el significado funcional de la mayoría de las variantes genéticas previstas. Esta situación está cambiando rápidamente, ya que cada vez se determinan más variantes genéticas asociadas a enfermedades y se ponen a disposición en bases de datos públicas. Es plausible que en unos años se conozcan la mayoría de las variaciones genéticas relacionadas con el riesgo de adquirir una enfermedad, con un diagnóstico molecular preciso, una predicción de la evolución de la enfermedad y una respuesta farmacológica. El conocimiento preciso del exoma, o genoma, del paciente será entonces determinante en la práctica médica.

Agradecimientos

Agradezco a Rosario Perona y Juliette Siegfried (ServingEdit.com) la revisión crítica del manuscrito.

Divulgación

El autor no informa de ningún conflicto de intereses en este trabajo.

Kuhlenbäumer G, Hullmann J, Appenzeller S. Novel genomic techniques open new avenues in the analysis of monogenic disorders. Hum Mutat. 2011;32(2):144-151.

Kiezun A, Garimella K, Do R, et al. Exome sequencing and the genetic basis of complex traits. Nat Genet. 2012;44(6):623-630.

Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA Jr, Kinzler KW. Paisajes del genoma del cáncer. Science. 2013;339(6127):1546-1558.

Kirwan M, Dokal I. Disqueratosis congénita: un trastorno genético de muchas caras. Clin Genet. 2008;73(2):103-112.

Walne AJ, Dokal I. Advances in the understanding of dyskeratosis congenita. Br J Haematol. 2009;145(2):164-172.

Brady PD, Vermeesch JR. Microarrays genómicos: una visión general de la tecnología. Prenat Diagn. 2012;32(4):336-343.

Hehir-Kwa JY, Pfundt R, Veltman JA, de Leeuw N. ¿Patogénico o no? Evaluación de la relevancia clínica de las variantes del número de copias. Clin Genet. 2013;84(5):415-421.

Simons A, Sikkema-Raddatz B, de Leeuw N, Konrad NC, Hastings RJ, Schoumans J. Genome-wide arrays in routine diagnostics of hematological malignancies. Hum Mutat. 2012;33(6):941-948.

Metzker ML. Tecnologías de secuenciación – la próxima generación. Nat Rev Genet. 2010;11(1):31-46.

Sastre L. New DNA sequencing technologies open a promising era for cancer research and treatment. Clin Transl Oncol. 2011;13(5):301-306.

Lander ES, Linton LM, Birren B, et al. International Human Genome Sequencing Consortium. Secuenciación y análisis inicial del genoma humano. Nature. 2001;409(6822):860-921.

Abecasis GR, Auton A, Brooks LD, et al. 1000 Genomes Project Consortium. Un mapa integrado de la variación genética de 1.092 genomas humanos. Nature. 2012;491(7422):56-65.

Yang Y, Liu R, Xie H, et al. Advances in nanopore sequencing technology. J Nanosci Nanotechnol. 2013;13(7):4521-4538.

Chen YS, Lee CH, Hung MY, Pan HA, Chiou JC, Huang GS. Secuenciación de ADN utilizando mediciones de conductancia eléctrica de una ADN polimerasa. Nat Nanotechnol. 2013;8(6):452-458.

Lu ZX, Jiang P, Xing Y. Variación genética del splicing alternativo del pre-mRNA en poblaciones humanas. Wiley Interdiscip Rev RNA. 2012;3(4):581-592.

Pruitt KD, Harrow J, Harte RA, et al. The consensus coding sequence (CCDS) project: Identificación de un conjunto de genes codificadores de proteínas comunes para los genomas humano y de ratón. Genome Res. 2009;19(7):1316-1323.

Harrow J, Frankish A, González JM, et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 2012;22(9):1760-1774.

Teer JK, Mullikin JC. Secuenciación del exoma: el punto dulce antes de los genomas completos. Hum Mol Genet. 2010;19(R2):R145-R151.

Liu X, Wang J, Chen L. Whole-exome sequencing reveals recurrent somatic mutation networks in cancer. Cancer Lett. 2013;340(2):270-276.

Parla JS, Iossifov I, Grabill I, Spector MS, Kramer M, McCombie WR. Un análisis comparativo de la captura del exoma. Genome Biol. 2011; 12(9):R97.

Sulonen AM, Ellonen P, Almusa H, et al. Comparación de los métodos de captura del exoma basados en soluciones para la secuenciación de próxima generación. Genome Biol. 2011;12(9):R94.

Clark MJ, Chen R, Lam HY, et al. Performance comparison of exome DNA sequencing technologies. Nat Biotechnol. 2011;29(10):908-914.

Gullapalli RR, Desai KV, Santana-Santos L, Kant JA, Becich MJ. Next generation sequencing in clinical medicine: Desafíos y lecciones para la patología y la informática biomédica. J Pathol Inform. 2012;3:40.

Samuels DC, Han L, Li J, et al. Finding the lost treasures in exome sequencing data. Trends Genet. 2013;29(10):593-599.

Taneri B, Asilmaz E, Gaasterland T. Biomedical impact of splicing mutations revealed through exome sequencing. Mol Med. 2012;18:314-319.

Fu W, O’Connor TD, Jun G, et al; NHLBI Exome Sequencing Project. El análisis de 6.515 exomas revela el origen reciente de la mayoría de las variantes de codificación de proteínas humanas. Nature. 2013;493(7431):216-220.

Marian AJ. Desafíos en las aplicaciones médicas de los descubrimientos de la secuenciación del exoma/genoma completo. Trends Cardiovasc Med. 2012;22(8):219-223.

Singleton AB. Secuenciación del exoma: una tecnología transformadora. Lancet Neurol. 2011;10(10):942-946.

Vissers LE, de Ligt J, Gilissen C, et al. Un paradigma de novo para el retraso mental. Nat Genet. 2010;42(12):1109-1112.

González-Pérez A, Pérez-Llamas C, Deu-Pons J, et al. IntOGen-mutaciones identifica impulsores del cáncer en todos los tipos de tumores. Nat Methods. 2013;10(11):1081-1082.

Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M; ENCODE Project Consortium. Una enciclopedia integrada de elementos de ADN en el genoma humano. Nature. 2012;489(7414):57-74.

Hardison RC. Los datos epigenéticos de todo el genoma facilitan la comprensión de los estudios de asociación de susceptibilidad a las enfermedades. J Biol Chem. 2012;287(37):30932-30940.

Weedon MN, Cebola I, Patch AM, et al. International Pancreatic Agenesis Consortium. Mutaciones recesivas en un potenciador distal de PTF1A causan agenesia pancreática aislada. Nat Genet. 2014;46(1):61-64.

Wang Z, Gerstein M, Snyder M. RNA-Seq: una herramienta revolucionaria para la transcriptómica. Nat Rev Genet. 2009;10(1):57-63.

Mutz KO, Heilkenbrinker A, Lönne M, Walter JG, Stahl F. Transcriptome analysis using next-generation sequencing. Curr Opin Biotechnol. 2013;24(1):22-30.

Hitzemann R, Bottomly D, Darakjian P, et al. Genes, behavior and next-generation RNA sequencing. Genes Brain Behav. 2013;12(1):1-12.

Costa V, Aprile M, Esposito R, Ciccodicola A. RNA-Seq and human complex diseases: recent accomplishments and future perspectives. Eur J Hum Genet. 2013;21(2):134-142.

Lappalainen T, Sammeth M, Friedländer MR, et al; Geuvadis Consortium; Geuvadis Consortium. La secuenciación del transcriptoma y del genoma descubre la variación funcional en los seres humanos. Nature. 2013; 501(7468):506-511.

Slotkin W, Nishikura K. La edición de ARN de adenosina a rinosina y las enfermedades humanas. Genome Med. 2013;5:105.

Lee TI, Young RA. Regulación transcripcional y su mala regulación en la enfermedad. Cell. 2013;152(6):1237-1251.

Suvà ML, Riggi N, Bernstein BE. Reprogramación epigenética en el cáncer. Science. 2013;339(6127):1567-1570.

Li P, Demirci F, Mahalingam G, Demirci C, Nakano M, Meyers BC. Un flujo de trabajo integrado para el análisis de la metilación del ADN. J Genet Genomics. 2013;40(5):249-260.

Chibon F. Cancer gene expression signatures – the rise and fall? Eur J Cancer. 2013;49:2000-2009.

Dedeoğlu BG. Enfoques de alto rendimiento para el análisis de expresión de microARN. Methods Mol Biol. 2014;1107:91-103.

Ni T, Wu H, Song S, Jelley M, Zhu J. Selective gene amplification for high-throughput sequencing. Recent Pat DNA Gene Seq. 2009; 3(1):29-38.

Barretina J, Caponigro G, Stransky N, et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature. 2012;483(7391):603-607.

Garnett MJ, Edelman EJ, Heidorn SJ, et al. Identificación sistemática de marcadores genómicos de sensibilidad a los fármacos en las células cancerosas. Nature. 2012;483(7391):570-575.

Hoischen A, Gilissen C, Arts P, et al. Secuenciación masiva en paralelo de genes de ataxia tras enriquecimiento basado en arrays. Hum Mutat. 2010;31(4):494-499.

Ng SB, Bigham AW, Buckingham KJ, et al. La secuenciación del exoma identifica mutaciones en MLL2 como causa del síndrome de Kabuki. Nat Genet. 2010;42(9):790-793.

Hoischen A, van Bon BW, Gilissen C, et al. De novo mutations of SETBP1 cause Schinzel-Giedion syndrome. Nat Genet. 2010;42(6):483-485.

Edvardson S, Shaag A, Zenvirt S, et al. El síndrome de Joubert 2 (JBTS2) en los judíos asquenazíes está asociado a una mutación TMEM216. Am J Hum Genet. 2010;86(1):93-97.

Krawitz PM, Schweiger MR, Rödelsperger C, et al. Identity-by-descent filtering of exome sequence data identifies PIGV mutations in hyperphosphatasia mental retardation syndrome. Nat Genet. 2010;42(10):827-829.

Bilgüvar K, Oztürk AK, Louvi A, et al. Whole-exome sequencing identifies recessive WDR62 mutations in severe brain malformations. Nature. 2010;467(7312):207-210.

Johnson JO, Mandrioli J, Benatar M, et al. ITALSGEN Consortium. La secuenciación del exoma revela mutaciones VCP como causa de la ELA familiar. Neuron. 2010;68(5):857-864.

Choi M, Scholl UI, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 2009;106(45):19096-19101.

Worthey EA, Mayer AN, Syverson GD, et al. Making a definitive diagnosis: successful clinical application of whole exome sequencing in a child with intractable inflammatory bowel disease. Genet Med. 2011;13(3):255-262.

Montenegro G, Powell E, Huang J, et al. La secuenciación del exoma permite una rápida identificación de genes en una familia de Charcot-Marie-Tooth. Ann Neurol. 2011;69(3):464-470.

Bonnefond A, Durand E, Sand O, et al. Diagnóstico molecular de la diabetes mellitus neonatal mediante la secuenciación de próxima generación del exoma completo. PLoS One. 2010;5(10):e13630.

Johnson JO, Gibbs JR, Van Maldergem L, Houlden H, Singleton AB. Secuenciación del exoma en el síndrome de Brown-Vialetto-van Laere. Am J Hum Genet. 2010;87(4):567-9; respuesta del autor 569.

Bras JM, Singleton AB. Secuenciación del exoma en la enfermedad de Parkinson. Clin Genet. 2011;80(2):104-109.

Topper S, Ober C, Das S. Exome sequencing and the genetics of intellectual disability. Clin Genet. 2011;80(2):117-126.

Corder EH, Saunders AM, Strittmatter WJ, et al. Dosis genética del alelo de la apolipoproteína E tipo 4 y el riesgo de enfermedad de Alzheimer en familias de inicio tardío. Science. 1993;261(5123):921-923.

Klein RJ, Zeiss C, Chew EY, et al. Complement factor H polymorphism in age-related macular degeneration. Science. 2005;308(5720):385-389.

Tan EK. Identificación de una variante de riesgo genético común (LRRK2 Gly2385Arg) en la enfermedad de Parkinson. Ann Acad Med Singapore. 2006;35(11):840-842.

Libioulle C, Louis E, Hansoul S, et al. Novel Crohn disease locus identified by genome-wide association maps to a gene desert on 5p13.1 and modulates expression of PTGER4. PLoS Genet. 2007;3(4):e58.

Stephens PJ, Greenman CD, Fu B, et al. Reordenamiento genómico masivo adquirido en un único evento catastrófico durante el desarrollo del cáncer. Cell. 2011;144(1):27-40.

Jones S, Zhang X, Parsons DW, et al. Core signaling pathways in human pancreatic cancers revealed by global genomic analyses. Science. 2008;321(5897):1801-1806.

Parsons DW, Jones S, Zhang X, et al. An integrated genomic analysis of human glioblastoma multiforme. Science. 2008;321(5897):1807-1812.

Timmermann B, Kerick M, Roehr C, et al. Somatic mutation profiles of MSI and MSS colorectal cancer identified by whole exome next generation sequencing and bioinformatics analysis. PLoS One. 2010;5(12):e15661.

Varela I, Tarpey P, Raine K, et al. La secuenciación del exoma identifica una mutación frecuente del gen del complejo SWI/SNF PBRM1 en el carcinoma renal. Nature. 2011;469(7331):539-542.

Ku CS, Cooper DN, Roukos DH. Relevancia clínica de la secuenciación del genoma del cáncer. World J Gastroenterol. 2013;19(13):2011–2018.

Kilpivaara O, Aaltonen LA. Diagnóstico de la secuenciación del genoma del cáncer y la contribución de las variantes de la línea germinal. Science. 2013;339(6127):1559-1562.

Hudson TJ, Anderson W, Artez A, et al; International Cancer Genome Consortium. Red internacional de proyectos del genoma del cáncer. Nature. 2010;464(7291):993-998.

Gerlinger M, Rowan AJ, Horswell S, et al. Intratumor heterogeneity and branched evolution revealed by multiregion sequencing. N Engl J Med. 2012;366(10):883-892.

Ren SC, Qu M, Sun YH. Investigando la heterogeneidad intratumoral mediante la secuenciación de células individuales. Asian J Androl. 2013;15(6):729-734.

Hieronymus H, Sawyers CL. Recorriendo el paisaje genómico del cáncer de próstata desde el diagnóstico hasta la muerte. Nat Genet. 2012;44(6):613-614.

McLeod HL. Farmacogenómica del cáncer: promesa temprana, pero se necesita un esfuerzo concertado. Science. 2013;339(6127):1563-1566.

Abaan OD, Polley EC, Davis SR, et al. The exomes of the NCI-60 panel: a genomic resource for cancer biology and systems pharmacology. Cancer Res. 2013;73(14):4372-4382.

Weinstein JN. Descubrimiento de fármacos: Las líneas celulares luchan contra el cáncer. Nature. 2012;483:544-545.

Shahmirzadi L, Chao EC, Palmaer E, Parra MC, Tang S, González KD. Decisiones de los pacientes para la divulgación de los hallazgos secundarios entre los primeros 200 individuos sometidos a la secuenciación del exoma de diagnóstico clínico. Genet Med. Epub October 10, 2013.

Flicek P, Amode MR, Barrell D, et al. Ensembl 2011. Nucleic Acids Res. 2011;39:D800-D806.

Pruitt KD, Tatusova T, Klimke W, Maglott DR. Secuencias de referencia del NCBI: estado actual, política y nuevas iniciativas. Nucleic Acids Res. 2009;37:D32-D36.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.