Introduzione

Numerose malattie hanno una base genetica. Alcune sono la conseguenza dell’assenza o della disfunzione di una data proteina a causa di mutazioni nel gene codificante. Questo è il caso delle malattie di eredità mendeliana, come la malattia di Huntington, la talassemia e circa 1.000 altre malattie rare ereditate.1 Molte malattie hanno una base genetica, anche se non sono esclusivamente dovute alla mutazione di un singolo gene, e un numero crescente di varianti genetiche e polimorfismi vengono identificati come fattori di rischio per malattie complesse.2 Il cancro è una malattia genetica causata dalla mutazione di uno o più geni che o aumentano il rischio di cancro (come le mutazioni della linea germinale), o promuovono il cancro (oncogeni), o compromettono i meccanismi cellulari che controllano la proliferazione cellulare (geni soppressori), come accade con le mutazioni somatiche.3

L’identificazione delle basi genetiche di queste malattie è stato un progetto impegnativo e laborioso, fino a pochi anni fa. Questi progetti spesso iniziavano con l’identificazione di una regione del genoma possibilmente coinvolta nella trasmissione della malattia attraverso studi di associazione genetica.1 L’analisi di grandi famiglie con diversi membri affetti è solitamente richiesta per definire una regione del genoma che sia altamente correlata alla trasmissione della malattia. Generalmente, questa regione contiene diversi geni che devono essere sequenziati per identificare una mutazione genica presente in tutti gli individui affetti e non nei loro parenti sani, nel caso di eredità dominante. Nel caso di trasmissione recessiva, la mutazione dovrebbe essere presente in entrambi gli alleli dei membri affetti e in uno, o nessuno, degli alleli dei parenti non affetti.

La diagnosi delle malattie genetiche era, e nella maggior parte dei casi è ancora, altrettanto laboriosa. Nel migliore dei casi, la malattia può avere origine da una mutazione in un solo gene. La diagnosi richiederebbe la determinazione della sequenza nucleotidica di quel gene soltanto. In genere, il gene viene amplificato in diversi frammenti mediante reazioni a catena della polimerasi e viene determinata la sequenza nucleotidica di ciascuno. Spesso, la malattia può essere causata da mutazioni in uno qualsiasi dei diversi geni, e tutti devono essere amplificati e sequenziati per trovare l’origine genetica della malattia nei pazienti affetti. Per esempio, nella discheratosi congenita, le mutazioni possono essere trovate in uno qualsiasi dei geni dkc, tert, terc, NOP10, NH2, o TINF2, e il numero di geni colpiti può essere ancora maggiore poiché esiste una frazione di pazienti in cui la mutazione causale non è stata identificata.4,5 La sequenza nucleotidica di tutti questi geni deve essere determinata per la diagnosi molecolare di ogni paziente. Troviamo diversi geni mutati in vari tipi di cancro.3 La diagnosi molecolare richiede la determinazione della sequenza nucleotidica di molti di questi geni. Attualmente, questo è un processo laborioso e costoso che non può essere utilizzato per una vasta popolazione di pazienti. In pratica, solo alcuni geni che sono mutati in una percentuale importante di pazienti affetti da alcuni tipi di cancro vengono sequenziati per la diagnosi e il trattamento.

Solo negli ultimi anni sono state sviluppate tecniche per la rilevazione simultanea di più varianti di sequenza in un dato campione. Molte di esse sono basate sulla tecnologia dei microarray di acido desossiribonucleico (DNA). Negli array di genotipizzazione, gli oligonucleotidi che contengono le mutazioni attivamente identificate relative a una data malattia sono macchiati su un vetrino. Il campione di DNA di un paziente viene aggiunto sopra il vetrino e gli oligonucleotidi ibridanti vengono identificati. Milioni di mutazioni conosciute possono essere testate in una singola ibridazione microarray.6 Le variazioni del numero di copie possono anche essere analizzate usando microarray di DNA progettati per rilevare la presenza di regioni di DNA che sono duplicate o eliminate nel DNA del paziente.7 Queste tecniche sono frequentemente usate nella ricerca medica e per la diagnosi clinica.8

Tuttavia, un passo importante nella medicina molecolare è stato il recente sviluppo di tecnologie di sequenziamento massivo che permettono di determinare la sequenza nucleotidica del DNA di un paziente in un breve periodo di tempo e ad un prezzo accessibile.9,10 Queste metodologie sono in uso dal 2005 e si basano sulla determinazione simultanea della sequenza nucleotidica di milioni di frammenti di DNA. Sono state chiamate sequenziamento di seconda generazione, sequenziamento di prossima generazione, sequenziamento profondo o sequenziamento massivo parallelo. Migliaia di milioni di sequenze nucleotidiche sono determinate in non più di 2 settimane utilizzando queste macchine. Come esempio della capacità di questi nuovi sistemi di sequenziamento, si noti che la pietra miliare del sequenziamento del primo genoma umano, pubblicato nel 2001,11 ha richiesto il lavoro coordinato di 23 laboratori, che ha richiesto 13 anni, con un costo totale di circa 3 miliardi di dollari. Con le nuove metodologie, il sequenziamento di un genoma umano richiede un laboratorio e circa 2 settimane, con un costo approssimativo di 4.000 dollari.

La disponibilità delle moderne metodologie di sequenziamento sta producendo la crescita esponenziale delle nostre conoscenze sul genoma umano, la variabilità tra gli individui e l’identificazione delle varianti genetiche nelle malattie. Per esempio, queste metodologie sono il fondamento di un Progetto 1000 Genomi in corso,12 volto a determinare la sequenza nucleotidica completa di circa 1.000 persone di diverse origini geografiche ed etniche per determinare la variazione media della sequenza tra gli individui e per identificare i polimorfismi più frequenti.

Le tecnologie di sequenziamento massivo si stanno attualmente evolvendo ad un ritmo veloce. Vengono sviluppate macchine più piccole e più veloci e vengono introdotti nuovi metodi di sequenziamento. Un obiettivo importante, per esempio, è quello di sequenziare una singola molecola di DNA da una singola cellula.13,14 A parte le sfide tecniche, i progressi stanno diminuendo costantemente il prezzo del sequenziamento del DNA così che l’obiettivo di sequenziare un singolo genoma umano per 1.000 dollari sembra essere a portata di mano in pochi anni. Attualmente, il sequenziamento di un intero genoma umano e l’analisi di tutti i dati di sequenza generati è complesso, costoso e richiede tempo, e molti studi vengono condotti su una parte più piccola del genoma. In particolare, molta attenzione è attualmente rivolta al sequenziamento della regione del genoma che codifica le proteine, nota come esoma. Il sequenziamento dell’esoma è molto più accessibile del sequenziamento dell’intero genoma, e le possibilità, i vantaggi e i limiti di questa tecnica saranno discussi in questa recensione.

Cos’è un esoma?

Quasi tutti i geni umani codificanti le proteine hanno una struttura discontinua. La regione che codifica le proteine è frammentata in diversi pezzi, chiamati esoni. Gli esoni sono collegati da frammenti di DNA non codificanti le proteine, o introni, come mostrato schematicamente nella Figura 1. I geni sono trascritti dalla regione del promotore sotto il controllo di diverse regioni regolatrici, che sono presenti in diverse posizioni rispetto al gene, a monte, a valle, o anche all’interno del gene. La trascrizione crea un trascritto primario che contiene esoni e introni. I successivi processi di splicing dell’acido ribonucleico (RNA) eliminano gli introni e uniscono gli esoni per generare l’RNA messaggero maturo (mRNA) che contiene solo una regione continua codificante le proteine. Studi recenti dimostrano che i trascritti primari della maggior parte dei geni possono essere spliccati in diversi modi, dando origine a vari mRNA maturi contenenti combinazioni specifiche di esoni, noti come varianti alternative di splicing (Figura 1). Questi mRNA codificano per isoforme proteiche che hanno alcune regioni comuni, ma che differiscono anche da altre, a seconda degli esoni incorporati.15

L’analisi del genoma umano ha dimostrato che i geni che codificano le proteine rappresentano una piccola parte del DNA, solo circa il 3%.16 Gli esoni rappresentano una frazione ancora più piccola, l’1% del genoma.16 Un riassunto di questi dati è mostrato nella Tabella 1. Il genoma umano è composto da 3,3 ×109 paia di basi (bp) e contiene 20.078 geni codificanti le proteine.17 Ogni gene è diviso in un numero medio di otto esoni, ciascuno lungo circa 170 bp. Tutti gli esoni nel loro insieme contengono circa 3 ×107 bp. Tuttavia, il sequenziamento di tutti gli esoni fornisce le stesse informazioni sulla sequenza aminoacidica delle proteine codificate del sequenziamento dell’intero genoma, con l’eccezione delle mutazioni che alterano lo splicing dell’mRNA, come verrà discusso nella sezione Sequenziamento dell’esoma e analisi dei dati. Questo sistema di sequenziamento di tutti gli esoni è stato chiamato sequenziamento dell’esoma ed è diventato un metodo valido per rilevare le variazioni nella sequenza aminoacidica di tutte le proteine umane.18 La differenza di dimensioni molto marcata rende l’exome sequencing molto più economico del sequenziamento del genoma, e questo facilita le analisi computazionali e funzionali dei dati di sequenza generati.

Figura 1 Rappresentazione schematica della struttura ed espressione genica.
Note: I geni codificanti le proteine sono composti da esoni che contengono informazioni codificanti le proteine (caselle), separati da introni non codificanti (linee). Le caselle grigie indicano le regioni codificanti le proteine degli esoni e le caselle bianche rappresentano le regioni non tradotte 5′ e 3′ dell’mRNA. I geni sono trascritti dalle regioni del promotore, immediatamente a monte dell’esone 1. Il sito di inizio della trascrizione è indicato da una freccia. L’espressione genica è controllata da un certo numero di regioni TR che possono essere situate a monte o a valle del gene, a distanze variabili, o all’interno del gene (più frequentemente negli introni). La stabilità dell’mRNA e la traduzione possono essere regolate dal legame dei microRNA a siti specifici nella regione non tradotta 3′ (indicata dagli asterischi). I geni sono trascritti in RNA primari contenenti introni ed esoni. I successivi processi di splicing eliminano gli introni per generare mRNA maturi. I processi di splicing alternativo possono dare origine a diversi mRNA, a seconda degli esoni che contengono (mRNA1, mRNA2), che codificano per diverse isoforme proteiche.
Abbreviazioni: TR, regione di regolazione della trascrizione; RNA, acido ribonucleico; mRNA, acido ribonucleico messaggero.

Tabella 1 Caratteristiche generali del genoma umano e dell’esoma

Tecniche di cattura dell’esoma

Il primo e più critico passo nel sequenziamento dell’esoma è l’isolamento o cattura degli esoni. I metodi utilizzati si basano sull’ibridazione del DNA. L’analisi del genoma umano ha reso possibile l’identificazione di tutti gli esoni del gene, e facilita la progettazione di sonde oligonucleotidiche specifiche per ciascuno di essi. Le sonde sono utilizzate per la purificazione degli esoni dal DNA.19 La frammentazione del DNA in pezzi non più grandi di 500 bp è il primo passo. Il DNA viene poi ibridato alle sonde oligonucleotidiche specifiche per gli esoni e i frammenti ibridati vengono purificati. L’ibridazione può essere eseguita in fase liquida. In questo caso, gli oligonucleotidi sono etichettati in modo che i complessi DNA-oligonucletide possano essere separati dalla massa di DNA non ibridato. In un esempio comune, gli oligonucleotidi sono legati covalentemente alla biotina in modo che gli ibridi DNA-oligonucleotide possano essere isolati usando la molecola legante la biotina, la streptavidina, accoppiata a perline magnetiche. I frammenti di DNA che non contengono esoni non si legano alle perline di streptavidina e possono essere efficacemente rimossi dopo diversi passaggi di lavaggio. I frammenti contenenti esoni, legati alle perline, possono essere recuperati dopo la dissociazione degli ibridi DNA-oligonucleotide in condizioni di bassa forza ionica.

Gli esoni possono anche essere isolati tramite ibridazione su un supporto solido dove sono stati individuati gli oligonucleotidi specifici per gli esoni, come con i microarray di DNA. In questo caso, il DNA frammentato viene sparso sugli oligonucleotidi per permettere l’ibridazione. Successivamente, il DNA non ibridato viene lavato via e il DNA arricchito di esoni viene eluito in condizioni a basso contenuto ionico.

Vari fornitori commerciali offrono kit per l’isolamento degli esomi utilizzando protocolli di ibridazione in fase liquida, tra cui Agilent Technologies (Santa Clara, CA, USA), Roche NimbelGen, Inc. (Madison, WI, USA), Illumina, Inc. (San Diego, CA, USA) e Life Technologies (Carlsbad, CA, USA). Questi kit permettono l’isolamento di oltre il 90% degli esoni presenti nel genoma, con oltre il 90% di specificità ad un prezzo approssimativo di US$150 per esoma. Diversi autori hanno confrontato queste piattaforme di cattura degli esomi,20-22 e i dati ottenuti da Clark et al22 confrontando il SureSelect Human All Exon 50 Mb (Agilent Technologies), SeqCap EZ Exome Library v2.0 di Roche NimbleGen, Inc. e i kit TruSeq Exome Enrichment di Illumina, Inc. sono riassunti nella Tabella 2. Alcuni dei kit coprono le regioni non tradotte di mRNA, oltre alle regioni codificanti le proteine, e questo permette l’analisi delle regioni di regolazione come microRNA (miRNA) siti di legame. L’inclusione delle regioni non tradotte 5′ permette anche l’analisi delle regioni promotrici prossimali.22 Inoltre, la maggior parte dei kit copre fino all’80% delle regioni codificanti i miRNA.21 Recentemente, sono stati sviluppati kit migliori da questi e altri fornitori, per cui i dati riportati nella tabella 2 devono essere considerati solo un’indicazione. È importante notare che la purificazione degli esoni è un passo critico. Recuperare il 100% degli esoni è difficile, e gli esoni sono spesso persi o sottorappresentati nell’esoma isolato. Per esempio, se l’esoma di un paziente viene analizzato e il 10% degli esoni viene perso durante la purificazione, la probabilità di perdere una mutazione rilevante sarà circa il 10% a causa di questo errore tecnico. Pertanto, l’uso di procedure di cattura degli esoni altamente efficienti è di fondamentale importanza nel sequenziamento dell’esoma.

Tabella 2 Confronto di tre importanti piattaforme di cattura degli esomi
Note: aConfronto dei database Ensemble81 e RefSeq82, rispettivamente; bpercentuale delle regioni selezionate sequenziate da ciascuna piattaforma almeno dieci volte dopo le analisi di 80 mega letture della sequenza del DNA. Agilent Technologies (Santa Clara, CA, USA); Roche NimbelGen, Inc. (Madison, WI, USA); Illumina, Inc. (San Diego, CA, USA).
Abbreviazioni: mRNA, acido ribonucleico messaggero; miRNA, acido micro ribonucleico; DNA, acido desossiribonucleico.

Sequenziamento dell’esoma e analisi dei dati

I frammenti contenenti esoni vengono sequenziati utilizzando uno qualsiasi dei sistemi o delle tecnologie di sequenziamento massivo attualmente disponibili. Come menzionato nell’introduzione, queste piattaforme determinano la sequenza nucleotidica di milioni di frammenti di DNA simultaneamente. La lunghezza determinata della sequenza di ogni frammento nel sequenziamento dell’esoma non è lunga, tipicamente tra 35 bp e 100 bp. Tuttavia, poiché il DNA è stato inizialmente frammentato in modo casuale, ogni singolo nucleotide sarà presente in molti frammenti sovrapposti. Quindi, se si ottiene un numero abbastanza alto di sequenze, anche se brevi, ogni base sarà sequenziata indipendentemente in diversi frammenti di DNA. Il numero di volte che ogni base viene sequenziata è chiamato copertura o profondità di sequenziamento. La copertura è direttamente collegata alla qualità e alla fiducia della sequenza nucleotidica generata. In generale, una copertura di 20×-30× è considerata necessaria per ottenere risultati affidabili nel sequenziamento dell’esoma.59 Questa profondità di sequenziamento significa che una possibile variazione di sequenza sarebbe stata sequenziata indipendentemente in 20-30 diversi frammenti di DNA.

L’analisi dei dati è l’ultimo passo nei progetti di esoma-sequencing (Figura 2). Come menzionato sopra, vengono generati dati da milioni di sequenze, e la loro analisi richiede programmi informatici specifici e complessi e competenze.19,23 Un passo preliminare è l’analisi della qualità della sequenza generata. L’accuratezza della lettura della sequenza a varie lunghezze di sequenza, la lunghezza media delle letture, così come altri parametri, sono testati. Se la qualità è abbastanza buona, ogni sequenza viene confrontata con una sequenza di riferimento, che di solito è l’ultima versione disponibile della sequenza del genoma umano. Tipicamente, oltre l’80% delle sequenze generate possono essere allineate con il genoma di riferimento.22 Questo passo permette un piccolo grado di variazione nucleotidica rispetto al genoma di riferimento. Il passo successivo nell’analisi è quello di identificare le variazioni di sequenza tra la sequenza di riferimento e la sequenza dell’esoma ottenuta nel nostro studio. Le successive analisi di queste varianti potrebbero fornire le informazioni desiderate sul problema medico in studio.

Figura 2 Analisi dei dati di sequenziamento dell’esoma.
Note: I passi necessari per l’isolamento dell’esoma, il sequenziamento e l’analisi dei dati sono rappresentati schematicamente. Questo processo guida l’identificazione delle varianti geniche coinvolte nell’origine delle malattie (geni driver) o altrimenti legate alla suscettibilità alla malattia, all’evoluzione o alla risposta farmaceutica. Questi dati forniscono informazioni preziose per la diagnosi e la prognosi, per la consulenza genetica e per la progettazione di trattamenti personalizzati.
Abbreviazione: DNA, acido desossiribonucleico.

Il sequenziamento dell’esoma può rilevare diversi tipi di variazioni genetiche. Una delle differenze più frequentemente trovate è il cambiamento di un nucleotide in un altro, per esempio, A per G (da codone ATA a ATG). Queste variazioni sono chiamate varianti a singolo nucleotide (SNV), anche se sono considerate polimorfismi a singolo nucleotide (SNPs) quando la loro frequenza nella popolazione è maggiore dell’1%-5% e non c’è un forte effetto sul rischio di qualche malattia. La maggior parte degli SNV sono silenziosi, o anche conosciuti come sinonimi, perché entrambe le varianti di sequenza codificano per lo stesso amminoacido (per esempio, una variazione da GCA a GCC, poiché entrambi sono codoni di alanina). La maggior parte di questi polimorfismi non rappresentano alcuna differenza per la proteina codificata, non sono sottoposti a selezione evolutiva, e rappresentano le variazioni più frequentemente trovate nell’esoma umano. Fanno eccezione alcune mutazioni silenziose che influenzano i segnali di regolazione dello splicing, o anche i siti di regolazione della trascrizione, alterando lo splicing o l’espressione dell’mRNA anche se non cambiano gli aminoacidi codificati. In altri casi, la variazione nucleotidica ha una conseguenza nella proteina codificata e queste sono varianti nonsilenti o nonsinonime. Questi cambiamenti possono portare a variazioni nell’amminoacido codificato (per esempio, da GAT a GAG cambia l’acido aspartico in acido glutammico), e sono chiamate mutazioni missenso. Alterazioni più drastiche sono prodotte quando la variazione nucleotidica crea un codone di arresto della traduzione (per esempio, TGC a TGA cambia un codone di cisteina in un codone di arresto), che è chiamato mutazione nonsense. C’è anche un tipo di SNV che può essere rilevato dal sequenziamento dell’esoma anche se non influenza i codoni della proteina. Poiché gli esoni sono selezionati dopo una frammentazione casuale del DNA, possono anche contenere regioni di DNA contigue, comprese le sequenze di introni vicine e persino i promotori dei geni se sono state catturate le regioni non tradotte.24 Le regioni di introni contengono i segnali di regolazione necessari per lo splicing dell’mRNA. Gli SNV in queste regioni possono alterare lo splicing in vari modi.15 Per esempio, l’introne interessato potrebbe essere mantenuto nell’mRNA maturo, o l’esone contiguo potrebbe essere splicato (exon skipping). Queste alterazioni cambiano la sequenza nucleotidica dell’mRNA maturo e, quindi, la proteina codificata a valle dello SNV.25 Il sequenziamento dell’esoma può anche rilevare variazioni di sequenza dovute a piccole inserzioni o delezioni (indel).22 Queste variazioni possono risultare in un frame shift, tranne quando riguardano tre o un multiplo di tre nucleotidi. In tal caso, si produrrebbero piccole delezioni o inserzioni di aminoacidi.

Identificazione delle mutazioni causali

La rilevanza funzionale delle varianti di sequenza rilevate deve essere determinata nella fase successiva di analisi dei dati. Anche se tutti gli esseri umani sono quasi identici da un punto di vista genetico, il numero di differenze di sequenza nucleotidica tra gli individui è considerevole.26 Questa eterogeneità complica l’interpretazione dei dati ottenuti nei progetti di sequenziamento individuali. Alcuni dati generali sulle variazioni di sequenza individuali sono riportati nella tabella 3. Quando si considera l’intero genoma, il numero di differenze di sequenza tra gli individui è stato stimato in 4 × 106, secondo i dati ottenuti nel Progetto 1000 Genomi e in progetti più piccoli di sequenziamento dell’intero genoma.27 Gli esomi mostrano un numero minore, ma ancora considerevole, di variazioni di sequenza, circa 20.000-25.000 tra due individui non imparentati.27,28 La maggior parte di queste variazioni genetiche sono silenziose, come discusso in precedenza. Il numero di differenze di sequenza non silenti tra gli individui è stato stimato in 10.000. La maggior parte di queste varianti esiste nella popolazione generale e viene trasmessa per generazioni. È stato stimato che meno di un SNV nonsilent appare de novo in ogni individuo.29

I dati ottenuti nei progetti di sequenziamento dell’esoma sono spesso filtrati per identificare tutti gli SNPs che sono presenti in altri individui e che non sono, quindi, legati alla malattia studiata.2,19,23 Questo processo può essere fatto per confronto con i database pubblici dove sono compilati gli SNPs che si trovano nei progetti di sequenziamento. Un’avvertenza da prendere in considerazione è che tutti i grandi database contengono un certo numero di mutazioni provate che causano malattie relativamente frequenti. Dopo questa fase di filtraggio rimangono circa 400-700 SNV nuovi e possibilmente rilevanti (Tabella 3).28 La prossima sfida è determinare quali degli SNV che non sono presenti nella popolazione globale, se ce ne sono, sono all’origine della malattia in studio. Molte delle differenze osservate non saranno associate ad alcuna incidenza della malattia, e queste sono note come cambiamenti passeggeri.23 Al contrario, uno o pochi cambiamenti potrebbero avere un ruolo causale e sono chiamati cambiamenti driver. L’approccio utilizzato per identificare questi cambiamenti driver dipenderà dalle circostanze particolari dello studio. Nelle malattie con un modello mendeliano di eredità, di solito è necessario analizzare un certo numero di individui affetti e non affetti per trovare le variazioni genetiche che segregano perfettamente con la malattia. Questo confronto è più informativo nelle grandi famiglie con pedigree ben caratterizzati. In assenza di famiglie colpite sufficientemente grandi, il confronto di un certo numero di pazienti non imparentati e di controlli permette anche l’identificazione di geni driver. Ulteriori criteri sono utilizzati per selezionare possibili SNV correlati alla malattia, compresi gli algoritmi in silico, che predicono la possibile importanza dell’amminoacido mutato in base alla conservazione evolutiva e all’impatto previsto sulla struttura e sulla funzione della proteina. La funzione prevista della proteina mutata e il suo modello di espressione tessuto-specifico sono anche criteri utilizzati nella selezione delle mutazioni causali putative.

Tabella 3 Sintesi della variazione di sequenza tra gli individui

Alcuni esempi di questi tipi di studi saranno forniti in una sezione successiva. Tuttavia, man mano che si effettuano più studi, vengono identificate più variazioni geniche come causative di malattie ereditarie, il che rende probabile che alcuni dei geni mutati nel paziente siano già stati descritti. Questi geni mutati possono essere trovati nella letteratura e nei database specializzati come il database Online Mendelian Inheritance in Man (http://www.omim.org). La possibile rilevanza delle mutazioni trovate in vari geni può anche essere ricercata nella pagina Genome Ensemble (http://www.ensembl.org/) se sono state precedentemente descritte.

Il cancro è probabilmente il gruppo più prevalente di malattie con una base genetica. Molti studi sono stati diretti a determinare i geni driver per vari tipi di cancro.30 Il gruppo emergente di geni driver del cancro può essere consultato in banche dati come il Catalogue of Somatic Mutations In Cancer (COSMIC; http://cancer.sanger.ac.uk) o The Cancer Genome Atlas (http://cancergenome.nih.gov/). Diversi esempi più dettagliati saranno mostrati nella sezione Esempi di uso clinico del sequenziamento dell’esoma.

Confronto del sequenziamento dell’esoma con altri approcci di sequenziamento massivo

Seguimento del genoma

Come menzionato nell’introduzione, il sequenziamento dell’intero genoma umano sta diventando sempre più accessibile. Rispetto al sequenziamento dell’esoma, il sequenziamento del genoma intero è un’alternativa molto più complessa. Il numero di reazioni di sequenziamento che devono essere eseguite è molto più alto, così come il numero di dati di sequenza nucleotidica generati. L’analisi computazionale è notevolmente aumentata. Inoltre, si trovano molte più varianti genetiche, come mostrato nella tabella 3, il che rende più difficile l’identificazione dei geni driver. Tuttavia, il sequenziamento del genoma fornisce una visione completa delle alterazioni genetiche presenti nel paziente, comprese le grandi riorganizzazioni del genoma. Tuttavia, il sequenziamento a lettura breve di un genoma a profondità moderata mancherà le variazioni strutturali, soprattutto nelle regioni a bassa complessità. Queste informazioni sono riassunte nella tabella 4, che confronta il sequenziamento dell’esoma con altri approcci di sequenziamento.

Come menzionato in precedenza, i geni che codificano le proteine rappresentano solo il 3% del genoma.16 Fino a poco tempo fa, il resto del genoma era considerato come “DNA bulk” senza molto valore informativo. Tuttavia, studi recenti hanno cambiato completamente questo punto di vista. Un grande progetto su tutto il genoma sta studiando la funzione di tutte le regioni del genoma, il progetto Encyclopedia of DNA Elements (ENCODE).31 I risultati attualmente disponibili mostrano che oltre il 70% del genoma è trascritto. Molti dei trascritti generati non codificano per proteine, ma sembrano avere un ruolo di regolazione nell’espressione genica. Tra questi ci sono i già noti miRNA, che regolano la stabilità e la traduzione dell’mRNA (Figura 1), ma anche oltre 20.000 RNA lunghi non codificanti che regolano la trascrizione. Inoltre, sono state identificate molte regioni del DNA che regolano l’espressione genica, comprese molte regioni promotrici e regolatrici della trascrizione precedentemente sconosciute (Figura 1). Queste informazioni sono di rilevanza clinica perché le mutazioni nelle regioni di regolazione possono influenzare l’espressione di geni specifici e possono avere risultati patologici. Infatti, gran parte degli studi di associazione genome-wide hanno messo in relazione regioni del DNA, dove non sono state trovate mutazioni codificanti le proteine, con condizioni patologiche.32 I dati generati nel progetto ENCODE hanno permesso la revisione di alcuni casi, che hanno trovato che mutazioni in regioni regolatrici dell’espressione genica sono responsabili della malattia.31,32 Inoltre, in un esempio recente, Weedon et al33 hanno riportato che mutazioni in una regione regolatrice della trascrizione del gene PTF1A causano agenesia isolata del pancreas. Le mutazioni nelle regioni di regolazione non possono essere rilevate dal sequenziamento dell’esoma poiché non influenzano la proteina codificata, ma la sua espressione. Pertanto, il sequenziamento dell’intero genoma fornisce più informazioni rispetto al sequenziamento dell’esoma a scapito di una maggiore complessità e del costo economico.

Tabella 4 Confronto delle tecniche di sequenziamento massivo
Abbreviazioni: RNA, acido ribonucleico; DNA, acido desossiribonucleico.

Sequenziamento dell’RNA

Le tecniche di sequenziamento dell’RNA consistono nella conversione di popolazioni di RNA in DNA complementare (cDNA) mediante trascrizione inversa e nel loro successivo sequenziamento.34,35 Nel caso del sequenziamento dell’mRNA, la popolazione completa di mRNA espressa in una linea cellulare o in un campione di tessuto (nota come trascrittoma) viene convertita in cDNA e sequenziata. Il processo di sequenziamento dell’mRNA fornisce informazioni sulla sequenza nucleotidica dei geni che vengono trascritti nel campione analizzato e, quindi, sulla sequenza aminoacidica delle proteine corrispondenti. Inoltre, il numero di sequenze generate per ogni mRNA può essere stimato ed è proporzionale alla sua abbondanza. Pertanto, i livelli di espressione genica possono essere determinati e confrontati con quelli di altri campioni, compresi eventuali campioni di controllo (Tabella 4). Un altro vantaggio specifico del sequenziamento dell’mRNA è che permette lo studio degli eventi di splicing alternativo.36,37 Come accennato in precedenza, i trascritti primari sono spesso elaborati in più modi per dare origine a mRNA che contengono diversi esoni (Figura 1). Questi mRNA possono essere identificati dal sequenziamento dell’mRNA e non dal sequenziamento dell’esoma o del genoma, che determina il sequenziamento del DNA trascritto e non quello del trascritto maturo. Per il resto, il sequenziamento dell’mRNA e dell’esoma forniscono informazioni simili sulla regione codificante le proteine del genoma. La differenza è che il sequenziamento dell’esoma include tutti i geni e il sequenziamento dell’mRNA è limitato ai geni espressi nel campione analizzato. Per esempio, un recente studio di sequenziamento dell’mRNA di linee cellulari linfoblastoidi di 462 individui ha determinato la sequenza codificante di circa 13.000 geni sui 20.078 geni umani.38 In questo esempio, circa 7.000 geni non sono stati studiati perché non erano espressi nelle linee cellulari linfoblastoidi. Tuttavia, nei casi in cui il tipo di cellula o il tessuto colpito da una data malattia è ben noto, il sequenziamento dell’mRNA sarebbe equivalente al sequenziamento dell’esoma per lo studio delle mutazioni driver. Un’altra caratteristica del sequenziamento dell’mRNA è che permette di rilevare le variazioni di sequenza prodotte dall’editing dell’RNA.39 Un certo numero di mRNA viene processato in modo che alcuni nucleotidi vengano cambiati, e i cambiamenti da adenosina a inosina sono quelli prodotti più frequentemente. Queste alterazioni sono rilevate dal sequenziamento dell’mRNA, ma se sono prodotte dall’editing dell’RNA o come conseguenza di variazioni genomiche non possono essere determinate se non si confrontano sia la sequenza dell’mRNA che quella genomica.

Determinare i livelli di espressione dell’mRNA può essere molto conveniente in certi casi, poiché alcune malattie possono essere causate dall’espressione deregolata di uno o più geni. I cambiamenti nei livelli di espressione possono essere molto informativi sull’origine genetica della malattia. Per esempio, alterazioni nell’espressione di uno o più geni in un paziente potrebbero indicare una disfunzione nei meccanismi che regolano la loro espressione. Questa disfunzione potrebbe essere dovuta a mutazioni nelle regioni di regolazione della trascrizione dei geni, come discusso nella sezione sul sequenziamento del genoma. Potrebbe anche essere dovuta ad alterazioni nell’espressione o nella struttura dei fattori di regolazione della trascrizione.40 I cambiamenti nell’espressione genica sono spesso dovuti ad alterazioni nei meccanismi epigenetici di regolazione dell’espressione genica, come la metilazione del DNA, che non può essere rilevata dal sequenziamento del genoma o dell’esoma.41 Sono stati recentemente sviluppati metodi per lo studio della metilazione dell’intero genoma che permettono lo studio dettagliato di questa informazione epigenetica.42 Il cancro è una delle malattie su cui sono stati condotti più studi nei livelli di espressione genica. In un numero crescente di casi, le alterazioni nell’espressione dei geni o di un gruppo di geni sono collegate a una diagnosi di cancro, alla prognosi o a una previsione della risposta ai farmaci antitumorali.43 Questi cambiamenti nell’espressione genica vengono usati come biomarcatori. Molti di questi studi sono disponibili attraverso il database del Cancer Genome Anatomy Project (http://cgap.nci.nih.gov).

Un tipo specifico di progetto di sequenziamento dell’RNA mira a determinare la sequenza nucleotidica e i livelli di espressione dei piccoli RNA regolatori (miRNA). I piccoli RNA regolano l’espressione di altri geni determinando la stabilità e/o la traduzione dei loro mRNA (Figura 1). I cambiamenti nei modelli di espressione dei miRNA possono, quindi, avere un impatto marcato sul profilo di espressione proteica di cellule e tessuti. Sono stati sviluppati protocolli per la purificazione e il sequenziamento della popolazione completa di miRNA di un dato campione e per determinare i loro livelli di espressione.44 La maggior parte delle piattaforme di cattura degli esoni includono anche fino all’80% delle regioni codificanti i miRNA noti.21

Sequencing di gruppi selezionati di geni

Alcune malattie sono già state studiate in modo così dettagliato che la maggior parte dei geni coinvolti sono noti. Questo può essere il caso di malattie con un modello mendeliano di eredità, in cui tutti i casi studiati sono dovuti a mutazioni in uno qualsiasi di un certo numero di geni noti. Altri esempi sono alcuni tipi di cancro che sono prevalentemente dovuti a mutazioni in un numero ridotto di geni. In questi casi, l’approccio più diretto per caratterizzare il campione di un paziente sarebbe quello di determinare la sequenza dei geni precedentemente identificati come causativi della malattia. L’approccio classico sarebbe quello di amplificare tutti gli esoni di questi geni e determinare la sequenza nucleotidica di ciascuno. L’approccio alternativo di sequenziamento massivo sarebbe quello di purificare tutte le regioni genomiche putative coinvolte e di determinare simultaneamente la loro sequenza nucleotidica in una singola corsa.45-47 Due metodi sono generalmente usati per la purificazione delle regioni di DNA candidate. Il primo è la loro amplificazione tramite reazioni a catena della polimerasi usando un set di oligonucleotidi specifici come primer. Il secondo metodo consiste nella frammentazione del DNA del campione e nella purificazione dei frammenti rilevanti mediante ibridazione con oligonucleotidi specifici, in soluzione o fissati su un supporto solido, come precedentemente descritto per la purificazione degli esoni.48 Le regioni selezionate possono contenere esoni codificanti le proteine e anche altre regioni del DNA, come le regioni regolatrici della trascrizione. Queste regioni di solito corrispondono a poche centinaia di geni e, quindi, l’analisi dei dati di sequenza generati è molto più facile che in altri approcci di sequenziamento massivo. La principale limitazione è che si tratta di un approccio basato su ipotesi che non permette di individuare mutazioni in geni non precedentemente legati alla malattia studiata (Tabella 4).

Esempi di uso clinico dell’exome sequencing

L’uso più comune dell’exome sequencing è probabilmente per la diagnosi di malattie monogeniche. Più di 3.000 disturbi monogenici sono stati descritti, anche se le cause genetiche molecolari della maggior parte di essi sono ancora sconosciute.1 Il sequenziamento dell’esoma può essere utilizzato per identificare queste mutazioni, come discusso da Kuhlenbäumer et al1 in una recente revisione. In alcuni dei primi studi, il sequenziamento dell’esoma è stato utilizzato per identificare le mutazioni genetiche responsabili di malattie familiari come le sindromi di Kabuki,49 Schinzel-Giedion,50 Joubert,51 e il ritardo mentale da iperfosfatasia,52 gravi malformazioni cerebrali,53 o la familiare sclerosi laterale amiotrofica.54 Il sequenziamento dell’esoma è stato anche utilizzato per scoprire nuove mutazioni presenti in un caso sporadico di ritardo mentale.29 Inoltre, questa tecnica è stata utilizzata per la diagnosi, ad esempio, della diarrea cloridica congenita,55 della malattia infiammatoria intestinale,56 della malattia di Charcot-Marie-Tooth,57 del diabete mellito neonatale,58 o della sindrome Brown-Vialetto-van Laere.59 Lo studio riportato da Worthey et al56 rappresenta un esempio rilevante dell’applicazione clinica del sequenziamento dell’esoma. Un bambino maschio si è presentato con una malattia simile al morbo di Crohn senza una diagnosi definitiva, nonostante una valutazione clinica completa. Gli autori hanno deciso di utilizzare un approccio di sequenziamento dell’esoma per identificare la mutazione causale. L’analisi dei dati di sequenza ha rilevato 16.124 varianti nel paziente. Filtrando i dati e considerando le nuove varianti presenti in omozigosi, emizigosi o eterozigosi composte, e interessando i residui aminoacidici altamente conservati e ritenuti dannosi per la funzione della proteina, gli autori hanno selezionato una mutazione nel gene X-linked inhibitor of apoptosis (XIAP). Gli studi funzionali hanno dimostrato la rilevanza di questa mutazione nella risposta proinfiammatoria osservata nel paziente. Sulla base dell’identificazione di questa mutazione, è stato eseguito un trapianto allogenico di cellule progenitrici ematopoietiche. Pertanto, il sequenziamento dell’esoma ha permesso l’identificazione di una mutazione non caratterizzata per fare una diagnosi molecolare per un singolo paziente, nel contesto di una nuova malattia, che ha portato a un piano di gestione. L’uso del sequenziamento dell’esoma nella scoperta di nuove mutazioni causali e nella diagnosi è stato recentemente rivisto.60,61

Lo studio di malattie comuni e complesse è stato anche affrontato attraverso il sequenziamento dell’esoma. Gli studi di associazione genome-wide hanno dimostrato che alcune varianti genetiche conferiscono il rischio per una serie di malattie. Esempi ben caratterizzati sono l’apolipoproteina E nel morbo di Alzheimer, il fattore di complemento H nella degenerazione maculare, o la glucocerebrosidasi/leucina ricca ripetizione chinasi 2 nel morbo di Parkinson.62-64 Il possibile uso del sequenziamento dell’esoma per lo studio di malattie complesse è stato discusso.2,28 Una limitazione dell’uso del sequenziamento dell’esoma in questi studi è che la maggior parte delle varianti associate al fenotipo sono distali alle regioni codificanti le proteine, il che renderebbe il sequenziamento dell’intero genoma un approccio migliore.32 Alcune di queste varianti genetiche possono influenzare la funzionalità delle regioni di regolazione della trascrizione che controllano l’espressione genica. Il progetto ENCODE31,65 ha eseguito un’analisi genome-wide di queste regioni di regolazione, ed è stato trovato che diverse varianti genetiche in regioni specifiche del cromosoma 5 (per esempio) sono siti di legame per il fattore di trascrizione, GATA2, che sono fortemente associati con la malattia di Crohn e altre malattie infiammatorie.

I tumori sono malattie causate dall’accumulo di cambiamenti genomici che portano all’alterazione di molteplici processi biologici.19 In contrasto con le alterazioni genetiche monogeniche discusse in precedenza, la maggior parte delle mutazioni cancerogene non sono presenti nel tessuto normale del paziente; una gran parte di queste mutazioni risiede nelle regioni codificanti le proteine e può essere rilevata dal sequenziamento dell’esoma.19 Tuttavia, un altro importante gruppo di alterazioni genetiche sono grandi riorganizzazioni genomiche come delezioni, inversioni o traslocazioni che non possono essere rilevate dal sequenziamento dell’esoma.66 Nonostante questa limitazione, il sequenziamento dell’esoma è stato applicato alla scoperta di geni driver del cancro usando due strategie generali: il confronto dell’esoma dei tumori con quello dei tessuti sani dello stesso paziente; o il confronto di un certo numero di esomi di pazienti non imparentati con quello di un numero simile di controlli sani.67-70 Attualmente sono in corso ampi studi che prevedono il sequenziamento dell’esoma o del genoma di una vasta coorte di pazienti affetti da cancro e di controlli per identificare tutti i geni driver del cancro.19,71,72 Il progetto 5.000 genomi del cancro ne è un esempio,73 poiché mira a sequenziare il genoma di 50 dei tipi di cancro più comuni. I dati disponibili hanno già fornito un panorama genomico generale dei tumori più comuni, come rivisto da Vogelstein et al.3 Sono stati identificati circa 140 geni che promuovono la tumorigenesi quando sono alterati, e questo può essere trovato nel già citato database COSMIC.3 Rilevare la mutazione di uno di questi geni nell’esoma di un campione di cancro può essere un passo importante verso la corretta diagnosi e trattamento del paziente. I dati attuali danno anche un’idea della complessità del genoma del cancro.3 I tumori solidi comuni presentano un numero medio da 33 a 66 mutazioni somatiche non silenti.3 Questo numero aumenta fino a oltre 200 nei tumori indotti da agenti mutageni, come il cancro ai polmoni e il melanoma, e anche a più di 1.000 nei tumori carenti nei meccanismi di riparazione del DNA o nella DNA polimerasi E.3 Al contrario, i tumori liquidi e pediatrici presentano meno di dieci mutazioni somatiche.3 Un’importante caratteristica dei tumori è che evolvono rapidamente e diventano eterogenei, così che diverse mutazioni possono essere trovate in campioni dello stesso paziente raccolti in diverse regioni o in diversi periodi di tempo lungo il trattamento, come recentemente dimostrato dal sequenziamento dell’esoma.74,75 Nonostante questa complessità, alcuni concetti unificanti stanno emergendo, e la maggior parte dei geni driver del cancro noti partecipano a uno o più dei 12 percorsi che regolano la sopravvivenza cellulare, il destino cellulare e il mantenimento del genoma.3,19 In questo scenario, l’exome sequencing sta cominciando a essere usato per la diagnosi del cancro attraverso l’identificazione delle mutazioni driver, per esempio, nel cancro alla prostata.76

L’exome sequencing può essere utile anche per il trattamento del cancro. La presenza di alcune mutazioni geniche può conferire sensibilità o resistenza a un dato farmaco, che è stato chiamato farmacogenomica. Per esempio, l’uso di inibitori della proteina tirosin-chinasi nei tumori che sovraesprimono le proteine Abelson murine leukemia virale oncogene homolog 1 (ABL) o il recettore del fattore di crescita epidermico (EGFR) è noto da diversi anni. Tuttavia, gli approcci di sequenziamento dell’esoma e del genoma stanno rivelando molte più risposte di mutazione alle associazioni di trattamento (come evidenziato in una recensione77). Un esempio informativo è la recente pubblicazione dell’esoma del pannello di cellule NCI-60.78 Questo pannello contiene 60 linee cellulari ben caratterizzate di nove tipi di cancro ed è stato usato in una vasta gamma di studi biologici e farmacologici.79 La sequenza nucleotidica dell’esoma di queste cellule è stata determinata per stabilire i geni cancer driver mutati in ciascuna di esse. Oltre a fornire una lista di nuovi geni cancerogeni putativi, gli autori hanno studiato la possibile correlazione tra il genotipo di ogni linea cellulare e la risposta precedentemente determinata a un gran numero di agenti anticancro. È stata trovata una correlazione tra mutazioni genetiche specifiche e la risposta a diversi farmaci, rivelando la possibile importanza del sequenziamento dell’esoma nella selezione di un trattamento personalizzato. Il sequenziamento dell’esoma può anche essere usato per prevedere la predisposizione al cancro. Alcuni esempi possono essere trovati in una recente revisione incentrata sul cancro colorettale e utilizzando il sequenziamento del genoma intero.72

Sfide mediche del sequenziamento dell’esoma

Il sequenziamento dell’esoma promette miglioramenti significativi nelle diagnosi, prognosi e trattamenti personalizzati dei pazienti. Tuttavia, l’applicazione estesa di questa tecnologia richiede ancora una serie di miglioramenti, così come la definizione di importanti considerazioni etiche e mediche, come è stato discusso in recenti recensioni.23,27,60,61,71,77 Le sfide tecniche includono lo sviluppo di tecniche più efficienti di cattura degli esoni, sequenziamento e allineamento per ottenere una rappresentazione completa e uniforme di tutti gli esoni nella sequenza. Sono necessari anche miglioramenti negli strumenti software di analisi dei dati per un rilevamento rapido e accurato delle varianti patologiche. Il sequenziamento esteso dell’esoma richiederà l’implementazione di attrezzature specializzate e l’assunzione di team di specialisti con competenze adeguate per generare le sequenze e per analizzare e interpretare i dati ottenuti.

L’uso del sequenziamento dell’esoma per la diagnosi richiederà anche l’implementazione di linee guida e regolamenti tecnici. Parametri come la profondità di sequenziamento, la copertura degli esoni, le metriche di qualità per i dati di sequenza nucleotidica o la chiamata di allineamento dovranno essere normalizzati. Anche la conservazione dei dati dovrebbe essere regolata.

Ci sono anche una serie di complesse questioni etiche. Una questione importante è legata alle informazioni che dovrebbero essere fornite al paziente. Il sequenziamento dell’esoma potrebbe rilevare variazioni genetiche che non sono collegate alla malattia in diagnosi. Il paziente potrebbe presentare varianti genetiche che rappresentano fattori di rischio o potrebbero essere causative di altre malattie. Quali informazioni dovrebbero essere restituite al paziente? Quali sarebbero le prove necessarie per considerare una variante genetica collegata a una malattia? La proprietà, l’accesso e la conservazione dei dati sono altre questioni rilevanti. I dati generati dovrebbero essere conservati per un possibile uso futuro durante la vita del paziente? Queste e altre considerazioni etiche solleveranno probabilmente notevoli controversie80 e richiederanno un’ampia discussione per raggiungere un accordo sui criteri da utilizzare nella pratica clinica.

Conclusione

Il sequenziamento dell’esoma è già un potente strumento utilizzato per determinare la base molecolare delle malattie genetiche. La profondità dell’analisi genetica è inferiore a quella del sequenziamento dell’intero genoma, poiché le variazioni genetiche nelle regioni non codificanti le proteine non vengono rilevate. Tuttavia, il numero ridotto di sequenze e di analisi necessarie per il sequenziamento dell’esoma lo rende un approccio più accessibile nella pratica clinica. Pertanto, il sequenziamento dell’esoma sarà probabilmente la tecnica di scelta per l’analisi iniziale dei pazienti, almeno fino a quando il prezzo del sequenziamento dell’intero genoma non diminuirà e la notevole procedura di analisi dei dati non sarà migliorata. Un limite importante dell’applicazione del sequenziamento dell’esoma nella pratica clinica è che il significato funzionale della maggior parte delle varianti genetiche attese è ancora sconosciuto. Questa situazione sta cambiando rapidamente, poiché un numero crescente di varianti genetiche associate alla malattia sono determinate e rese disponibili in banche dati pubbliche. È plausibile che in pochi anni, la maggior parte delle varianti genetiche legate al rischio di acquisire una malattia, con una precisa diagnostica molecolare, una previsione dell’evoluzione della malattia e una risposta farmacologica, saranno note. La conoscenza precisa dell’esoma del paziente, o genoma, sarà allora un fattore determinante nella pratica medica.

Riconoscimenti

Grazie a Rosario Perona e Juliette Siegfried (ServingEdit.com) per la revisione critica del manoscritto.

Disclosure

L’autore non riporta conflitti di interesse in questo lavoro.

Kuhlenbäumer G, Hullmann J, Appenzeller S. Novel genomic techniques open new avenues in the analysis of monogenic disorders. Hum Mutat. 2011;32(2):144-151.

Kiezun A, Garimella K, Do R, et al. Exome sequencing e la base genetica dei tratti complessi. Nat Genet. 2012;44(6):623-630.

Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA Jr, Kinzler KW. Paesaggi genoma del cancro. Scienza. 2013;339(6127):1546-1558.

Kirwan M, Dokal I. Discheratosi congenita: una malattia genetica di molte facce. Clin Genet. 2008;73(2):103-112.

Walne AJ, Dokal I. Advances in the understanding of dyskeratosis congenita. Br J Haematol. 2009;145(2):164-172.

Brady PD, Vermeesch JR. Microarray genomici: una panoramica della tecnologia. Prenat Diagn. 2012;32(4):336-343.

Hehir-Kwa JY, Pfundt R, Veltman JA, de Leeuw N. Pathogenic or not? Valutare la rilevanza clinica delle varianti del numero di copie. Clin Genet. 2013;84(5):415-421.

Simons A, Sikkema-Raddatz B, de Leeuw N, Konrad NC, Hastings RJ, Schoumans J. Genome-wide arrays nella diagnostica di routine dei tumori ematologici. Hum Mutat. 2012;33(6):941-948.

Metzker ML. Tecnologie di sequenziamento – la prossima generazione. Nat Rev Genet. 2010;11(1):31-46.

Sastre L. Le nuove tecnologie di sequenziamento del DNA aprono un’era promettente per la ricerca e il trattamento del cancro. Clin Transl Oncol. 2011;13(5):301-306.

Lander ES, Linton LM, Birren B, et al. International Human Genome Sequencing Consortium. Sequenziamento iniziale e analisi del genoma umano. Natura. 2001;409(6822):860-921.

Abecasis GR, Auton A, Brooks LD, et al. 1000 Genomes Project Consortium. Una mappa integrata della variazione genetica da 1.092 genomi umani. Natura. 2012;491(7422):56-65.

Yang Y, Liu R, Xie H, et al. Advances in nanopore sequencing technology. J Nanosci Nanotechnol. 2013;13(7):4521-4538.

Chen YS, Lee CH, Hung MY, Pan HA, Chiou JC, Huang GS. Sequenziamento del DNA utilizzando misure di conduttanza elettrica di una DNA polimerasi. Nat Nanotechnol. 2013;8(6):452-458.

Lu ZX, Jiang P, Xing Y. Variazione genetica dello splicing alternativo pre-mRNA nelle popolazioni umane. Wiley Interdiscip Rev RNA. 2012;3(4):581-592.

Pruitt KD, Harrow J, Harte RA, et al. The consensus coding sequence (CCDS) project: Identificazione di un set di geni codificanti proteine comuni per i genomi umani e murini. Genome Res. 2009;19(7):1316-1323.

Harrow J, Frankish A, Gonzalez JM, et al. GENCODE: l’annotazione genoma umano di riferimento per il progetto ENCODE. Genome Res. 2012;22(9):1760-1774.

Teer JK, Mullikin JC. Sequenziamento dell’esoma: lo sweet spot prima dei genomi interi. Hum Mol Genet. 2010;19(R2):R145-R151.

Liu X, Wang J, Chen L. Whole-exome sequencing reveals recurrent somatic mutation networks in cancer. Cancer Lett. 2013;340(2):270-276.

Parla JS, Iossifov I, Grabill I, Spector MS, Kramer M, McCombie WR. Un’analisi comparativa della cattura dell’esoma. Genome Biol. 2011; 12(9):R97.

Sulonen AM, Ellonen P, Almusa H, et al. Confronto dei metodi di cattura dell’esoma basati sulla soluzione per il sequenziamento di prossima generazione. Genome Biol. 2011;12(9):R94.

Clark MJ, Chen R, Lam HY, et al. Confronto delle prestazioni delle tecnologie di sequenziamento del DNA esoma. Nat Biotechnol. 2011;29(10):908-914.

Gullapalli RR, Desai KV, Santana-Santos L, Kant JA, Becich MJ. Il sequenziamento di prossima generazione nella medicina clinica: Sfide e lezioni per la patologia e l’informatica biomedica. J Pathol Inform. 2012;3:40.

Samuels DC, Han L, Li J, et al. Trovare i tesori persi nei dati di sequenziamento degli esomi. Trends Genet. 2013;29(10):593-599.

Taneri B, Asilmaz E, Gaasterland T. Impatto biomedico delle mutazioni di splicing rivelato attraverso il sequenziamento dell’esoma. Mol Med. 2012;18:314-319.

Fu W, O’Connor TD, Jun G, et al; NHLBI Exome Sequencing Project. Analisi di 6.515 esomi rivela l’origine recente della maggior parte delle varianti codificanti le proteine umane. Natura. 2013;493(7431):216-220.

Marian AJ. Sfide nelle applicazioni mediche delle scoperte di sequenziamento dell’intero esoma/genoma. Trends Cardiovasc Med. 2012;22(8):219-223.

Singleton AB. Sequenziamento dell’esoma: una tecnologia trasformativa. Lancet Neurol. 2011;10(10):942-946.

Vissers LE, de Ligt J, Gilissen C, et al. Un paradigma de novo per ritardo mentale. Nat Genet. 2010;42(12):1109-1112.

Gonzalez-Perez A, Perez-Llamas C, Deu-Pons J, et al. IntOGen-mutations identifica i driver del cancro nei tipi di tumore. Nat Methods. 2013;10(11):1081-1082.

Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M; ENCODE Project Consortium. Un’enciclopedia integrata degli elementi del DNA nel genoma umano. Natura. 2012;489(7414):57-74.

Hardison RC. Genome-wide dati epigenetici facilitare la comprensione di studi di associazione di suscettibilità della malattia. J Biol Chem. 2012;287(37):30932-30940.

Weedon MN, Cebola I, Patch AM, et al. International Pancreatic Agenesis Consortium. Mutazioni recessive in un enhancer PTF1A distale causano agenesia pancreatica isolata. Nat Genet. 2014;46(1):61-64.

Wang Z, Gerstein M, Snyder M. RNA-Seq: uno strumento rivoluzionario per la trascrittomica. Nat Rev Genet. 2009;10(1):57-63.

Mutz KO, Heilkenbrinker A, Lönne M, Walter JG, Stahl F. Transcriptome analysis using next-generation sequencing. Curr Opin Biotechnol. 2013;24(1):22-30.

Hitzemann R, Bottomly D, Darakjian P, et al. Geni, comportamento e next-generation RNA sequencing. Genes Brain Behav. 2013;12(1):1-12.

Costa V, Aprile M, Esposito R, Ciccodicola A. RNA-Seq e malattie umane complesse: risultati recenti e prospettive future. Eur J Hum Genet. 2013;21(2):134-142.

Lappalainen T, Sammeth M, Friedländer MR, et al; Geuvadis Consortium; Geuvadis Consortium. Il sequenziamento del trascrittoma e del genoma scopre la variazione funzionale negli esseri umani. Natura. 2013; 501(7468):506-511.

Slotkin W, Nishikura K. Adenosina-inosina RNA editing e malattia umana. Genoma Med. 2013;5:105.

Lee TI, Young RA. Regolazione trascrizionale e la sua cattiva regolazione nella malattia. Cell. 2013;152(6):1237-1251.

Suvà ML, Riggi N, Bernstein BE. Riprogrammazione epigenetica nel cancro. Scienza. 2013;339(6127):1567-1570.

Li P, Demirci F, Mahalingam G, Demirci C, Nakano M, Meyers BC. Un flusso di lavoro integrato per l’analisi della metilazione del DNA. J Genet Genomics. 2013;40(5):249-260.

Chibon F. Cancer gene expression signatures – the rise and fall? Eur J Cancer. 2013;49:2000-2009.

Dedeoğlu BG. Approcci ad alta produttività per l’analisi dell’espressione dei microRNA. Methods Mol Biol. 2014;1107:91-103.

Ni T, Wu H, Song S, Jelley M, Zhu J. Amplificazione genica selettiva per il sequenziamento ad alta produttività. Recenti Pat DNA Gene Seq. 2009; 3(1):29-38.

Barretina J, Caponigro G, Stransky N, et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Natura. 2012;483(7391):603-607.

Garnett MJ, Edelman EJ, Heidorn SJ, et al. Identificazione sistematica di marcatori genomici di sensibilità ai farmaci nelle cellule tumorali. Natura. 2012;483(7391):570-575.

Hoischen A, Gilissen C, Arts P, et al. Massivamente sequenziamento parallelo di geni atassia dopo array-based enrichment. Hum Mutat. 2010;31(4):494-499.

Ng SB, Bigham AW, Buckingham KJ, et al. Exome sequencing identifica mutazioni MLL2 come causa della sindrome di Kabuki. Nat Genet. 2010;42(9):790-793.

Hoischen A, van Bon BW, Gilissen C, et al. De novo mutazioni di SETBP1 causare la sindrome di Schinzel-Giedion. Nat Genet. 2010;42(6):483-485.

Edvardson S, Shaag A, Zenvirt S, et al. La sindrome di Joubert 2 (JBTS2) negli ebrei Ashkenazi è associata a una mutazione TMEM216. Am J Hum Genet. 2010;86(1):93-97.

Krawitz PM, Schweiger MR, Rödelsperger C, et al. Identità-by-descent filtraggio dei dati di sequenza esoma identifica mutazioni PIGV in iperfosfatasia sindrome da ritardo mentale. Nat Genet. 2010;42(10):827-829.

Bilgüvar K, Oztürk AK, Louvi A, et al. Whole-exome sequencing identifica mutazioni recessive WDR62 in gravi malformazioni del cervello. Natura. 2010;467(7312):207-210.

Johnson JO, Mandrioli J, Benatar M, et al. Consorzio ITALSGEN. Sequenziamento dell’esoma rivela mutazioni VCP come causa di SLA familiare. Neuron. 2010;68(5):857-864.

Choi M, Scholl UI, Ji W, et al. Diagnosi genetica da cattura esoma intero e sequenziamento del DNA massicciamente parallelo. Proc Natl Acad Sci U S A. 2009;106(45):19096-19101.

Worthey EA, Mayer AN, Syverson GD, et al. Fare una diagnosi definitiva: applicazione clinica di successo di sequenziamento esoma intero in un bambino con malattia infiammatoria intestinale intrattabile. Genet Med. 2011;13(3):255-262.

Montenegro G, Powell E, Huang J, et al. Sequenziamento dell’esoma permette una rapida identificazione del gene in una famiglia Charcot-Marie-Tooth. Ann Neurol. 2011;69(3):464-470.

Bonnefond A, Durand E, Sand O, et al. diagnosi molecolare di diabete mellito neonatale utilizzando next-generation sequencing del esoma intero. PLoS One. 2010;5(10):e13630.

Johnson JO, Gibbs JR, Van Maldergem L, Houlden H, Singleton AB. Sequenziamento dell’esoma nella sindrome di Brown-Vialetto-van Laere. Am J Hum Genet. 2010;87(4):567-9; risposta dell’autore 569.

Bras JM, Singleton AB. Sequenziamento dell’esoma nella malattia di Parkinson. Clin Genet. 2011;80(2):104-109.

Topper S, Ober C, Das S. Exome sequencing e la genetica della disabilità intellettuale. Clin Genet. 2011;80(2):117-126.

Corder EH, Saunders AM, Strittmatter WJ, et al. Gene dose di apolipoproteina E tipo 4 allele e il rischio di malattia di Alzheimer in famiglie ad esordio tardivo. Scienza. 1993;261(5123):921-923.

Klein RJ, Zeiss C, Chew EY, et al. Complement factor H polymorphism in age-related macular degeneration. Scienza. 2005;308(5720):385-389.

Tan EK. Identificazione di una comune variante genetica di rischio (LRRK2 Gly2385Arg) nella malattia di Parkinson. Ann Acad Med Singapore. 2006;35(11):840-842.

Libioulle C, Louis E, Hansoul S, et al. Novel Crohn disease locus identified by genome-wide association maps to a gene desert on 5p13.1 and modulates expression of PTGER4. PLoS Genet. 2007;3(4):e58.

Stephens PJ, Greenman CD, Fu B, et al. Riarrangiamento genomico massiccio acquisito in un singolo evento catastrofico durante lo sviluppo del cancro. Cell. 2011;144(1):27-40.

Jones S, Zhang X, Parsons DW, et al. Core signaling pathways in human pancreatic cancers revealed by global genomic analyses. Scienza. 2008;321(5897):1801-1806.

Parsons DW, Jones S, Zhang X, et al. Un’analisi genomica integrata del glioblastoma multiforme umano. Scienza. 2008;321(5897):1807-1812.

Timmermann B, Kerick M, Roehr C, et al. Profili di mutazione somatica del cancro colorettale MSI e MSS identificati dal sequenziamento dell’esoma intero di prossima generazione e dall’analisi bioinformatica. PLoS One. 2010;5(12):e15661.

Varela I, Tarpey P, Raine K, et al. Sequenziamento dell’esoma identifica frequente mutazione del complesso SWI/SNF gene PBRM1 nel carcinoma renale. Nature. 2011;469(7331):539-542.

Ku CS, Cooper DN, Roukos DH. Rilevanza clinica del sequenziamento del genoma del cancro. World J Gastroenterol. 2013;19(13):2011–2018.

Kilpivaara O, Aaltonen LA. Il sequenziamento diagnostico del genoma del cancro e il contributo delle varianti germinali. Scienza. 2013;339(6127):1559-1562.

Hudson TJ, Anderson W, Artez A, et al; International Cancer Genome Consortium. Rete internazionale di progetti sul genoma del cancro. Natura. 2010;464(7291):993-998.

Gerlinger M, Rowan AJ, Horswell S, et al. Intratumor heterogeneity and branched evolution revealed by multiregion sequencing. N Engl J Med. 2012;366(10):883-892.

Ren SC, Qu M, Sun YH. Indagine sull’eterogeneità intratumorale attraverso il sequenziamento di singole cellule. Asian J Androl. 2013;15(6):729-734.

Hieronymus H, Sawyers CL. Attraversando il paesaggio genomico del cancro alla prostata dalla diagnosi alla morte. Nat Genet. 2012;44(6):613-614.

McLeod HL. Farmacogenomica del cancro: promessa iniziale, ma sforzo concertato necessario. Scienza. 2013;339(6127):1563-1566.

Abaan OD, Polley EC, Davis SR, et al. Gli esomi del pannello NCI-60: una risorsa genomica per biologia del cancro e farmacologia dei sistemi. Cancer Res. 2013;73(14):4372-4382.

Weinstein JN. Scoperta di farmaci: Linee cellulari combattono il cancro. Natura. 2012;483:544-545.

Shahmirzadi L, Chao EC, Palmaer E, Parra MC, Tang S, Gonzalez KD. Decisioni del paziente per la divulgazione di risultati secondari tra i primi 200 individui sottoposti a sequenziamento esoma diagnostica clinica. Genet Med. Epub October 10, 2013.

Flicek P, Amode MR, Barrell D, et al. Ensembl 2011. Nucleic Acids Res. 2011;39:D800-D806.

Pruitt KD, Tatusova T, Klimke W, Maglott DR. Sequenze di riferimento NCBI: stato attuale, politica e nuove iniziative. Nucleic Acids Res. 2009;37:D32-D36.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.