Wprowadzenie

Liczba chorób ma podłoże genetyczne. Niektóre z nich są konsekwencją braku lub dysfunkcji danego białka z powodu mutacji w genie kodującym. Tak jest w przypadku chorób dziedziczonych w sposób mendlowski, takich jak choroba Huntingtona, talasemia i około 1000 innych rzadkich chorób dziedzicznych.1 Wiele chorób ma podłoże genetyczne, nawet jeśli nie wynikają one wyłącznie z mutacji pojedynczego genu, a coraz większa liczba wariantów genetycznych i polimorfizmów jest identyfikowana jako czynniki ryzyka dla złożonych chorób.2 Rak jest chorobą genetyczną spowodowaną mutacją jednego lub więcej genów, które albo zwiększają ryzyko zachorowania na raka (np. mutacje w linii zarodkowej), albo sprzyjają rozwojowi raka (onkogeny), albo upośledzają mechanizmy komórkowe kontrolujące proliferację komórek (geny supresorowe), jak to ma miejsce w przypadku mutacji somatycznych.3

Identyfikacja genetycznych podstaw tych chorób była jeszcze kilka lat temu pracochłonnym i trudnym przedsięwzięciem. Projekty te często rozpoczynały się od identyfikacji regionu genomu potencjalnie zaangażowanego w przekazywanie choroby za pomocą genetycznych badań asocjacyjnych.1 Analiza dużych rodzin z kilkoma dotkniętymi chorobą członkami jest zwykle wymagana do zdefiniowania regionu genomu, który jest wysoce związany z przekazywaniem choroby. Na ogół region ten zawiera kilka genów, które muszą być sekwencjonowane w celu zidentyfikowania mutacji genowej obecnej u wszystkich dotkniętych chorobą osób, a nie u ich zdrowych krewnych, w przypadku dziedziczenia dominującego. W przypadku dziedziczenia recesywnego, mutacja powinna być obecna w obu allelach członków dotkniętych chorobą i w jednym, lub żadnym, z alleli nie dotkniętych chorobą krewnych.

Diagnozowanie chorób genetycznych było, i w większości przypadków nadal jest, równie pracochłonne. W najlepszym przypadku, choroba może pochodzić z mutacji w tylko jednym genie. Diagnoza wymagałaby określenia sekwencji nukleotydów tylko tego genu. Zazwyczaj gen jest amplifikowany jako kilka fragmentów przez reakcje łańcuchowe polimerazy i określana jest sekwencja nukleotydów każdego z nich. Często choroba może być spowodowana mutacjami w którymkolwiek z kilku genów i wszystkie z nich muszą być amplifikowane i sekwencjonowane w celu znalezienia genetycznego pochodzenia choroby u dotkniętych nią pacjentów. Na przykład w dyskeratozie wrodzonej mutacje mogą występować w każdym z genów dkc, tert, terc, NOP10, NH2 lub TINF2, a liczba dotkniętych genów może być jeszcze większa, ponieważ istnieje pewna grupa pacjentów, u których nie zidentyfikowano mutacji powodującej chorobę.4,5 Sekwencja nukleotydów wszystkich tych genów musi być określona w celu molekularnej diagnostyki każdego pacjenta. W różnych typach nowotworów znajdujemy kilka zmutowanych genów.3 Diagnostyka molekularna wymaga określenia sekwencji nukleotydowej kilku z tych genów. Obecnie jest to pracochłonny i kosztowny proces, który nie może być stosowany w dużej populacji pacjentów. W praktyce do diagnostyki i leczenia sekwencjonuje się tylko kilka genów, które są zmutowane u istotnego odsetka pacjentów dotkniętych niektórymi typami nowotworów.

Tylko w ciągu ostatnich kilku lat opracowano techniki jednoczesnego wykrywania wielu wariantów sekwencji w danej próbce. Wiele z nich opartych jest na technologii mikromacierzy kwasu deoksyrybonukleinowego (DNA). W matrycach genotypowych, na szkiełku mikroskopowym umieszcza się oligonukleotydy zawierające aktywnie zidentyfikowane mutacje związane z daną chorobą. Próbka DNA pacjenta jest dodawana na szkiełko, a hybrydyzujące oligonukleotydy są identyfikowane. Miliony znanych mutacji mogą być testowane w pojedynczej hybrydyzacji mikromacierzy.6 Wariacje liczby kopii mogą być również analizowane przy użyciu mikromacierzy DNA zaprojektowanych w celu wykrycia obecności regionów DNA, które są duplikowane lub usuwane w DNA pacjenta.7 Techniki te są często wykorzystywane w badaniach medycznych oraz w diagnostyce klinicznej.8

Dużym krokiem w medycynie molekularnej jest jednak niedawny rozwój technologii masowego sekwencjonowania, które pozwalają na określenie sekwencji nukleotydowej DNA pacjenta w krótkim czasie i za przystępną cenę.9,10 Metodyki te są stosowane od 2005 roku i opierają się na jednoczesnym określeniu sekwencji nukleotydowej milionów fragmentów DNA. Nazwano je sekwencjonowaniem drugiej generacji, sekwencjonowaniem następnej generacji, głębokim sekwencjonowaniem lub masywnie równoległym sekwencjonowaniem. Tysiące milionów sekwencji nukleotydowych jest określanych za pomocą tych maszyn w czasie nie dłuższym niż 2 tygodnie. Przykładem możliwości tych nowych systemów sekwencjonowania jest fakt, że opublikowane w 2001 roku przełomowe sekwencjonowanie pierwszego ludzkiego genomu11 wymagało skoordynowanej pracy 23 laboratoriów, która trwała 13 lat, a jej całkowity koszt wyniósł około 3 mld USD. Dzięki nowym metodologiom sekwencjonowanie ludzkiego genomu zajmuje jedno laboratorium i około 2 tygodni, z przybliżonym kosztem 4 000 USD.

Dostępność nowoczesnych metodologii sekwencjonowania powoduje wykładniczy wzrost naszej wiedzy o ludzkim genomie, zmienności wśród osób i identyfikacji wariantów genetycznych w chorobach. Na przykład te metodologie są podstawą trwającego Projektu 1000 Genomes,12 mającego na celu określenie kompletnej sekwencji nukleotydów około 1000 osób z różnych środowisk geograficznych i etnicznych, aby określić średnią zmienność sekwencji wśród osób i zidentyfikować najczęstsze polimorfizmy.

Masywne technologie sekwencjonowania rozwijają się obecnie w szybkim tempie. Powstają coraz mniejsze, szybsze maszyny i wprowadzane są nowe metody sekwencjonowania. Ważnym celem jest na przykład sekwencjonowanie pojedynczej cząsteczki DNA z pojedynczej komórki.13,14 Poza wyzwaniami technicznymi, postęp stale obniża cenę sekwencjonowania DNA, tak że cel, jakim jest sekwencjonowanie ludzkiego genomu za 1000 USD, wydaje się być osiągalny w ciągu kilku lat. Obecnie sekwencjonowanie całego ludzkiego genomu i analiza wszystkich wygenerowanych danych sekwencyjnych jest skomplikowana, kosztowna i czasochłonna, dlatego wiele badań prowadzi się na mniejszej części genomu. Szczególnie dużo uwagi poświęca się obecnie sekwencjonowaniu regionu kodującego białka w genomie, zwanego egzomem. Sekwencjonowanie egzomu jest znacznie bardziej przystępne niż sekwencjonowanie całego genomu, a możliwości, zalety i ograniczenia tej techniki zostaną omówione w tym przeglądzie.

Co to jest egzom?

Prawie wszystkie ludzkie geny kodujące białka mają nieciągłą strukturę. Region kodujący białko jest podzielony na kilka części, zwanych eksonami. Egzony są połączone przez niekodujące białek fragmenty DNA, czyli introny, jak pokazano schematycznie na rycinie 1. Geny są transkrybowane z regionu promotorowego pod kontrolą kilku regionów regulatorowych, które są obecne w różnych miejscach w stosunku do genu, w górę, w dół lub nawet wewnątrz genu. W wyniku transkrypcji powstaje pierwotny transkrypt, który zawiera egzony i introny. Kolejne procesy splicingu kwasu rybonukleinowego (RNA) usuwają introny i łączą egzony, aby wygenerować dojrzałe messenger RNA (mRNA), które zawiera tylko jeden ciągły region kodujący białko. Ostatnie badania wykazały, że pierwotne transkrypty większości genów mogą być splicingowane na kilka sposobów, dając początek różnym dojrzałym mRNA zawierającym specyficzne kombinacje eksonów, znane jako alternatywne warianty splicingowe (Rysunek 1). Te mRNA kodują izoformy białek, które mają pewne wspólne regiony, ale także różnią się od innych, w zależności od włączonych eksonów.15

Analiza ludzkiego genomu wykazała, że geny kodujące białka stanowią niewielką część DNA, tylko około 3%.16 Egzony stanowią jeszcze mniejszą część, bo 1% genomu.16 Podsumowanie tych danych przedstawiono w tabeli 1. Genom ludzki składa się z 3,3 ×109 par zasad (bp) i zawiera 20 078 genów kodujących białka.17 Każdy gen jest podzielony na średnią liczbę ośmiu eksonów, z których każdy ma długość około 170 bp. Wszystkie eksony jako całość zawierają około 3 ×107 bp. Jednakże sekwencjonowanie wszystkich eksonów dostarcza tych samych informacji o sekwencji aminokwasów kodowanych białek, co sekwencjonowanie całego genomu, z wyjątkiem mutacji, które zmieniają splicing mRNA, co zostanie omówione w rozdziale Sekwencjonowanie egzomu i analiza danych. Ten system sekwencjonowania wszystkich eksonów został nazwany sekwencjonowaniem egzomu i stał się obowiązującą metodą wykrywania zmian w sekwencji aminokwasowej wszystkich ludzkich białek.18 Bardzo wyraźna różnica wielkości sprawia, że sekwencjonowanie egzomów jest znacznie tańsze niż sekwencjonowanie genomów, a to ułatwia analizy obliczeniowe i funkcjonalne wygenerowanych danych sekwencyjnych.

Rysunek 1 Schematyczne przedstawienie struktury i ekspresji genów.
Uwagi: Geny kodujące białka składają się z eksonów, które zawierają informację kodującą białko (ramki), oddzielonych niekodującymi intronami (linie). Szare ramki wskazują regiony kodujące białka eksonów, a białe ramki reprezentują 5′ i 3′ nieulegające translacji regiony mRNA. Geny są transkrybowane z regionów promotorowych, bezpośrednio przed eksonem 1. Miejsce startu transkrypcji jest zaznaczone strzałką. Ekspresja genu jest kontrolowana przez szereg regionów TR, które mogą znajdować się przed lub za genem, w różnych odległościach lub wewnątrz genu (najczęściej w intronach). Stabilność mRNA i translacja mogą być regulowane przez wiązanie mikroRNA do specyficznych miejsc w regionie 3′ nieulegającym translacji (oznaczone gwiazdkami). Geny są transkrybowane na pierwotne RNA zawierające introny i eksony. Kolejne procesy splicingu eliminują introny w celu wytworzenia dojrzałego mRNA. Alternatywne procesy splicingu mogą prowadzić do powstania różnych mRNA, w zależności od zawartych w nich eksonów (mRNA1, mRNA2), które kodują różne izoformy białka.
Skróty: TR, transcription regulatory region; RNA, ribonucleic acid; mRNA, messenger ribonucleic acid.

Tabela 1 Ogólna charakterystyka ludzkiego genomu i egzomu

Techniki wychwytywania eksomów

Pierwszym i najbardziej krytycznym krokiem w sekwencjonowaniu eksomów jest izolacja lub wychwytywanie eksonów. Stosowane metody opierają się na hybrydyzacji DNA. Analiza ludzkiego genomu umożliwiła identyfikację wszystkich eksonów genowych, a także ułatwiła zaprojektowanie sond oligonukleotydowych specyficznych dla każdego z nich. Sondy te są wykorzystywane do oczyszczania eksonów z DNA.19 Pierwszym krokiem jest fragmentacja DNA na fragmenty nie większe niż 500 bp. Następnie DNA jest hybrydyzowane do specyficznych dla egzonów sond oligonukleotydowych, a zhybrydyzowane fragmenty są oczyszczane. Hybrydyzacja może być przeprowadzona w fazie ciekłej. W tym przypadku, oligonukleotydy są znakowane tak, że kompleksy DNA-oligonukleotydy mogą być oddzielone od większej ilości niezhybrydyzowanego DNA. W powszechnym przykładzie, oligonukleotydy są kowalencyjnie związane z biotyną, tak aby hybrydy DNA-oligonukleotyd mogły być izolowane przy użyciu cząsteczki wiążącej biotynę, streptawidyny, sprzężonej z kulkami magnetycznymi. Fragmenty DNA, które nie zawierają eksonów, nie wiążą się z kulkami streptawidyny i mogą być skutecznie usunięte po kilku etapach płukania. Fragmenty zawierające eksony, związane z kulkami, mogą być odzyskane po dysocjacji hybryd DNA-oligonukleotydy w warunkach niskiej siły jonowej.

Eksony mogą być również izolowane poprzez hybrydyzację do stałego podłoża, na którym umieszczono specyficzne dla eksonów oligonukleotydy, tak jak w przypadku mikromacierzy DNA. W tym przypadku, pofragmentowane DNA jest rozprowadzane na oligonukleotydach, aby umożliwić hybrydyzację. Później niehybrydyzowane DNA jest wymywane, a DNA wzbogacone o eksony jest eluowane w warunkach niskojonowych.

Różni dostawcy komercyjni oferują zestawy do izolacji eksomów przy użyciu protokołów hybrydyzacji w fazie ciekłej, w tym Agilent Technologies (Santa Clara, CA, USA), Roche NimbelGen, Inc. (Madison, WI, USA), Illumina, Inc. (San Diego, CA, USA) i Life Technologies (Carlsbad, CA, USA). Zestawy te pozwalają na wyizolowanie ponad 90% eksonów obecnych w genomie, z ponad 90% specyficznością, przy przybliżonej cenie 150 USD za eksom. Kilku autorów porównało te platformy wychwytywania eksomów,20-22 a dane uzyskane przez Clark i wsp.22 porównujące SureSelect Human All Exon 50 Mb (Agilent Technologies), SeqCap EZ Exome Library v2.0 firmy Roche NimbleGen, Inc. i zestawy TruSeq Exome Enrichment firmy Illumina, Inc. podsumowano w tabeli 2. Niektóre z tych zestawów, oprócz regionów kodujących białka, obejmują również regiony nieulegające translacji w mRNA, co pozwala na analizę regionów regulacyjnych, takich jak miejsca wiązania mikroRNA (miRNA). Uwzględnienie regionów 5′ nieulegających translacji pozwala również na analizę proksymalnych regionów promotorowych.22 Ponadto większość zestawów obejmuje do 80% regionów kodujących miRNA.21 Ostatnio ci i inni dostawcy opracowali ulepszone zestawy, tak więc dane przedstawione w tabeli 2 należy traktować wyłącznie jako wskazówkę. Ważne jest, aby zauważyć, że oczyszczanie eksonów jest etapem krytycznym. Odzyskanie 100% eksonów jest trudne, a eksony są często tracone lub niedostatecznie reprezentowane w wyizolowanym egzomie. Na przykład, jeśli analizowany jest egzom pacjenta, a 10% eksonów zostanie utraconych podczas oczyszczania, prawdopodobieństwo braku istotnej mutacji będzie wynosić około 10% z powodu tego błędu technicznego. Dlatego stosowanie wysoce wydajnych procedur przechwytywania eksonów ma krytyczne znaczenie w sekwencjonowaniu eksomów.

Tabela 2 Porównanie trzech głównych platform przechwytywania eksonów
Note: aPorównanie odpowiednio baz danych Ensemble81 i RefSeq82; bprocent wybranych regionów sekwencjonowanych przez każdą platformę co najmniej dziesięć razy po analizach 80 mega odczytów sekwencji DNA. Agilent Technologies (Santa Clara, CA, USA); Roche NimbelGen, Inc. (Madison, WI, USA); Illumina, Inc. (San Diego, CA, USA).
Skróty: mRNA, messenger ribonucleic acid; miRNA, micro ribonucleic acid; DNA, deoxyribonucleic acid.

Sekwencjonowanie eksomów i analiza danych

Fragmenty zawierające eksony są sekwencjonowane przy użyciu dowolnego z obecnie dostępnych systemów lub technologii sprzętu do masowego sekwencjonowania. Jak wspomniano we wstępie, platformy te określają sekwencję nukleotydową milionów fragmentów DNA jednocześnie. Wyznaczona długość sekwencji każdego fragmentu w sekwencjonowaniu eksomu nie jest duża, zazwyczaj wynosi od 35 bp do 100 bp. Jednakże, ponieważ DNA było początkowo fragmentowane losowo, każdy pojedynczy nukleotyd będzie obecny w wielu nakładających się na siebie fragmentach. Dlatego, jeśli uzyska się wystarczająco dużą liczbę sekwencji, nawet jeśli są one krótkie, każda baza będzie niezależnie sekwencjonowana w kilku fragmentach DNA. Liczba powtórzeń sekwencjonowania każdej zasady nazywana jest pokryciem lub głębokością sekwencjonowania. Pokrycie jest bezpośrednio związane z jakością i pewnością wygenerowanej sekwencji nukleotydów. Ogólnie, pokrycie 20×-30× jest uważane za niezbędne do uzyskania wiarygodnych wyników w sekwencjonowaniu eksomów.59 Taka głębokość sekwencjonowania oznacza, że możliwa zmiana sekwencji byłaby sekwencjonowana niezależnie w 20-30 różnych fragmentach DNA.

Analiza danych jest ostatnim krokiem w projektach sekwencjonowania eksomów (Rysunek 2). Jak wspomniano wyżej, generowane są dane z milionów sekwencji, a ich analiza wymaga specyficznych i skomplikowanych programów komputerowych oraz specjalistycznej wiedzy.19,23 Wstępnym krokiem jest analiza jakości generowanych sekwencji. Badana jest dokładność odczytu sekwencji przy różnych długościach sekwencji, średnia długość odczytów, a także inne parametry. Jeśli jakość jest wystarczająco dobra, każda sekwencja porównywana jest z sekwencją referencyjną, którą zazwyczaj jest ostatnia dostępna wersja sekwencji genomu ludzkiego. Zazwyczaj ponad 80% wygenerowanych sekwencji może być wyrównanych z genomem referencyjnym.22 Krok ten dopuszcza niewielki stopień zmienności nukleotydów w stosunku do genomu referencyjnego. Następnym krokiem w analizie jest identyfikacja wariantów sekwencji między sekwencją referencyjną a sekwencją egzomu uzyskaną w naszym badaniu. Późniejsze analizy tych wariantów mogłyby dostarczyć pożądanych informacji na temat badanego problemu medycznego.

Rysunek 2 Analiza danych z sekwencjonowania egzomów.
Notatki: Schematycznie przedstawiono kroki wymagane do izolacji egzomu, sekwencjonowania i analizy danych. Proces ten prowadzi do identyfikacji wariantów genów zaangażowanych w powstawanie chorób (geny sprawcze) lub w inny sposób związanych z podatnością na choroby, ewolucją lub odpowiedzią farmaceutyczną. Dane te dostarczają cennych informacji dla diagnozy i prognozy, dla doradztwa genetycznego oraz dla projektowania spersonalizowanych metod leczenia.
Skróty: DNA, kwas dezoksyrybonukleinowy.

Sekwencjonowanie eksomu może wykryć kilka rodzajów różnic genetycznych. Jedną z najczęściej wykrywanych różnic jest zamiana jednego nukleotydu na inny, na przykład A na G (kodon ATA na ATG). Różnice te nazywane są wariantami pojedynczego nukleotydu (SNV), choć za polimorfizmy pojedynczego nukleotydu (SNP) uważa się te, których częstość występowania w populacji jest większa niż 1%-5% i nie ma silnego wpływu na ryzyko wystąpienia jakiejkolwiek choroby. Większość SNV jest niema lub znana jako synonimiczna, ponieważ oba warianty sekwencji kodują ten sam aminokwas (np. zmiana GCA na GCC, ponieważ oba są kodonami alaniny). Większość z tych polimorfizmów nie reprezentuje żadnej różnicy dla kodowanego białka, nie podlega selekcji ewolucyjnej i stanowi najczęściej spotykane warianty w ludzkim egzomie. Wyjątkiem są niektóre ciche mutacje, które wpływają na sygnały regulujące splicing, a nawet miejsca regulujące transkrypcję, zmieniając splicing mRNA lub ekspresję, nawet jeśli nie zmieniają kodowanych aminokwasów. W innych przypadkach zmiany nukleotydów mają konsekwencje w kodowanym białku i są to warianty nonsilentne lub nonsynonimiczne. Zmiany te mogą powodować zmiany w kodowanym aminokwasie (na przykład GAT na GAG zmienia kwas asparaginowy na kwas glutaminowy) i są nazywane mutacjami chybionymi. Bardziej drastyczne zmiany powstają, gdy zmiana nukleotydu tworzy kodon zatrzymujący translację (na przykład TGC na TGA zmienia kodon cysteiny na kodon zatrzymujący), co nazywane jest mutacją nonsensowną. Istnieje również rodzaj SNV, który może być wykryty przez sekwencjonowanie eksomu, nawet jeśli nie wpływa na kodony białkowe. Ponieważ eksony są wybierane po losowej fragmentacji DNA, mogą one również zawierać sąsiadujące regiony DNA, w tym sąsiednie sekwencje intronów, a nawet promotory genów, jeśli wychwycono regiony nieulegające translacji.24 Regiony intronów zawierają sygnały regulacyjne wymagane do splicingu mRNA. SNV w tych regionach mogą zmieniać splicing na różne sposoby.15 Na przykład, dotknięty intron może być zachowany w dojrzałym mRNA lub sąsiadujący z nim ekson może ulec splicingowi (pominięcie eksonu). Zmiany te zmieniają sekwencję nukleotydów dojrzałego mRNA, a tym samym kodowane białko poniżej SNV.25 Sekwencjonowanie egzomu może również wykryć zmiany sekwencji spowodowane małymi insercjami lub delecjami (indelami).22 Zmiany te mogą powodować przesunięcie ramki, z wyjątkiem sytuacji, gdy dotyczą trzech lub wielokrotności trzech nukleotydów. W takim przypadku powstałyby małe delecje lub insercje aminokwasów.

Identyfikacja mutacji sprawczych

Funkcjonalne znaczenie wykrytych wariantów sekwencji musi być określone w następnym kroku analizy danych. Nawet jeśli wszyscy ludzie są niemal identyczni z genetycznego punktu widzenia, liczba różnic w sekwencji nukleotydów między osobnikami jest znaczna.26 Ta heterogeniczność komplikuje interpretację danych uzyskanych w poszczególnych projektach sekwencjonowania. Niektóre ogólne dane dotyczące indywidualnych różnic sekwencji przedstawiono w tabeli 3. Biorąc pod uwagę cały genom, liczbę różnic sekwencji między osobnikami oszacowano na 4 × 106, zgodnie z danymi uzyskanymi w ramach 1000 Genomes Project i mniejszych projektów sekwencjonowania całych genomów.27 Egzomy wykazują mniejszą, ale nadal znaczną liczbę różnic sekwencji, wynoszącą około 20 000-25 000 między dwoma niespokrewnionymi osobnikami.27,28 Większość z tych wariantów genetycznych jest niema, jak omówiono wcześniej. Liczbę nieciągłych różnic sekwencji między osobnikami oszacowano na 10 000. Większość z tych wariantów występuje w populacji ogólnej i jest przekazywana przez pokolenia. Oszacowano, że mniej niż jeden nonsilentny SNV pojawia się de novo u każdego osobnika.29

Dane uzyskane w projektach sekwencjonowania egzomu są często filtrowane w celu identyfikacji wszystkich SNP, które są obecne u innych osób i które w związku z tym nie są związane z badaną chorobą.2,19,23 Proces ten można przeprowadzić poprzez porównanie z publicznymi bazami danych, w których zestawione są SNP, które zostały znalezione w projektach sekwencjonowania. Zastrzeżeniem, które należy wziąć pod uwagę, jest fakt, że wszystkie duże bazy danych zawierają pewną liczbę udowodnionych mutacji powodujących stosunkowo częste choroby. Po tym etapie filtrowania pozostaje około 400-700 nowych i prawdopodobnie istotnych SNV (Tabela 3).28 Kolejnym wyzwaniem jest określenie, które z SNV, które nie występują w populacji globalnej, jeśli w ogóle, leżą u podłoża badanej choroby. Wiele z zaobserwowanych różnic nie będzie związanych z żadną częstością występowania choroby i są one znane jako zmiany pasażerskie.23 W przeciwieństwie do tego, jedna lub kilka zmian może mieć rolę przyczynową i są one nazywane zmianami kierującymi. Podejście stosowane do identyfikacji tych zmian będzie zależało od szczególnych okoliczności badania. W chorobach o mendlowskim wzorcu dziedziczenia zwykle konieczne jest przeanalizowanie pewnej liczby osób dotkniętych i nie dotkniętych chorobą, aby znaleźć warianty genów, które doskonale segregują z chorobą. Takie porównanie jest bardziej pouczające w dużych rodzinach z dobrze scharakteryzowanymi rodowodami. W przypadku braku wystarczająco dużych rodzin dotkniętych chorobą, porównanie pewnej liczby niespokrewnionych pacjentów i osób z grupy kontrolnej również pozwala na identyfikację genów sprawczych. Dodatkowe kryteria są wykorzystywane do wyboru możliwych SNV związanych z chorobą, w tym algorytmy in silico, które przewidują możliwe znaczenie zmutowanego aminokwasu na podstawie zachowania ewolucyjnego oraz przewidywanego wpływu na strukturę i funkcję białka. Przewidywana funkcja zmutowanego białka i jego tkankowo-specyficzny wzorzec ekspresji są również kryteriami wykorzystywanymi w wyborze mutacji przyczynowych.

Tabela 3 Podsumowanie zmienności sekwencji wśród osobników

Kilka przykładów tego typu badań zostanie przedstawionych w późniejszej części. Jednakże, ponieważ przeprowadza się coraz więcej badań, coraz więcej wariantów genów jest identyfikowanych jako powodujące choroby dziedziczne, co czyni prawdopodobnym, że niektóre z genów zmutowanych u pacjenta zostałyby już opisane. Takie zmutowane geny można znaleźć w literaturze oraz w specjalistycznych bazach danych, takich jak baza Online Mendelian Inheritance in Man (http://www.omim.org). Możliwe znaczenie mutacji znalezionych w różnych genach można również wyszukać na stronie Genome Ensemble (http://www.ensembl.org/), jeśli zostały one wcześniej opisane.

Nowotwory są prawdopodobnie najbardziej rozpowszechnioną grupą chorób o podłożu genetycznym. Wiele badań skierowano na określenie genów kierujących różnymi typami nowotworów.30 Wyłaniającą się grupę genów kierujących nowotworami można sprawdzić w takich bazach danych, jak Catalogue of Somatic Mutations In Cancer (COSMIC; http://cancer.sanger.ac.uk) czy The Cancer Genome Atlas (http://cancergenome.nih.gov/). Kilka bardziej szczegółowych przykładów zostanie przedstawionych w części Przykłady klinicznego zastosowania sekwencjonowania eksomu.

Porównanie sekwencjonowania eksomu do innych masowych podejść sekwencjonowania

Sekwencjonowanie genomu

Jak wspomniano we Wprowadzeniu, sekwencjonowanie całego ludzkiego genomu staje się coraz bardziej przystępne. W porównaniu z sekwencjonowaniem eksomów, sekwencjonowanie całego genomu jest znacznie bardziej złożoną alternatywą. Liczba reakcji sekwencjonowania, które muszą być przeprowadzone jest znacznie większa, podobnie jak liczba generowanych danych sekwencji nukleotydów. Analiza obliczeniowa jest znacznie zwiększona. Ponadto wykrywa się znacznie więcej wariantów genetycznych, jak pokazano w tabeli 3, co utrudnia identyfikację genów sprawczych. Sekwencjonowanie genomu daje jednak pełny obraz zmian genetycznych występujących u pacjenta, w tym dużych reorganizacji genomu. Jednakże, sekwencjonowanie genomu z krótkimi odczytami o umiarkowanej głębokości przeoczy zmiany strukturalne, zwłaszcza w regionach o niskiej złożoności. Informacje te podsumowano w tabeli 4, w której porównano sekwencjonowanie eksomu z innymi metodami sekwencjonowania.

Jak wspomniano wcześniej, geny kodujące białka stanowią tylko 3% genomu.16 Do niedawna resztę genomu uważano za „masowe DNA” bez większej wartości informacyjnej. Jednak ostatnie badania całkowicie zmieniły ten punkt widzenia. Duży projekt obejmujący cały genom bada funkcje wszystkich regionów genomu, projekt Encyclopedia of DNA Elements (ENCODE).31 Obecnie dostępne wyniki pokazują, że ponad 70% genomu jest transkrybowane. Wiele z generowanych transkryptów nie koduje białek, ale wydaje się pełnić rolę regulacyjną w ekspresji genów. Wśród nich znajdują się znane już miRNA, które regulują stabilność mRNA i translację (Rycina 1), ale także ponad 20 000 długich niekodujących RNA, które regulują transkrypcję. Ponadto zidentyfikowano wiele regionów DNA, które regulują ekspresję genów, w tym wiele wcześniej nieznanych regionów promotorowych i regulujących transkrypcję (Rycina 1). Informacje te mają znaczenie kliniczne, ponieważ mutacje w regionach regulatorowych mogą wpływać na ekspresję określonych genów i mogą mieć skutki patologiczne. W rzeczywistości duża część badań asocjacyjnych obejmujących cały genom powiązała regiony DNA, w których nie znaleziono mutacji kodujących białka, ze stanami patologicznymi.32 Dane wygenerowane w ramach projektu ENCODE pozwoliły na rewizję niektórych przypadków, w których stwierdzono, że mutacje w regionach regulacyjnych ekspresji genów są odpowiedzialne za chorobę.31,32 Również w niedawnym przykładzie Weedon i wsp.33 podali, że mutacje w regionie regulacyjnym transkrypcji genu PTF1A powodują izolowaną agenezję trzustki. Mutacje w regionach regulatorowych nie mogą być wykryte przez sekwencjonowanie eksomu, ponieważ nie wpływają one na kodowane białko, ale na jego ekspresję. Dlatego sekwencjonowanie całego genomu dostarcza więcej informacji niż sekwencjonowanie egzomu kosztem zwiększonej złożoności i kosztów ekonomicznych.

Tabela 4 Porównanie technik masywnego sekwencjonowania
Skróty: RNA, kwas rybonukleinowy; DNA, kwas dezoksyrybonukleinowy.

Sekwencjonowanie RNA

Techniki sekwencjonowania RNA polegają na przekształceniu populacji RNA w komplementarny DNA (cDNA) poprzez odwrotną transkrypcję i ich późniejsze sekwencjonowanie.34,35. W przypadku sekwencjonowania mRNA kompletna populacja mRNA ulegająca ekspresji w linii komórkowej lub próbce tkanki (znana jako transkryptom) jest przekształcana do cDNA i sekwencjonowana. Proces sekwencjonowania mRNA dostarcza informacji o sekwencji nukleotydów genów, które są transkrybowane w analizowanej próbce, a tym samym o sekwencji aminokwasów odpowiadających im białek. Ponadto, liczba sekwencji generowanych dla każdego mRNA może być oszacowana i jest proporcjonalna do jego obfitości. Dlatego poziomy ekspresji genów mogą być określone i porównane z poziomami innych próbek, w tym ewentualnych próbek kontrolnych (Tabela 4). Inną szczególną zaletą sekwencjonowania mRNA jest to, że pozwala ono na badanie alternatywnych zdarzeń splicingowych.36,37 Jak wspomniano wcześniej, pierwotne transkrypty są często przetwarzane na wiele sposobów, dając początek mRNA, które zawiera różne eksony (rysunek 1). Te mRNA mogą być identyfikowane przez sekwencjonowanie mRNA, a nie przez sekwencjonowanie egzomu lub genomu, które określa sekwencjonowanie DNA podlegającego transkrypcji, a nie dojrzałego transkryptu. W przeciwnym razie, sekwencjonowanie mRNA i egzomu dostarcza podobnych informacji o regionie kodującym białka w genomie. Różnica polega na tym, że sekwencjonowanie eksomu obejmuje wszystkie geny, a sekwencjonowanie mRNA jest ograniczone do genów ulegających ekspresji w analizowanej próbce. Na przykład w niedawnym badaniu sekwencjonowania mRNA linii komórkowych limfoblastoidów pochodzących od 462 osób określono sekwencję kodującą około 13 000 genów spośród 20 078 genów ludzkich.38 W tym przykładzie około 7 000 genów nie zostało zbadanych, ponieważ nie ulegały one ekspresji w liniach komórkowych limfoblastoidów. Jednakże w tych przypadkach, w których typ komórki lub tkanki dotkniętej daną chorobą jest dobrze znany, sekwencjonowanie mRNA byłoby równoważne z sekwencjonowaniem eksomu dla badania mutacji kierujących. Inną cechą sekwencjonowania mRNA jest to, że umożliwia ono wykrywanie zmian sekwencji powstałych w wyniku edycji RNA.39 Pewna liczba mRNA jest przetwarzana w taki sposób, że niektóre nukleotydy są zmieniane, a zmiany adenozyny na inozynę są najczęściej wytwarzane. Zmiany te są wykrywane przez sekwencjonowanie mRNA, ale nie można określić, czy powstały one w wyniku edycji RNA, czy też są konsekwencją zmian genomowych, chyba że porówna się sekwencje mRNA i genomowe.

Określanie poziomów ekspresji mRNA może być bardzo wygodne w niektórych przypadkach, ponieważ niektóre choroby mogą być spowodowane rozregulowaną ekspresją jednego lub więcej genów. Zmiany w poziomach ekspresji mogą być bardzo pouczające na temat genetycznego pochodzenia choroby. Na przykład, zmiany w ekspresji jednego lub więcej genów u pacjenta mogą wskazywać na dysfunkcję w mechanizmach regulujących ich ekspresję. Dysfunkcja ta może być spowodowana mutacjami w regionach regulujących transkrypcję genów, jak to omówiono w części dotyczącej sekwencjonowania genomu. Może być również spowodowana zmianami w ekspresji lub strukturze czynników regulujących transkrypcję.40 Zmiany w ekspresji genów często wynikają ze zmian w epigenetycznych mechanizmach regulacji ekspresji genów, takich jak metylacja DNA, których nie można wykryć za pomocą sekwencjonowania genomu lub egzomu.41 Ostatnio opracowano metody badania metylacji całego genomu, które pozwalają na szczegółowe zbadanie tej informacji epigenetycznej.42 Nowotwory są jedną z chorób, w przypadku których przeprowadzono więcej badań dotyczących poziomu ekspresji genów. W coraz większej liczbie przypadków zmiany w ekspresji genów lub grupy genów są związane z rozpoznaniem nowotworu, rokowaniem lub przewidywaniem odpowiedzi na leki przeciwnowotworowe.43 Te zmiany w ekspresji genów są wykorzystywane jako biomarkery. Wiele z tych badań jest dostępnych za pośrednictwem bazy danych Cancer Genome Anatomy Project (http://cgap.nci.nih.gov).

Szczególny rodzaj projektu sekwencjonowania RNA ma na celu określenie sekwencji nukleotydów i poziomów ekspresji małych regulatorowych RNA (miRNA). Małe RNA regulują ekspresję innych genów poprzez określanie stabilności i/lub translacji ich mRNA (Rysunek 1). Zmiany we wzorcach ekspresji miRNA mogą więc mieć znaczący wpływ na profil ekspresji białek w komórkach i tkankach. Opracowano protokoły oczyszczania i sekwencjonowania kompletnej populacji miRNA danej próbki oraz określania poziomu ich ekspresji.44 Większość platform do wychwytywania eksonów obejmuje również do 80% znanych regionów kodujących miRNA.21

Sekwencjonowanie wybranych zestawów genów

Niektóre choroby zostały już zbadane na tyle szczegółowo, że znana jest większość genów biorących w nich udział. Tak może być w przypadku chorób o mendlowskim wzorcu dziedziczenia, w których wszystkie badane przypadki wynikają z mutacji w którymś z wielu znanych genów. Innymi przykładami są niektóre rodzaje raka, które są w przeważającej mierze spowodowane mutacjami w ograniczonej liczbie genów. W takich przypadkach, bardziej bezpośrednim podejściem do charakteryzowania próbki pacjenta byłoby określenie sekwencji genów uprzednio zidentyfikowanych jako powodujące chorobę. Klasyczne podejście polegałoby na amplifikacji wszystkich eksonów tych genów i określeniu sekwencji nukleotydów każdego z nich. Alternatywne podejście polegające na masowym sekwencjonowaniu polegałoby na oczyszczeniu wszystkich przypuszczalnych regionów genomowych i jednoczesnym określeniu ich sekwencji nukleotydowej w jednym przebiegu.45-47 Do oczyszczania kandydujących regionów DNA stosuje się na ogół dwie metody. Pierwszą z nich jest ich amplifikacja za pomocą łańcuchowych reakcji polimerazy z wykorzystaniem zestawu specyficznych oligonukleotydów jako starterów. Druga metoda polega na fragmentacji DNA próbki i oczyszczeniu odpowiednich fragmentów przez hybrydyzację do specyficznych oligonukleotydów, w roztworze lub przytwierdzonych do stałego podłoża, jak to opisano wcześniej dla oczyszczania eksonów.48 Wybrane regiony mogą zawierać kodujące białka eksony, a także inne regiony DNA, takie jak regiony regulacyjne transkrypcji. Regiony te odpowiadają zwykle kilkuset genom i dlatego analiza wygenerowanych danych sekwencyjnych jest znacznie łatwiejsza niż w innych metodach masowego sekwencjonowania. Głównym ograniczeniem jest to, że jest to podejście oparte na hipotezach, które nie pozwala na wykrycie mutacji w genach niezwiązanych wcześniej z badaną chorobą (Tabela 4).

Przykłady klinicznego zastosowania sekwencjonowania eksomowego

Najczęstszym zastosowaniem sekwencjonowania eksomowego jest prawdopodobnie diagnostyka chorób monogenowych. Opisano ponad 3000 zaburzeń monogenowych, chociaż molekularne przyczyny genetyczne większości z nich są nadal nieznane.1 Sekwencjonowanie eksomu może być wykorzystane do identyfikacji tych mutacji, co omówili Kuhlenbäumer i wsp.1 w niedawnym przeglądzie. W niektórych z pierwszych badań sekwencjonowanie eksomu wykorzystano do identyfikacji mutacji genetycznych odpowiedzialnych za znane choroby, takie jak zespół Kabuki,49 Schinzel-Giedion,50 Joubert,51 i zespół niedorozwoju umysłowego z hiperfosfatazją,52 ciężkie wady rozwojowe mózgu,53 lub znane stwardnienie zanikowe boczne.54 Sekwencjonowanie eksomu wykorzystano również do odkrycia nowych mutacji obecnych w sporadycznym przypadku niedorozwoju umysłowego.29 Ponadto technikę tę stosowano w diagnostyce, na przykład, wrodzonej biegunki chlorkowej,55 nieswoistych zapaleń jelit,56 choroby Charcota-Marie-Tootha,57 cukrzycy noworodków,58 lub zespołu Browna-Vialetto-van Laere’a.59 Badanie przedstawione przez Wortheya i wsp.56 stanowi istotny przykład klinicznego zastosowania sekwencjonowania eksomów. U dziecka płci męskiej stwierdzono chorobę podobną do choroby Leśniowskiego-Crohna bez ostatecznego rozpoznania, mimo wszechstronnej oceny klinicznej. Autorzy zdecydowali się na zastosowanie sekwencjonowania eksomowego w celu zidentyfikowania mutacji odpowiedzialnej za chorobę. Analiza danych sekwencyjnych wykryła u pacjenta 16 124 warianty. Filtrowanie danych przy uwzględnieniu nowych wariantów występujących w homozygotyczności, hemizygotyczności lub heterozygotyczności złożonej i przy jednoczesnym wpływie na wysoce konserwowane reszty aminokwasowe, które mogą być szkodliwe dla funkcji białka, pozwoliło autorom wybrać mutację w genie X-linked inhibitor of apoptosis (XIAP). Badania funkcjonalne wykazały znaczenie tej mutacji w odpowiedzi prozapalnej obserwowanej u pacjentki. Na podstawie identyfikacji tej mutacji wykonano allogeniczny przeszczep komórek progenitorowych układu krwiotwórczego. Sekwencjonowanie eksomów pozwoliło zatem na identyfikację niecharakteryzowanej mutacji w celu postawienia diagnozy molekularnej u indywidualnego pacjenta, w warunkach nowej choroby, co zaowocowało opracowaniem planu postępowania. Wykorzystanie sekwencjonowania eksomowego w odkrywaniu nowych mutacji przyczynowych i w diagnostyce zostało niedawno poddane przeglądowi.60,61

Badanie powszechnych i złożonych chorób również zostało przeprowadzone za pomocą sekwencjonowania eksomowego. Badania asocjacyjne obejmujące cały genom wykazały, że niektóre warianty genetyczne zwiększają ryzyko wielu chorób. Dobrze scharakteryzowanymi przykładami są apolipoproteina E w chorobie Alzheimera, czynnik H dopełniacza w zwyrodnieniu plamki żółtej lub glukocerebrozydaza/kinaza 2 z powtórzeniami bogatymi w leucynę w chorobie Parkinsona.62-64 Omówiono możliwość wykorzystania sekwencjonowania eksomu do badania chorób złożonych.2,28 Jednym z ograniczeń wykorzystania sekwencjonowania eksomu w tych badaniach jest fakt, że większość wariantów związanych z fenotypem leży dystalnie od regionów kodujących białka, co sprawia, że sekwencjonowanie całego genomu byłoby lepszym podejściem.32 Niektóre z tych wariantów genetycznych mogą wpływać na funkcjonalność regionów regulujących transkrypcję, które kontrolują ekspresję genów. W ramach projektu ENCODE31,65 przeprowadzono ogólnogenomową analizę tych regionów regulacyjnych i stwierdzono, że kilka wariantów genetycznych w określonych regionach chromosomu 5 (na przykład) jest miejscami wiązania czynnika transkrypcyjnego GATA2, które są silnie związane z chorobą Leśniowskiego-Crohna i innymi chorobami zapalnymi.

Nowotwory są chorobami spowodowanymi nagromadzeniem zmian genomowych, które prowadzą do zmiany wielu procesów biologicznych.19 W przeciwieństwie do omówionych wcześniej monogenowych zmian genetycznych, większość mutacji kierujących nowotworami nie występuje w prawidłowej tkance pacjenta; duża część tych mutacji rezyduje w regionach kodujących białka i może być wykryta za pomocą sekwencjonowania eksomu.19 Jednak inną ważną grupą zmian genetycznych są duże reorganizacje genomowe, takie jak delecje, inwersje lub translokacje, których nie można wykryć za pomocą sekwencjonowania eksomu.66 Pomimo tego ograniczenia, sekwencjonowanie eksomu zastosowano do odkrycia genów kierujących nowotworami, stosując dwie ogólne strategie: porównanie egzomu guza z egzomem zdrowych tkanek tego samego pacjenta lub porównanie egzomu pewnej liczby niespokrewnionych pacjentów z egzomem podobnej liczby zdrowych kontroli.67-70 Obecnie prowadzone są szeroko zakrojone badania polegające na sekwencjonowaniu egzomu lub genomu dużej kohorty chorych na nowotwory i osób z grupy kontrolnej w celu zidentyfikowania wszystkich genów sterujących nowotworami.19,71,72 Przykładem jest projekt 5000 genomów nowotworowych,73 którego celem jest sekwencjonowanie genomu 50 najczęstszych typów nowotworów. Dostępne dane pozwoliły już na poznanie ogólnego krajobrazu genomowego najczęściej występujących nowotworów, co zostało opisane przez Vogelstein i wsp.3 Zidentyfikowano około 140 genów, które zmienione promują nowotworzenie, co można znaleźć we wspomnianej wcześniej bazie danych COSMIC.3 Wykrycie mutacji jednego z tych genów w egzomie próbki nowotworu może być ważnym krokiem w kierunku właściwej diagnozy i leczenia pacjenta. Obecne dane dają również wyobrażenie o złożoności genomu nowotworowego.3 Pospolite guzy lite prezentują średnią liczbę od 33 do 66 nietoksycznych mutacji somatycznych.3 Liczba ta wzrasta do ponad 200 w guzach indukowanych czynnikami mutagennymi, takich jak rak płuc i czerniak, a nawet do ponad 1000 w guzach z niedoborem mechanizmów naprawy DNA lub polimerazy DNA E.3 Natomiast guzy płynne i dziecięce prezentują mniej niż dziesięć mutacji somatycznych.3 Ważną cechą nowotworów jest to, że szybko ewoluują i stają się heterogenne, tak że różne mutacje mogą być znalezione w próbkach od tego samego pacjenta zebranych w różnych regionach lub w różnych okresach czasu w trakcie leczenia, jak ostatnio wykazano za pomocą sekwencjonowania egzomu.74,75 Pomimo tej złożoności pojawiają się pewne koncepcje unifikujące, a większość znanych genów kierujących nowotworami uczestniczy w jednym lub więcej z 12 szlaków regulujących przeżycie komórek, losy komórek i utrzymanie genomu.3,19 W tym scenariuszu sekwencjonowanie eksomu zaczyna być wykorzystywane do diagnostyki nowotworów poprzez identyfikację mutacji kierujących, na przykład w raku gruczołu krokowego.76

Sekwencjonowanie eksomu może być również przydatne w leczeniu nowotworów. Obecność pewnych mutacji genowych może nadawać wrażliwość lub oporność na dany lek, co zostało nazwane farmakogenomiką. Na przykład od kilku lat znane jest stosowanie inhibitorów białkowych kinaz tyrozynowych w nowotworach wykazujących nadekspresję białek Abelson murine leukemia viral oncogene homolog 1 (ABL) lub epidermal growth factor receptor (EGFR). Jednak metody sekwencjonowania egzomu i genomu ujawniają znacznie więcej mutacji odpowiadających na skojarzenia z leczeniem (co podkreślono w jednym z przeglądów77). Przykładem pouczającym jest niedawna publikacja egzomu panelu komórek NCI-60.78 Panel ten zawiera 60 dobrze scharakteryzowanych linii komórkowych z dziewięciu typów nowotworów i był wykorzystywany w szerokim zakresie badań biologicznych i farmakologicznych.79 Sekwencja nukleotydowa egzomu tych komórek została określona w celu ustalenia genów sterujących nowotworami zmutowanych w każdej z nich. Oprócz dostarczenia listy przypuszczalnych nowych genów kierujących nowotworami, autorzy zbadali możliwą korelację między genotypem każdej linii komórkowej a wcześniej ustaloną odpowiedzią na dużą liczbę środków przeciwnowotworowych. Stwierdzono korelację pomiędzy mutacjami konkretnych genów a odpowiedzią na kilka leków, co wskazuje na możliwe znaczenie sekwencjonowania eksomu w doborze spersonalizowanego leczenia. Sekwencjonowanie egzomu może być również wykorzystane do przewidywania predyspozycji do zachorowania na raka. Niektóre przykłady można znaleźć w niedawnym przeglądzie poświęconym rakowi jelita grubego i wykorzystującym sekwencjonowanie całego genomu.72

Wyzwania medyczne związane z sekwencjonowaniem eksomów

Sekwencjonowanie eksomów obiecuje znaczną poprawę w diagnozowaniu pacjentów, prognozowaniu i spersonalizowanym leczeniu. Jednak szerokie zastosowanie tej technologii nadal wymaga szeregu ulepszeń, a także określenia ważnych względów etycznych i medycznych, co zostało omówione w ostatnich przeglądach.23,27,60,61,71,77 Wyzwania techniczne obejmują opracowanie bardziej wydajnych technik wychwytywania eksonów, sekwencjonowania i wyrównywania w celu uzyskania pełnej i równomiernej reprezentacji wszystkich eksonów w sekwencji. Konieczne jest również udoskonalenie narzędzi oprogramowania do analizy danych w celu szybkiego i dokładnego wykrywania wariantów patologicznych. Szeroko zakrojone sekwencjonowanie eksomów będzie wymagało wdrożenia specjalistycznego sprzętu i zatrudnienia zespołów specjalistów z odpowiednią wiedzą do generowania sekwencji oraz analizy i interpretacji uzyskanych danych.

Wykorzystanie sekwencjonowania eksomów do diagnostyki będzie również wymagało wdrożenia wytycznych i regulacji technicznych. Parametry takie jak głębokość sekwencjonowania, pokrycie eksonów, metryki jakości danych sekwencji nukleotydów czy wywołanie wyrównania będą musiały zostać znormalizowane. Przechowywanie danych również powinno być uregulowane.

Istnieje również szereg złożonych kwestii etycznych. Ważna kwestia związana jest z informacjami, które powinny być przekazywane pacjentowi. Sekwencjonowanie eksomu może wykryć warianty genetyczne, które nie są związane z diagnozowaną chorobą. U pacjenta mogą występować warianty genetyczne, które stanowią czynniki ryzyka lub mogą być przyczyną innych chorób. Jakie informacje powinny być przekazane pacjentowi? Jakie dowody byłyby wymagane do uznania wariantu genetycznego za związany z chorobą? Kolejnymi istotnymi kwestiami są własność, dostęp i przechowywanie danych. Czy wygenerowane dane powinny być przechowywane do ewentualnego wykorzystania w przyszłości, za życia pacjenta? Te i inne względy etyczne będą prawdopodobnie budzić znaczne kontrowersje80 i będą wymagać szerokiej dyskusji w celu osiągnięcia porozumienia w sprawie kryteriów, które należy stosować w praktyce klinicznej.

Wniosek

Sekwencjonowanie eksomu jest już potężnym narzędziem stosowanym do określania molekularnego podłoża chorób genetycznych. Głębokość analizy genetycznej jest mniejsza niż w przypadku sekwencjonowania całego genomu, ponieważ nie są wykrywane warianty genetyczne w regionach niekodujących białek. Jednak mniejsza liczba sekwencji i analiz sekwencji wymaganych w przypadku sekwencjonowania eksomu sprawia, że jest to bardziej przystępne podejście w praktyce klinicznej. Dlatego też sekwencjonowanie eksomowe będzie prawdopodobnie techniką z wyboru dla wstępnej analizy pacjentów, przynajmniej do czasu obniżenia ceny sekwencjonowania całogenomowego i udoskonalenia procedury analizy znacznych ilości danych. Istotnym ograniczeniem zastosowania sekwencjonowania eksomowego w praktyce klinicznej jest fakt, że znaczenie funkcjonalne większości oczekiwanych wariantów genetycznych jest nadal nieznane. Sytuacja ta szybko się zmienia, ponieważ coraz większa liczba wariantów genetycznych związanych z chorobami jest oznaczana i udostępniana w publicznych bazach danych. Jest prawdopodobne, że w ciągu kilku lat będzie znana większość wariantów genetycznych związanych z ryzykiem zachorowania, z precyzyjną diagnostyką molekularną, przewidywaniem rozwoju choroby i odpowiedzią farmakologiczną. Dokładna znajomość egzomu lub genomu pacjenta będzie wtedy czynnikiem decydującym w praktyce medycznej.

Podziękowania

Wdzięcznie dziękuję Rosario Perona i Juliette Siegfried (ServingEdit.com) za krytyczną recenzję manuskryptu.

Ujawnienie

Autor nie zgłasza konfliktu interesów w tej pracy.

Kuhlenbäumer G, Hullmann J, Appenzeller S. Novel genomic techniques open new avenues in the analysis of monogenic disorders. Hum Mutat. 2011;32(2):144-151.

Kiezun A, Garimella K, Do R, et al. Exome sequencing and the genetic basis of complex traits. Nat Genet. 2012;44(6):623-630.

Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA Jr, Kinzler KW. Cancer genome landscapes. Science. 2013;339(6127):1546-1558.

Kirwan M, Dokal I. Dyskeratosis congenita: a genetic disorder of many faces. Clin Genet. 2008;73(2):103-112.

Walne AJ, Dokal I. Advances in the understanding of dyskeratosis congenita. Br J Haematol. 2009;145(2):164-172.

Brady PD, Vermeesch JR. Genomic microarrays: a technology overview. Prenat Diagn. 2012;32(4):336-343.

Hehir-Kwa JY, Pfundt R, Veltman JA, de Leeuw N. Pathogenic or not? Assessing the clinical relevance of copy number variants. Clin Genet. 2013;84(5):415-421.

Simons A, Sikkema-Raddatz B, de Leeuw N, Konrad NC, Hastings RJ, Schoumans J. Genome-wide arrays in routine diagnostics of hematological malignancies. Hum Mutat. 2012;33(6):941-948.

Metzker ML. Technologie sekwencjonowania – następna generacja. Nat Rev Genet. 2010;11(1):31-46.

Sastre L. New DNA sequencing technologies open a promising era for cancer research and treatment. Clin Transl Oncol. 2011;13(5):301-306.

Lander ES, Linton LM, Birren B, et al. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature. 2001;409(6822):860-921.

Abecasis GR, Auton A, Brooks LD, et al. 1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 2012;491(7422):56-65.

Yang Y, Liu R, Xie H, et al. Advances in nanopore sequencing technology. J Nanosci Nanotechnol. 2013;13(7):4521-4538.

Chen YS, Lee CH, Hung MY, Pan HA, Chiou JC, Huang GS. DNA sequencing using electrical conductance measurements of a DNA polymerase. Nat Nanotechnol. 2013;8(6):452-458.

Lu ZX, Jiang P, Xing Y. Genetic variation of pre-mRNA alternative splicing in human populations. Wiley Interdiscip Rev RNA. 2012;3(4):581-592.

Pruitt KD, Harrow J, Harte RA, et al. The consensus coding sequence (CCDS) project: Identifying a common protein-coding gene set for the human and mouse genomes. Genome Res. 2009;19(7):1316-1323.

Harrow J, Frankish A, Gonzalez JM, et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 2012;22(9):1760-1774.

Teer JK, Mullikin JC. Exome sequencing: the sweet spot before whole genomes. Hum Mol Genet. 2010;19(R2):R145-R151.

Liu X, Wang J, Chen L. Whole-exome sequencing reveals recurrent somatic mutation networks in cancer. Cancer Lett. 2013;340(2):270-276.

Parla JS, Iossifov I, Grabill I, Spector MS, Kramer M, McCombie WR. A comparative analysis of exome capture. Genome Biol. 2011; 12(9):R97.

Sulonen AM, Ellonen P, Almusa H, et al. Comparison of solution-based exome capture methods for next generation sequencing. Genome Biol. 2011;12(9):R94.

Clark MJ, Chen R, Lam HY, et al. Performance comparison of exome DNA sequencing technologies. Nat Biotechnol. 2011;29(10):908-914.

Gullapalli RR, Desai KV, Santana-Santos L, Kant JA, Becich MJ. Sekwencjonowanie następnej generacji w medycynie klinicznej: Challenges and lessons for pathology and biomedical informatics. J Pathol Inform. 2012;3:40.

Samuels DC, Han L, Li J, et al. Finding the lost treasures in exome sequencing data. Trends Genet. 2013;29(10):593-599.

Taneri B, Asilmaz E, Gaasterland T. Biomedical impact of splicing mutations revealed through exome sequencing. Mol Med. 2012;18:314-319.

Fu W, O’Connor TD, Jun G, et al; NHLBI Exome Sequencing Project. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 2013;493(7431):216-220.

Marian AJ. Wyzwania w medycznych zastosowaniach odkryć sekwencjonowania całych eksomów/genomów. Trends Cardiovasc Med. 2012;22(8):219-223.

Singleton AB. Exome sequencing: a transformative technology. Lancet Neurol. 2011;10(10):942-946.

Vissers LE, de Ligt J, Gilissen C, et al. A de novo paradigm for mental retardation. Nat Genet. 2010;42(12):1109-1112.

Gonzalez-Perez A, Perez-Llamas C, Deu-Pons J, et al. IntOGen-mutations identifies cancer drivers across tumor types. Nat Methods. 2013;10(11):1081-1082.

Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M; ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 2012;489(7414):57-74.

Hardison RC. Genome-wide epigenetic data facilitate understanding of disease susceptibility association studies. J Biol Chem. 2012;287(37):30932-30940.

Weedon MN, Cebola I, Patch AM, et al. International Pancreatic Agenesis Consortium. Recessive mutations in a distal PTF1A enhancer cause isolated pancreatic agenesis. Nat Genet. 2014;46(1):61-64.

Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009;10(1):57-63.

Mutz KO, Heilkenbrinker A, Lönne M, Walter JG, Stahl F. Transcriptome analysis using next-generation sequencing. Curr Opin Biotechnol. 2013;24(1):22-30.

Hitzemann R, Bottomly D, Darakjian P, et al. Genes, behavior and next-generation RNA sequencing. Genes Brain Behav. 2013;12(1):1-12.

Costa V, Aprile M, Esposito R, Ciccodicola A. RNA-Seq and human complex diseases: recent accomplishments and future perspectives. Eur J Hum Genet. 2013;21(2):134-142.

Lappalainen T, Sammeth M, Friedländer MR, et al; Geuvadis Consortium; Geuvadis Consortium. Transcriptome and genome sequencing uncovers functional variation in humans. Nature. 2013; 501(7468):506-511.

Slotkin W, Nishikura K. Adenosine-to-inosine RNA editing and human disease. Genome Med. 2013;5:105.

Lee TI, Young RA. Transcriptional regulation and its misregulation in disease. Cell. 2013;152(6):1237-1251.

Suvà ML, Riggi N, Bernstein BE. Epigenetic reprogramming in cancer. Science. 2013;339(6127):1567-1570.

Li P, Demirci F, Mahalingam G, Demirci C, Nakano M, Meyers BC. An integrated workflow for DNA methylation analysis. J Genet Genomics. 2013;40(5):249-260.

Chibon F. Cancer gene expression signatures – the rise and fall? Eur J Cancer. 2013;49:2000-2009.

Dedeoğlu BG. High-throughput approaches for microRNA expression analysis. Methods Mol Biol. 2014;1107:91-103.

Ni T, Wu H, Song S, Jelley M, Zhu J. Selective gene amplification for high-throughput sequencing. Recent Pat DNA Gene Seq. 2009; 3(1):29-38.

Barretina J, Caponigro G, Stransky N, et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature. 2012;483(7391):603-607.

Garnett MJ, Edelman EJ, Heidorn SJ, et al. Systematic identification of genomic markers of drug sensitivity in cancer cells. Nature. 2012;483(7391):570-575.

Hoischen A, Gilissen C, Arts P, et al. Massively parallel sequencing of ataxia genes after array-based enrichment. Hum Mutat. 2010;31(4):494-499.

Ng SB, Bigham AW, Buckingham KJ, et al. Exome sequencing identifies MLL2 mutations as a cause of Kabuki syndrome. Nat Genet. 2010;42(9):790-793.

Hoischen A, van Bon BW, Gilissen C, et al. De novo mutations of SETBP1 cause Schinzel-Giedion syndrome. Nat Genet. 2010;42(6):483-485.

Edvardson S, Shaag A, Zenvirt S, et al. Joubert syndrome 2 (JBTS2) in Ashkenazi Jews is associated with a TMEM216 mutation. Am J Hum Genet. 2010;86(1):93-97.

Krawitz PM, Schweiger MR, Rödelsperger C, et al. Identity-by-descent filtering of exome sequence data identifies PIGV mutations in hyperphosphatasia mental retardation syndrome. Nat Genet. 2010;42(10):827-829.

Bilgüvar K, Oztürk AK, Louvi A, et al. Whole-exome sequencing identifies recessive WDR62 mutations in severe brain malformations. Nature. 2010;467(7312):207-210.

Johnson JO, Mandrioli J, Benatar M, et al. ITALSGEN Consortium. Exome sequencing reveals VCP mutations as a cause of familial ALS. Neuron. 2010;68(5):857-864.

Choi M, Scholl UI, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 2009;106(45):19096-19101.

Worthey EA, Mayer AN, Syverson GD, et al. Making a definitive diagnosis: successful clinical application of whole exome sequencing in a child with intractable inflammatory bowel disease. Genet Med. 2011;13(3):255-262.

Montenegro G, Powell E, Huang J, et al. Exome sequencing allows for rapid gene identification in a Charcot-Marie-Tooth family. Ann Neurol. 2011;69(3):464-470.

Bonnefond A, Durand E, Sand O, et al. Molecular diagnosis of neonatal diabetes mellitus using next-generation sequencing of the whole exome. PLoS One. 2010;5(10):e13630.

Johnson JO, Gibbs JR, Van Maldergem L, Houlden H, Singleton AB. Exome sequencing in Brown-Vialetto-van Laere syndrome. Am J Hum Genet. 2010;87(4):567-9; odpowiedź autora 569.

Bras JM, Singleton AB. Exome sequencing in Parkinson’s disease. Clin Genet. 2011;80(2):104-109.

Topper S, Ober C, Das S. Exome sequencing and the genetics of intellectual disability. Clin Genet. 2011;80(2):117-126.

Corder EH, Saunders AM, Strittmatter WJ, et al. Gene dose of apolipoprotein E type 4 allele and the risk of Alzheimer’s disease in late onset families. Science. 1993;261(5123):921-923.

Klein RJ, Zeiss C, Chew EY, et al. Complement factor H polymorphism in age-related macular degeneration. Science. 2005;308(5720):385-389.

Tan EK. Identification of a common genetic risk variant (LRRK2 Gly2385Arg) in Parkinson’s disease. Ann Acad Med Singapore. 2006;35(11):840-842.

Libioulle C, Louis E, Hansoul S, et al. Novel Crohn disease locus identified by genome-wide association maps to a gene desert on 5p13.1 and modulates expression of PTGER4. PLoS Genet. 2007;3(4):e58.

Stephens PJ, Greenman CD, Fu B, et al. Massive genomic rearrangement acquired in a single catastrophic event during cancer development. Cell. 2011;144(1):27-40.

Jones S, Zhang X, Parsons DW, et al. Core signaling pathways in human pancreatic cancers revealed by global genomic analyses. Science. 2008;321(5897):1801-1806.

Parsons DW, Jones S, Zhang X, et al. An integrated genomic analysis of human glioblastoma multiforme. Science. 2008;321(5897):1807-1812.

Timmermann B, Kerick M, Roehr C, et al. Somatic mutation profiles of MSI and MSS colorectal cancer identified by whole exome next generation sequencing and bioinformatics analysis. PLoS One. 2010;5(12):e15661.

Varela I, Tarpey P, Raine K, et al. Exome sequencing identifies frequent mutation of the SWI/SNF complex gene PBRM1 in renal carcinoma. Nature. 2011;469(7331):539-542.

Ku CS, Cooper DN, Roukos DH. Clinical relevance of cancer genome sequencing. World J Gastroenterol. 2013;19(13):2011–2018.

Kilpivaara O, Aaltonen LA. Diagnostyczne sekwencjonowanie genomu nowotworów i udział wariantów germinalnych. Science. 2013;339(6127):1559-1562.

Hudson TJ, Anderson W, Artez A, et al; International Cancer Genome Consortium. International network of cancer genome projects. Nature. 2010;464(7291):993-998.

Gerlinger M, Rowan AJ, Horswell S, et al. Intratumor heterogeneity and branched evolution revealed by multiregion sequencing. N Engl J Med. 2012;366(10):883-892.

Ren SC, Qu M, Sun YH. Investigating intratumour heterogeneity by single-cell sequencing. Asian J Androl. 2013;15(6):729-734.

Hieronymus H, Sawyers CL. Traversing the genomic landscape of prostate cancer from diagnosis to death. Nat Genet. 2012;44(6):613-614.

McLeod HL. Cancer pharmacogenomics: early promise, but concerted effort needed. Science. 2013;339(6127):1563-1566.

Abaan OD, Polley EC, Davis SR, et al. The exomes of the NCI-60 panel: a genomic resource for cancer biology and systems pharmacology. Cancer Res. 2013;73(14):4372-4382.

Weinstein JN. Drug discovery: Linie komórkowe walczą z rakiem. Nature. 2012;483:544-545.

Shahmirzadi L, Chao EC, Palmaer E, Parra MC, Tang S, Gonzalez KD. Patient decisions for disclosure of secondary findings among the first 200 individuals undergoing clinical diagnostic exome sequencing. Genet Med. Epub October 10, 2013.

Flicek P, Amode MR, Barrell D, et al. Ensembl 2011. Nucleic Acids Res. 2011;39:D800-D806.

Pruitt KD, Tatusova T, Klimke W, Maglott DR. NCBI Reference Sequences: current status, policy and new initiatives. Nucleic Acids Res. 2009;37:D32-D36.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.