captcha image

A password will be e-mailed to you.

To skomplikowane. Co prawda 20 lat temu odtrąbiono finał projektu Human Genome Project, ale to nie znaczy, że od dwóch dekad wszystko już wiemy.

Ale… jesteśmy już naprawdę bardzo, bardzo blisko. W 2021 roku do znanej sekwencji genomu dodano ponad 200 milionów par zasad (“liter”), a także 115 genów kodujących białka. Na poznanie pełnej sekwencji wciąż czeka jednak kilka trudniejszych regionów, w tym chromosom Y – najmniejszy i najbardziej zagadkowy ze wszystkich ludzkich chromosomów.

Kiedy niespełna 20 lat temu ogłoszona została sekwencja genomu człowieka (tak, chodzi właśnie o zakończenie projektu Human Genome Project, tworzonego przez konsorcjum HGP i Celera Genomics) wcale nie była ona tak kompletna, jak mogło nam się wtedy wydawać. Brakowało około 15% sekwencji genomu. Zaledwie dwie dekady temu ograniczenia technologiczne były jednak na tyle istotne, że nie dawały naukowcom możliwości odczytywania pewnych regionów DNA, zwłaszcza tych, w których występuje wiele powtórzeń nukleotydowych. Do takich obszarów nalezą np. centromery i telomery, czyli – w sporym uproszczeniu – regiony środkowe i końcowe chromosomów.

W kolejnych latach postęp technologiczny umożliwiał badaczom odczytywanie i dodawanie kolejnych elementów, aż w 2013 roku ogłoszono kolejną wersję ludzkiego genomu, którą do dziś używa się jako referencyjnej. Znowu jednak nie była to pełna wersja – brakowało około 8%.

Kolejne lata i dalszy rozwój technologii, w tym algorytmów mapujących kawałki genomu, doprowadził do odczytania następnych brakujących kawałków: dodano ponad 200 milionów par zasad do całej sekwencji DNA, a także 115 genów kodujących białka. To oznacza, że dzisiaj znamy dokładnie 19969 takich genów, a pełna sekwencja haploidalna (czyli zawierająca połowę chromosomów, druga połowa jest jej „kopią”) ludzkiego genomu ma około 3,1 miliarda par zasad.  

Szacuje się, że nawet w obrębie znanej sekwencji około 0,3% może wciąż zawierać błędy, wynikające na przykład z niedokładności poprzednich technologii. Sugeruje się zatem sprawdzanie całości genomu wraz z rozwojem technologii sekwencjonowania, a w efekcie konieczność aktualizowania całego genomu referencyjnego, co zresztą ma miejsce co pewien czas.

A na czym dokładnie polegają owe technologiczne nowości, dzięki którym wiemy coraz więcej o sekwencji genomu? Przede wszystkim są to możliwości odczytywania coraz dłuższych sekwencji DNA, co znacznie ułatwia późniejsze dopasowywanie do siebie kawałków w procesie obróbki danych. To tak, jakbyśmy nagle otrzymali ten sam obrazek do ułożenia puzzli, ale już nie z 1000 kawałków, ale powiedzmy 300 części – będą one większe i łatwiejsze do połączenia. Genom jest bowiem sekwencjonowany w małych kawałkach, odcinkach DNA, a dopiero później zaawansowane algorytmy komputerowe składają sekwencję w jedną całość. Dominująca dotąd technologia firmy Illumina, jakkolwiek rewolucyjna, umożliwiała odczytywanie fragmentów o długości około 120-150 par zasad, czasem nieco dłuższych. To jednak było dalece niewystarczające, gdy chodziło o odczytywanie regionów zawierających wiele powtórzeń, takich jak telomery. Na scenie pojawiły się jednak nowe technologie, umożliwiające znacznie dłuższe odczyty, na przykład Nanopore czy Pacific Biosciences, dzięki którym odczytanie odcinków 20 000 par zasad i dłuższych fragmentów nie stanowi już wyzwania.

Tym razem jednak rośnie poziom skomplikowania analiz bioinformatycznych, stanowiących właściwe serce badań całego genomu człowieka. Kluczowe staje się już nie działanie w laboratorium typu „wet-lab”, ale zaplecze IT, w tym bardzo mocne i szybkie komputery czy ogromne zasoby pamięci do przechowywania i przetwarzania danych. Wychodzące z sekwenatora pliki danych to wciąż przynajmniej 60 GB na jeden genom, a to dopiero początek – takie surowe dane trzeba należycie obrobić, aby możliwe było wyciągnięcie z nich pożądanych informacji. Długie odczyty to również nowe wyzwania dla specjalistów od analizy danych genomowych, a tych ogromnie brakuje.

Naukowcy jednak nie zadowolili się już prawie pełną sekwencją genomu i zapowiadają dalsze intensywne prace. Na uwagę zasługuje zwłaszcza konsorcjum „Telomere-to-Telomere” (czyli od końca do końca, bo tak chcemy poznać sekwencję genomu) zrzeszające ponad 30 instytucji z całego świata. Celem jego utworzenia jest właśnie współpraca zmierzająca do odczytania ostatnich już brakujących elementów genomowych puzzli, w tym pełnej sekwencji maleńkiego „igreka”.

Źródła:

https://www.nature.com/articles/d41586-021-01506-w

https://www.quantamagazine.org/karen-miga-fills-in-the-missing-pieces-of-our-genome-20210908/

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6107-1

https://cen.acs.org/biological-chemistry/genomics/Full-human-genome-sequenced-20/99/i21

Nie ma więcej wpisów