scinquisitor (scinquisitor) wrote,
scinquisitor
scinquisitor

  • Mood:

История геномики (Часть 1: геномные проекты)

  Это часть 1 истории геномики, которая называется  "геномные проекты". В этой части я постараюсь научно-популярно рассказывать о том, как появились первые методы чтения генетических последовательностей, в чем они заключались и как геномика двигалась от чтения  отдельных генов к чтению полных геномов, в том числе полных геномов конкретных людей.

  Часть 2 истории геномики называется "ДНК технологии" и будет посвящена самым современным и необычным методам секвенирования - чтения генетических последовательностей и другим технологиям, связанным с молекулами ДНК. Смотреть здесь scinquisitor.livejournal.com/9261.html


  Вскоре после открытия Уотсона и Крика [1] (Рис.1) рождается наука геномика. Геномика – это наука об исследовании геномов организмов, которая включает интенсивное чтение полных последовательностей ДНК (секвенирование) и их нанесение на генетические карты. Это наука так же рассматривает взаимодействия между генами и аллелями генов и их разнообразие, закономерности в эволюции и устройства геномов. Развитие этой области происходило так стремительно, что еще совсем недавно текстовые редакторы вроде Microsoft Word не знали слова “геном” и пытались исправить его на слово “гном”.


Рис. 1 Джеймс Уотсон (слева) и Френсис Крик (справа) – ученые открывшие двойную спираль ДНК
 
  Самый первый прочтенный ген был ген оболочки бактериофага MS2, изученный в лаборатории Валтера Файерса в 1972-ом году [2]. В 1976-ом были известны и другие гены бактериофага – его репликаза, ген отвечающий за размножение вирусных частиц [3]. Короткие молекулы РНК тогда уже читались сравнительно легко, но крупные молекулы ДНК читать толком еще не умели. К примеру, полученная в 1973-ем году Вальтером Гилбертом и Алленом Максам [4] последовательность участка гена лактозного оперона, длинной в 24 буквы, рассматривалась как существенный прорыв в науке. Вот эта последовательность:

 
5'—TGGAATTGTGAGCGGATAACAATT 3'
3'—ACCTTAACACTCGCCTATTGTTAA 5'

 
  Первые техники чтения ДНК были очень неэффективными и использовали радиоактивные метки для ДНК и химические методы, чтобы различить нуклеотиды. Например, можно было взять ферменты, которые разрезают нуклеотидную последовательность с разной вероятностью после разных букв. Молекула ДНК состоит из 4-ех букв (нуклеотидов) A, T, G и С, которые входят в состав двойной анти-параллельной (две цепи направлены в противоположные стороны) спирали. Внутри этой спирали нуклеотиды находятся друг напротив друга в соответствии с правилом комплементарности: напротив А в другой цепи стоит T, напротив G стоит С и наоборот.

  Гилберт и Максам использовали 4 типа ферментов. Один разрезал после А или G, но лучше после A (A>G), второй разрезал лучше после G (G>A), третий после C, а четвертый после С или T (С+T) [5]. Реакция проводилась в 4-ех пробирках с каждым типом ферментов, а затем продукты помещали на гель. ДНК – заряженная молекула и при включении тока бежит от минуса к плюсу. Маленькие молекулы бегут быстрее, поэтому разрезанные молекулы ДНК выстраиваются по длине. Глядя на 4 дорожки геля, можно было сказать в какой последовательности расположены нуклеотиды.

  Прорыв в области секвенирования ДНК случился, когда английский биохимик Фредерик Сенгер в 1975-ом году предложил, так называемый “метод терминации цепи” для чтения последовательностей ДНК. Но прежде чем рассказать об этом методе, необходимо ввести в курс процессов происходящих при синтезе новых молекул ДНК. Для синтеза ДНК необходим фермент – ДНК-зависимая ДНК полимераза, которая способен достраивать одноцепочечную молекулу ДНК до двухцепочечной. Для этого ферменту необходима “затравка” – праймер, короткая последовательность ДНК, способная связаться с длинной одноцепочечной молекулой, которую мы хотим достроить до двухцепочечной. Так же необходимы сами нуклеотиды в форме нуклеотидтрифосфатов и некоторые условия, такие как определенное содержание ионов магния в среде и определенная температура. Синтез всегда идет в одном направлении от конца называемого 5’ к концу называемому 3’. Разумеется, для чтения ДНК необходимо большое количество матрицы – то есть копий той ДНК, которую собираются читать.

  В 1975-ом году Сенгер придумал следующее. Он брал специальные (терминирующие) нуклеотиды, которые, присоединившись к растущей цепи молекулы ДНК, мешали присоединению последующих нуклеотидов, то есть “обрывали” цепь. Далее он брал 4 пробирки, в каждую из которых добавлял все 4 типа нуклеотидов и один тип терминирующих нуклеотидов в небольшом количестве [6]. Таким образом, в пробирке, где находился терминирующий нуклеотид “А” синтез каждой новой молекулы ДНК мог оборваться в любом месте, где должна была встать “А”, в пробирке с терминирующей “G” – в любом месте, где должна встать G и так далее. На гель наносились 4 дорожки из 4-ех пробирок (Рис. 2) и снова самые коротки молекулы “убегали” вперед, а самые длинные оставались в начале, а по отличиям в полосах можно было сказать, какой нуклеотид следует за каким. Чтобы увидеть полосы, один из четырех нуклеотидов (A, T, G или C) метился, без изменения химических свойств, с использованием радиоактивных изотопов.
 
Рис. 2 Метод Сангера. Показаны три серии из 4-ех дорожек.


  С помощью этого метода был прочитан первый геном, основанный на ДНК – геном бактериофага ϕX174, длинной 5,386 нуклеотидов (геном фага MS2, прочитанный ранее был на основе РНК и имел геном длинной 3,569 нуклеотидов).

  Метод Сенгера был существенно улучшен в лаборатории Лероя Худа, где в 1985-ом году радиоактивную метку смогли заменить светящейся, флюрисцентной меткой [7]. Это дало возможность создать первый автоматический секвенатор: каждая молекула ДНК теперь была покрашена разным цветом в зависимости от того, какой была последняя буква (меченый цветом нуклеотид, обрывающий цепь). Фрагменты разделялись на геле по размерам и машина автоматически считывала спектр свечения поступающих полос, выдавая результаты на компьютер. В результате такой процедуры получается хроматограмма (Рис. 2), по которой легко установить последовательность ДНК длинной до 1000 букв, с очень небольшим количеством ошибок.


Рис. 3  Пример хроматограммы, на современном секвенторе, использующий метод обрывания цепи Сангера и светящуюся метку.


  На многие годы улучшенный метод Сенгера станет основным методом массового секвенирования геномов и будет использован для многих проектов полных геномов, а Сенгер в 1980-ом получит вторую нобелевскую премию по химии (первую он получил еще в 1958-ом за прочтение аминокислотной последовательности белка инсулина – первого прочитанного белка). Первым полным геномом клеточного организма стал геном бактерии, вызывающей некоторые формы пневмонии и менингита - Haemophilus influenzae [8] в 1995-ом году. Геном этой бактерии имел длину 1,830,137 нуклеотидов. В 1998-ом году появляется первый геном многоклеточного животного, круглого червяка Caenorhabditis elegans [9] (Рис. 4 справа), с 98 миллионами нуклеотидов, а затем в 2000-ом году появляется первый растительный геном – Arabidopsis thaliana [10] (Рис. 4 слева), родственницы хрена и горчицы. Геном этого растения имеет длину 157 миллионов нуклеотидов. Скорость и масштабы секвенирования росли с изумительной скоростью и появляющиеся базы данных нуклеотидных последовательностей пополнялись все быстрее и быстрее.

Рис. 4 Arabidopsis thaliana (слева) и Caenorhabditis elegans (справа).

  Наконец, настал черед генома млекопитающих: геномы мыши и человека. Когда в 1990-ом году Джеймс Уотсон возглавил проект чтения полного генома человека в Институте Национального Здоровья (NIH) в США многие ученые скептически относились к этой идее. Подобный проект требовал колоссальных вложений денег и времени и, учитывая ограниченные возможности существовавших машин для чтения геномов, многим казался просто не выполнимым. С другой стороны проект обещал революционные изменения в медицине и понимании устройства человеческого организма, но и здесь были свои проблемы. Дело в том, что в тот момент не существовало какой-либо точной оценки количества генов у человека. Многие полагали, что сложность устройства человеческого организма указывает на наличие у него сотен тысяч генов, а может и несколько миллионов, а, следовательно, разобраться в таком количестве генов, даже если их последовательности удастся прочитать, будет непосильной задачей. Именно в наличии большого количества генов многие предполагали принципиальное отличие человека от других животных – представление, впоследствии опровергнутое проектом генома человека.

  Сама идея прочитать геном человека родилась в 1986-ом году по инициативе Департамента Энергии США, который впоследствии финансировал проект вместе с NIH. Стоимость проекта была оценена в 3 миллиарда долларов, а сам проект был рассчитан на 15 лет при участии в проекте целого ряда стран: Китай, Германия, Франция, Великобритания и Япония. Для чтения генома человека использовались так называемые “искусственные бактериальные хромосомы” (BAC – bacterial artificial chromosome). При этом подходе геном разрезаются на множество частей, длинной примерно в 150000 тысяч нуклеотидов. Эти фрагменты встраивают в искусственные кольцевые хромосомы, которые встраиваются в бактерии. С помощью бактерий эти хромосомы размножаются, и ученые получают множество копий одного и того же фрагмента молекулы ДНК. Каждый такой фрагмент затем читается отдельно, а прочитанные куски по 150000 нуклеотидов наносятся на карту хромосомы. Данный метод позволяет довольно точно секвенировать геном, однако требует очень больших затрат времени.

  Но проект генома человека двигался крайне медленными темпами. Ученый Крейг Вентер и его компания Celera Genomics, основанная в 1998-ом году, сыграли примерно такую же роль в истории геномики, как Советский Союз повлиял на полет американцев на луну. Вентер заявил, что его компания закончит проект генома человека раньше, чем завершится государственный проект. На проект потребуется всего 300 миллионов долларов – лишь малую фракцию от затрат государственного проекта, используя новую технологию секвенирования “whole genome shotgun” – чтение случайных коротких фрагментов генома. Когда Френсис Коллинс, сменивший в 1993-ем году Джеймса Уотсона на посту руководителя проекта по чтению генома человека, узнал о намерениях Вентера, он был шокирован. “Мы сделаем геном человека, а вы можете сделать мышку” – предложил Вентер. Научное сообщество всполошилось, и на то был ряд причин. Во-первых, Вентер обещал закончить свой проект в 2001-ом году, на 4 года раньше срока, намеченного для государственного проекта. Во-вторых, компания Celera Genomics собиралась заработать на проекте, создав абсолютную базу данных, которая была бы платной для коммерческих фармоцевтических компаний.

  В 2000-ом году Селера доказала эффективность своего метода секвенирования, опубликовав геном плодовой мушки дрозофилы вместе  с лабораторией генетика Джеральда Рубина [11] (ранее whole genome shotgun использовался для прочтения первого генома бактерии, но мало кто верил, что этот метод пригоден для крупных геномов). Именно такой пинок со стороны коммерческой компании стимулировал разработку улучшенных и применение более современных методов чтения геномов в проекте генома человека. В 2001-ом году был опубликован предварительный вариант генома со стороны государственного геномного проекта и Селеры [12, 13]. Тогда  была сделана предварительная оценка количества генов в геноме человека, 30-40 тысяч. В 2004-ом году вышла окончательная версия генома [14], почти на два года раньше, чем следовало по плану. В последней статье было сказано, что количества генов у человека предположительно составляет лишь 20-25 тысяч. Это число сравнимо с другими животными, в частности с червяком C. elegans.

  Практически никто не угадал, что количество генов, обеспечивающих работу нашего организма, может быть столь мало. Позже стали известны и другие подробности: геном человека имеет длину около трех миллиардов нуклеотидов, большую часть генома составляют не кодирующие последовательности, в том числе всевозможные повторы. Лишь небольшая часть генома действительно содержит гены – участки ДНК, с которых считываются функциональные молекулы РНК. Интересный факт, что по мере увеличения знаний о геноме человека, число предполагаемых генов только сокращалось: многие потенциальные гены оказывались псевдогенами (не работающими генами), в других случаях несколько генов оказывались частью одного и того же гена.

  Дальнейшие темпы секвенирования возрастали экспоненциально. В 2005-ом году опубликован геном Шимпанзе [15], который подтвердил потрясающее сходство между обезьянами и человеком, которое видели еще зоологи прошлого. К 2008-ому году были полностью прочитаны геномы  32-ух позвоночных, включая кошку, собаку, лошадь, макаку, орангутанга и слона, 3 генома беспозвоночных вторичноротых, 15 геномов насекомых, 7 геномов червяков и сотни геномов бактерий.

  Наконец в 2007-ом человечество приблизилась к возможности секвенирования геномов индивидуальных людей. Первым человеком, для которого прочитали полный индивидуальный геном, стал Крейг Вентер [16] (Рис. 4). При этом геном был прочитан так, что можно было сравнить хромосомы Вентера, доставшиеся ему от обоих родителей. Так было выяснено, что между одним и другим набором хромосом внутри одного человека существует около трех миллионов однобуквенных нуклеотидных отличий, не считая огромного количества крупных варьирующих участков. Год спустя опубликован полный диплоидный геном Джеймса Уотсона  [17] (Рис. 5). Геном Уотсона содержал 3.3 миллиона однобуквенных замен по сравнению с аннотированным геномом человека, из которых более 10000 вели к изменением в белках, которые кодируют его гены. Геном Уотсона обошелся в 1 миллион долларов, то есть цена на чтение геномов упала более чем в 3000 раз за 10 лет, но и это не предел. Сегодня перед учеными стоит задача ‘1 геном – 1000 $ - 1 день” и она уже не кажется невыполнимой с появлением новых технологий секвенирования. О них расскажет следующая часть "истории".

Рис. 5 Джеймс Уотсон и Крейг Вентер – первые люди с индивидуальными прочитанными геномами.
  1. Watson J, Crick F: A Structure for Deoxyribose Nucleic Acid. Nature 1953(171):737-738.
  2. Min Jou W, Haegeman G, Ysebaert M, Fiers W: Nucleotide sequence of the gene coding for the bacteriophage MS2 coat protein. Nature 1972, 237(5350):82-88.
  3. Fiers W, Contreras R, Duerinck F, Haegeman G, Iserentant D, Merregaert J, Min Jou W, Molemans F, Raeymaekers A, Van den Berghe A et al: Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene. Nature 1976, 260(5551):500-507.
  4. Gilbert W, Maxam A: The nucleotide sequence of the lac operator. Proc Natl Acad Sci U S A 1973, 70(12):3581-3584.
  5. Maxam AM, Gilbert W: A new method for sequencing DNA. Proc Natl Acad Sci U S A 1977, 74(2):560-564.
  6. Sanger F, Nicklen S, Coulson AR: DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 1977, 74(12):5463-5467.
  7. Smith LM, Sanders JZ, Kaiser RJ, Hughes P, Dodd C, Connell CR, Heiner C, Kent SB, Hood LE: Fluorescence detection in automated DNA sequence analysis. Nature 1986, 321(6071):674-679.
  8. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM et al: Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 1995, 269(5223):496-512.
  9. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science 1998, 282(5396):2012-2018.
  10. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 2000, 408(6814):796-815.
  11. Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF et al: The genome sequence of Drosophila melanogaster. Science 2000, 287(5461):2185-2195.
  12. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA et al: The sequence of the human genome. Science 2001, 291(5507):1304-1351.
  13. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W et al: Initial sequencing and analysis of the human genome. Nature 2001, 409(6822):860-921.
  14. Finishing the euchromatic sequence of the human genome. Nature 2004, 431(7011):931-945.
  15. Initial sequence of the chimpanzee genome and comparison with the human genome. Nature 2005, 437(7055):69-87.
  16. Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G et al: The diploid genome sequence of an individual human. PLoS Biol 2007, 5(10):e254.
  17. Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT et al: The complete genome of an individual by massively parallel DNA sequencing. Nature 2008, 452(7189):872-876.
Часть 2 - здесь scinquisitor.livejournal.com/9261.html
Tags: ДНК, биология, геномика, наука
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 9 comments