СОВРЕМЕННЫЕ ПРЕДСТАВЛЕНИЯ О СТРУКТУРЕ ГЕНА У ЭУКАРИОТ И. Ф. ЖИМУЛЕВ Новосибирский государственный университет ОБЩИЕ ПОЛОЖЕНИЯ Ген можно определить как единицу наследственной информации, занимающую определенное положение в геноме или хромосоме и контролирующую выполнение определенной функции в организме. По результатам исследований прокариот, главным образом бактерии Escherichia coli, ген состоит из двух основных элементов: регуляторной части, с которой связывается фермент РНК-полимераза, и собственно кодирующей части гена, в которой с помощью кодонов записана информация о структуре кодируемого данным геном полипептида. Регуляторная часть не транскрибируется, со структурной части считывается матричная РНК (мРНК). После достижения молекулой РНК-полимеразы участка терминации транскрипции фермент покидает матрицу ДНК и транскрипция заканчивается (рис. 1, а). Промоторы содержат две группы последовательностей с относительно строго фиксированным порядком расположения нуклеотидов, расположенных на определенных расстояниях как от точки инициации транскрипции, так и друг от друга (рис. 1, б ). Хотя следует подчеркнуть, что однозначность расположения нуклеотидов (консенсус) никогда не достигает 100%. У эукариот гены, так же как и геномы (совокупность генов в гаплоидном наборе ДНК), устроены сложнее. Прежде всего в составе геномов значительно больше ДНК, молекула мРНК содержит информацию не только о кодировании белка, но и другую информацию (рис. 1, в; см. также [3]). Структура регуляторной и кодирующих зон выглядит значительно более сложной. Откуда получают информацию об организации генов у эукариот? Основным источником остается метод генетического анализа с привлечением молекулярно-биологических методик. Кроме этого, к настоящему времени разрабатывается около 30 так называемых геномных проектов, например "Геном человека", "Геном дрозофилы", "Геном дрожжей" и т.д. Это, как правило, хорошо финансируемые работы, имеющие целью полную расшифровку ДНК, составляющей геном того или иного вида. Например, в проекте "Геном Anopheles gambiae" на первом этапе запланировано получить полный набор клонов, то есть коротких отрезков ДНК, в том порядке, в котором они располагаются в хромосомах. На втором этапе должна быть определена последовательность нуклеотидов в каждом клоне и как результат – во всем геноме. Стратегия других проектов и детали их реализации описаны в статье В.Н. Сойфера [4]. Такие работы наряду с гигантским толчком к развитию методик биотехнологии позволяют многое узнать об организации как геномов в целом, так и отдельных генов. В частности, можно узнать, как много нуклеотидов содержит тот или иной геном, определить соотношение кодирующей и некодирующей частей гена или соотношение интронов и экзонов в пределах кодирующей части. Некоторые результаты работ по определению генного состава геномов, как еще продолжающихся, так и уже законченных, представлены в табл. 1. Как следует из данных табл. 1, число генов варьирует в широких пределах – от 9 у мелкого бактериофага [X 174 до 19,5 тыс. у небольшого круглого червя нематоды Caenorhabditis elegans. По различным оценкам, число генов у человека варьирует в пределах от 50 до 70 тыс. РЕГУЛЯТОРНАЯ ЗОНА ГЕНА Регуляция транскрипции у эукариот отличается от таковой у прокариот тремя важными особенностями. Во-первых, у эукариот функционируют три разных типа РНК-полимераз: I, II и III. РНК-полимераза I считывает гены 18S, 28S и 5,8S рибосомных РНК, РНК-полимераза II считывает основную часть генов, кодирующих полипептиды, а также некоторых sn РНК (или малых ядерных РНК), РНК-полимераза III считывает гены 5S рибосомных РНК, транспортных РНК и остальных sn РНК. Во-вторых, РНК-полимераза эукариот не может самостоятельно инициировать транскрипцию. Для ее активирования необходимо большое число белков, называемых общими факторами транскрипции, которые должны объединяться в комплекс, прежде чем транскрипция начнется. Формирование комплекса – это многоступенчатый процесс, от прохождения этапов которого будет в конечном счете зависеть скорость инициации транскрипции. Во многих случаях регуляторные белки действуют, влияя главным образом на процесс сборки транскрипционного комплекса. И наконец, в-третьих, большинство регуляторных белков у эукариот могут влиять на скорость транскрипции, даже если эти белки связываются с участками ДНК, расположенными за тысячи пар нуклеотидов от промотора. Это означает, что любой конкретный промотор может находиться под контролем неограниченного числа регуляторных последовательностей, разбросанных по геному. Рассмотрим организацию контролирующей зоны для РНК-полимеразы II. Контролирующей областью называют последовательности ДНК, необходимые как для инициации транскрипции, так и для регулирования ее скорости и интенсивности. Поэтому контролирующий район состоит из промотора, на котором образуется комплекс из РНК-полимеразы II и общих факторов транскрипции, а также многочисленных регуляторных последовательностей, с которыми связываются различные регуляторные белки (рис. 2, а). Общие факторы транскрипции к настоящему времени очищены и выделены. Их шесть: TFIIA, TFIIB, TFIID, TFIIE, TFIIF и TFIIH. Вместе с РНК-полимеразой II они могут инициировать транскрипцию во внеклеточных системах in vitro. Некоторые из общих факторов транскрипции, в свою очередь, состоят из многих полипептидов. Наиболее интересны TFIID, которые в своем составе содержат белки TBP (TATA-box binding protein) и около восьми связанных с ними других молекул, так называемых TAF (TBP-associated factors). Сложную организацию имеет комплекс TFIIH. У млекопитающих РНК-полимераза II состоит из 12-14 полипептидов, в результате чего молекулярная масса этого комплекса доходит до 600 кДА. В состав транскрибирующего комплекса входят недавно открытые белки, называемые SRB (suppressors of RNA PolII) которые связываются с большой субъединицей РНК-полимеразы (рис. 2, б ). Эти белки помогают РНК-полимеразе разрушить нуклеосомы и декомпактизовать молекулу ДНК. Давно было показано, что молекула фактора транскрипции TFIIH связана с белками, участвующими в репарации ДНК (так называемая эксцизия нуклеотидов). РНК-полимераза II связана еще с группой белков, которые могут разрушать нуклеосомы и называются семейством SWI / SNF. Процесс сборки комплекса показан на рис. 2, а. Формирование белкового комплекса на промоторной последовательности начинается с того, что фактор транскрипции TFIID связывается с TATA-последовательностью, которая расположена выше точки инициации транскрипции примерно на 25 нуклеотидов. После того как сборка транскрипционного комплекса завершена, для начала транскрипции РНК-полимераза II должна освободиться от комплекса факторов транскрипции (рис. 2, а). Ключевым в процессе инициации транскрипции является присоединение фактора транскрипции TFIIH. Одна из его субъединиц, обладающая протеинкиназной активностью, фосфорилирует молекулу РНК-полимеразы II. Установлено на примере по крайней мере нескольких генов, что это фосфорилирование освобождает РНК-полимеразу II и позволяет начать транскрипцию (см. рис. 2, а). В состав комплексов общих факторов транскрипции и РНК-полимеразы II входит до 50 белков, иногда эти комплексы называют транскриптосомами (см. рис. 2, б). Две другие РНК-полимеразы (I и III), найденные у эукариот, также требуют для активирования набора общих факторов транскрипции. С ними не все ясно. Установлено лишь, что белки TBP требуются для всех трех полимераз. Другие факторы отличаются от тех, что были описаны в комплексах с РНК-полимеразой II. Кроме промотора в контрольной зоне находятся регуляторные последовательности (см. рис. 2, в), с которыми связываются регуляторные белки, необходимые для контроля процесса образования белкового комплекса на промоторе. ЭНХАНСЕРНЫЕ УЧАСТКИ ГЕНА В 1979 году было установлено, что последовательности ДНК, расположенные в тысячах пар нуклеотидов от промотора эукариотического типа, могут активировать его транскрипцию. Сейчас известно, что эти энхансерные (то есть усиливающие, от англ. enhance – усиливать) последовательности служат в качестве специфических участков (сайтов) связывания особых регуляторных белков, усиливающих или активирующих процесс транскрипции (см. также [1]). Этот тип контроля генной активности на расстоянии является скорее правилом, чем исключением. Как эти белки могут действовать на больших расстояниях? Согласно самой простой модели, ДНК между энхансером и промотором образует петлю, в результате чего белки, связанные с энхансером, непосредственно взаимодействуют с одним из общих факторов транскрипции или с молекулой самой РНК-полимеразы. Одним из примеров энхансера может служить система GAL4-UAS, обнаруженная у дрожжей. Ген GAL4 кодирует особый белок, имеющий два домена. Один из них обладает сродством к ДНК, другой служит для активирования транскрипции (см. рис. 2, б, г). Своим доменом, имеющим сродство к ДНК, белок GAL4 связывается с энхансерным участком ДНК, называемым UAS (upstream activator sequence – активирующая последовательность, расположенная выше точки начала транскрипции), а с помощью второго домена взаимодействует с белками комплекса TFIIB и TFIID (см. рис. 2, б ). Число общих факторов транскрипции невелико, хотя они обильно представлены в клетке, поскольку связываются с промоторами всех генов, транскрибируемых РНК-полимеразой II. Кроме этого, в клетке существуют десятки различных других регуляторных белков, связывающихся с сайтами контролирующей зоны. Их наборы различаются в разных клетках и у разных генов. Каждый из этих белков представлен малым числом молекул. Большинство из этих белков распознают особую, специфическую только для них последовательность нуклеотидов в регуляторных сайтах генов. С помощью белков-регуляторов каждый ген специфически включается или выключается. КОДИРУЮЩАЯ ЧАСТЬ ГЕНА Исследование процессов, происходящих при синтезе мРНК, показало, что продукты транскрипции, синтезируемые на молекулах ДНК в ядрах эукариот (их называют про-мРНК), гораздо крупнее, чем образуемые из них, выходящие затем в цитоплазму и участвующие в трансляции матричные РНК (мРНК). Как выяснилось, структурная часть генов эукариот разделена на серию отрезков, при этом кодирующие белок фрагменты (их называют экзонами) перемежаются некодирующими фрагментами – интронами (рис. 3). Такой тип организации обнаружен для множества эукариотических ядерных генов, то есть локализованных в хромосомах, а также некоторых генов, локализованных в ДНК внутриклеточных органелл – пластид и митохондрий, некоторых генов у РНК- и ДНК-содержащих вирусов. Интроны, по-видимому, отсутствуют в генах бактерий и вирусов, поражающих бактерии, редко встречаются в генах митохондриальной ДНК. Во время транскрипции считывается вся протяженность гена, содержащая как экзоны, так и интроны. Затем в ходе созревания мРНК или, как говорят, процессинга (см. [3]) в молекуле РНК вырезаются и удаляются участки, считанные с интронов, а те фрагменты, что были считаны с экзонов, соединяются в одну общую последовательность (см. также [1]). Происходит их сшивка или, как говорят, сплайсинг (рис. 3). Именно поэтому про-мРНК существенно длиннее, чем зрелая мРНК. Число, внутренняя локализация интронов и их длина характерны для каждого гена. На рис. 4, а показана частота встречаемости генов, содержащих то или иное число экзонов. Видно, что у низших эукариот, таких, как дрожжи, 95% генов содержат только один экзон, значит, они в подавляющей массе случаев не прерываются интронами. У дрозофилы генов, не имеющих интронов, только 17%, а у млекопитающих – еще меньше, только 6%, причем число экзонов в некоторых генах может достигать 60 (см. рис. 4, а). Экзоны, как правило, имеют небольшую длину, от 100 до 600 п.н. (рис. 4, б ), а длина интрона может варьировать в широких пределах – от нескольких десятков пар нуклеотидов до многих десятков тысяч (рис. 4, в). Общая длина всех интронов зачастую значительно превышает суммарную длину экзонов. Например, из 7000 пар нуклеотидов гена овальбумина курицы на долю экзонов приходится всего 1872 п.н., то есть почти 75% длины ДНК составляют интроны. Интроны обычно отделяются от экзонов парой нуклеотидов, содержащих гуанин и тимин на 5'-конце и аденин-гуанин на 3'-конце. В некоторых клетках в мРНК сохраняются фрагменты, считанные не со всех экзонов данного гена, а только с некоторых. В клетках другого типа в мРНК сохраняется информация с другого набора экзонов. В результате с одного гена считывается более одного типа мРНК. Эти разные мРНК образуются в результате удаления фрагментов, соответствующих разным экзонам, и соответственно их сплайсинга, который в данном случае называется альтернативным (см. также [1]). На рис. 5 представлена схема альтернативного сплайсинга в гене Broad-Complex у дрозофилы. Этот ген играет важную роль в развитии дрозофилы, в частности в осуществлении превращения (метаморфоза) из личинки в муху. Метаморфоз контролируется действием гормона экдизона, который включает (и выключает) многочисленные батареи генов, функционирующих в самых разнообразных органах. Это очень большой ген, он занимает около 120 т.п.н. на карте ДНК. В пределах гена выявлены десять экзонов, за счет комбинаций которых синтезируется 15 различных мРНК. Часть из них показана на рис. 5. Каждая из этих мРНК транслируется в определенной группе клеток, и в этих клетках синтезируется один из вариантов белка, в других клетках – другой набор экзонов и другой белок и т.д. Таким образом, один-единственный активирующий сигнал (гормон) включает только один ген, но синтезируется много различных белков за счет альтернативного сплайсинга. Альтернативный сплайсинг играет огромную роль в различных биологических процессах. Например, для того чтобы сформировался мужской пол у дрозофилы, происходит трансляция одного набора экзонов, для формирования женского пола транслируется другой набор экзонов. И то и другое происходит на одном и том же гене Sxl (см. [8]). Обычно экзоны в ходе альтернативного сплайсинга выстраиваются в той же ориентации и в том же порядке, в каком они располагаются в гене. Если ген содержит всего шесть экзонов, например с 1-го по 6-й, в одном типе матричной РНК они могут располагаться в порядке 1,2,3,4,5,6, в других РНК порядок может быть другим, например, 2,5,6 или 1,3,5. Удивительные случаи процессинга геномной ДНК обнаружены в геномах инфузорий, таких, например, как всем известной туфельки. Прежде нужно описать процесс формирования наследственного аппарата у этих одноклеточных животных. Дело в том, что у инфузорий функционируют два ядра: макронуклеус и микронуклеус и наследственная информация организована по-разному. Микронуклеус является покоящимся ядром, в котором хромосомы находятся в компактном состоянии, он служит для передачи наследственного материала от поколения к поколению. Другое дело – макронуклеус. Это трофическое ядро, хромосомы в нем находятся в активном состоянии – они поставляют информацию для процессов жизнедеятельности этого одноклеточного организма. На начальных этапах развития инфузории хромосомный материал макронуклеуса испытывает серию сложных превращений. Сначала хромосомы политенизируются, то есть в ядре проходит примерно десять циклов репликации, и все вновь образованные хромосомы остаются тесно связанными друг с другом, образуя пучок хромосом или политенную хромосому (см. [9]) с характерным рисунком сильно окрашенных поперечно расположенных хромомеров и светлых неокрашенных межхромомерных участков. Затем политенная хромосома как бы разрезается поперек на несколько тысяч долек, в каждой из которых находится один или несколько хромомеров. Каждая долька обтянута особой белковой оболочкой, формируя пузырек. Таким образом, на этой стадии развития в созревающем макронуклеусе находятся тысячи пузырьков, в каждом из которых располагается один или несколько хромомеров. В пузырьках происходит созревание наследственного материала: из фрагмента хромосомы удаляется и переваривается вся ДНК, не имеющая отношения к кодированию наследственной информации, например межгенные участки, мобильные элементы генома, а также участки, соответствующие интронам. Обычно интроны удаляются во время процессинга промРНК. В случае инфузорий фрагменты, соответствующие интронам, удаляются в самой ДНК. Но что совсем удивительно – происходит перестановка участков, соответствующих экзонам. Например, в микронуклеарной ДНК девять кодирующих участков гена актина I у инфузории Oxytricha nova расположены в следующей последовательности: 3,4,6,5,7,9,2,1,8. После процессинга геномной ДНК эти участки занимают положение в ряду с 1-го по 9-й, и только такая их последовательность дает функциональный белок. Еще более впечатляет реорганизация гена aTBP, который в микронуклеусе содержит 14 кодирующих фрагментов, расположенных в порядке 1,3,5,7,9,11,2,4,6,8,10,12,13,14, а нормальный по нумерации порядок с 1-го по 14-й образуется в созревшем макронуклеусе. Таких примеров уже много. Неясно, почему информация, кодирующая белок, хранится в микронуклеусе в одном порядке, а функционирует в макронуклеусе – в другом. Непонятно также, по какой программе происходит правильная сшивка экзонов в макронуклеусе и с помощью каких молекулярных механизмов осуществляется эта программа. Довольно долго обсуждался вопрос, является ли необходимым присутствие интронов в генах. Действительно, в некоторых случаях удаление интронов приводило к гибели организма. В этом нет ничего удивительного, если вспомнить об альтернативном сплайсинге. В этом случае (см. рис. 5) в мРНК, содержащей 1, 6 и 7-й экзоны, между экзонами 1 и 6 находится как бы один длинный интрон. Однако удалить его из генома нельзя, так как в нем располагаются экзоны со 2-го по 5-й, которые необходимы для функционирования белков во многих других тканях. Есть и другая причина. Довольно часто в пределах интрона одного гена находится другой ген. Например, у дрозофилы известен ген Gart, занимающий на карте ДНК 47 т.п.н. и состоящий из семи экзонов, разделенных интронами. В самом большом из них располагается другой ген куколочного кутикулярного белка, длиной всего 0,9 т.п.н. Этот ген также имеет интрон. Таких генов открывают все больше и больше. Удивительным по сложности организации и величине интронов является ген dnc у дрозофилы, который контролирует способность к обучению. Ген занимает минимум 130 т.п.н. и содержит 13 экзонов. Между двумя первыми экзонами имеется интрон длиной 40 т.п.н., в котором расположено несколько генов, кодирующих белок секреции слюнных желез. Между 2-м и 3-м экзонами, в интроне длиной 70 т.п.н., располагаются еще четыре гена, функции которых неизвестны. Рассмотренные результаты исследований, проведенных главным образом в 90-е годы, свидетельствуют об исключительной сложности основной единицы наследственной информации – гена. Существует сложнейшая контролирующая зона и не менее сложная кодирующая. Накопление столь существенного объема информации об организации гена позволяет вплотную подойти к осуществлению манипуляций с генетическим материалом во всевозрастающих объемах. ЛИТЕРАТУРА 1. Гвоздев В.А. Механизмы регуляции активности генов в процессе транскрипции // Соросовский Образовательный Журнал. 1996. Ъ 1. С. 23-31. 2. Жимулев И.Ф. Хромомерная организация политенных хромосом. Новосибирск: Наука, 1994. 564 с. 3. Овчинников Л.П. Что и как закодировано в мРНК // Соросовский Образовательный Журнал. 1998. Ъ 4. С. 10-18. 4. Сойфер В.Н. Исследования геномов к концу 1999 года // Там же. 2000. Т. 6, Ъ 1. С. 15-22. 5. Alberts B., Bray D., Lewis J. et al. Molecular Biology of the Cell. 3rd ed. Inc. N.Y.; L.: Garland Publ., 1994. P. 421-432. 6. Lewin B. Genes. 5th ed. Oxford; N.Y.; Tokyo: Oxford Univ. Press, 1994. P. 1-1272. 7. Struhl K. Chromatin Structure and RNA Polymerase II Connection: Implications for Transcription. Cell 84, 179-182, 1996. 8. Жимулев И.Ф. Как гены контролируют развитие пола у дрозофилы // Соросовский Образовательный Журнал. 1997. Ъ 12. С. 17-22. 9. Жимулев И.Ф. Современные представления об организации и функционировании полигенных хромосом // Там же. Ъ 11. С. 2-7. Рецензенты статьи В.А. Гвоздев, Л.И. Корочкин * * * Игорь Федорович Жимулев, доктор биологических наук, профессор кафедры цитологии и генетики Новосибирского государственного университета, зав. лабораторией молекулярной цитогенетики Института цитологии и генетики СО РАН, член-корреспондент РАН, академик Европейской академии наук и РАЕН. Область научных интересов – молекулярная организация хромосом. Автор более 200 научных публикаций, в том числе шести монографий по проблемам организации хромосом.