Комплементарность по одной цепочке ДНК

Mr. B · мая 05, 2010, 00:26:10

Цитата: Комбинатор от мая 04, 2010, 23:31:52
Как видите, разница ни разу не превысила трёх десятых процента.

Кому интересны аналитические соображения по этому поводу (посредством использования аппарата математической статистики), то, опуская нудные и неинтересные рассмотрения и пренебрежения, скажу, что данная величина имеет распределение с нулевым средним и стандартным отклонением, равным SD=0,1%. При чём, распределение можно считать нормальным.

Это значит, что вероятность того, что отклонение величины от нуля составит более чем 0,3% равна 0,0027:

P{|X|>0,3%}=0,0027.

Т.о., превосходство по модулю величины 0,3% будет случаться в среднем в одном с 370 случаев.

DNAoidea · мая 05, 2010, 01:46:40

Цитата: Galicarnax от мая 03, 2010, 07:27:51
Смущает то, как при этом геномы прокариот смогли почти полностью аккуратно покрыться кодирующими областями

ну почему? просто размер генома для них достаточно критичен и потому отбор работает против тех, у кого больше всего некодирующих участков.

Цитата: Galicarnax от мая 03, 2010, 07:27:51
Но ежели принять теорию инверсий, то придется сделать вывод, что именно они являются основным механизмом генообразования и эволюции, судя по их интенсивности и вездесущности.

ну точечные мутации, дупликации, дилеции всё равно никуда не денутся, просто это означает, что инверсий в геномах весьма много. Другого объяснения всё равно нет. Ну ещё есть вариант модификаций нуклеотидов не во время дупликации, приводящих к мисс-матчам и их ошибочное устранение.

Цитата: Bertran от мая 05, 2010, 00:26:10
Т.о., превосходство по модулю величины 0,3% будет случаться в среднем в одном с 370 случаев.

то есть чисто статистические причины дают ничтожную компоненту в явление...

Комбинатор · мая 05, 2010, 10:04:09

Цитата: Bertran от мая 05, 2010, 00:26:10
Это значит, что вероятность того, что отклонение величины от нуля составит более чем 0,3% равна 0,0027:

P{|X|>0,3%}=0,0027.

Т.о., превосходство по модулю величины 0,3% будет случаться в среднем в одном с 370 случаев.

В принципе, для оценки порядка величины эффекта, можно просто тупо использовать формулу Бернулли, которая даёт матожидание разности эквивалентных нуклеотидов (G-C, A-T) равное еденице, делённой на квадратный корень из суммарной встречаемости пар (G-C или A-T).
Так что, если руководствоваться теорией вероятностей, ощутимые статистические различия (скажем, больше одного процента по порядку величины) должны проявляться лишь для крохотных геномов, с длиной порядка 20.000 нуклеотидов и менее.

Mr. B · мая 05, 2010, 10:56:00

Цитата: Комбинатор от мая 05, 2010, 10:04:09
В принципе, для оценки порядка величины эффекта, можно просто тупо использовать формулу Бернулли, которая даёт матожидание разности эквивалентных нуклеотидов (G-C, A-T) равное еденице, делённой на квадратный корень из суммарной встречаемости пар (G-C или A-T).

Да, типа того. А потом, чтобы не возится с биномиальными коэффициентами (1000000! не всякий комп вычислит), можно применить теорему Муавра-Лапласа.

Galicarnax · мая 05, 2010, 17:54:45

Цитата: Комбинатор от мая 04, 2010, 23:31:52

Нет, я имел в виду именно одну цепочу ДНК. Чисто ради любопытства, я написал тривиальную программку, генерирующую с использованием датчика случайных чисел случайную последоватиьельность букв 'C' и 'G' миллион раз подряд, а потом вычисляющую разность числа выпадений 'C' и 'G' , делённую на миллилон. Ниже результат 20 случайных серий (в процентах):

Как видите, разница ни разу не превысила трёх десятых процента.

Кажется, я наконец понял вашу идею.
Грубо говоря, это так: если бы не было механизма, приводящего к перекосу между GC- и AT-содержанием, то количества всех четырех оснований отличались бы друг от друга (все 4) очень мало в силу статистики. Но из-за какого-то механизма происходит перекос между этит двумя парами, но внутри пар сохраняется почти равенство просто в силу той же статистики.
Короче, второе правило - результат взаимодействия "статистика + механизм перекоса между GC- и AT-контентом".
Так?

Комбинатор · мая 05, 2010, 18:12:20

Цитата: Galicarnax от мая 05, 2010, 17:54:45
Кажется, я наконец понял вашу идею.
Грубо говоря, это так: если бы не было механизма, приводящего к перекосу между GC- и AT-содержанием, то количества всех четырех оснований отличались бы друг от друга (все 4) очень мало в силу статистики. Но из-за какого-то механизма происходит перекос между этит двумя парами, но внутри пар сохраняется почти равенство просто в силу той же статистики.
Короче, второе правило - результат взаимодействия "статистика + механизм перекоса между GC- и AT-контентом".
Так?

Да. Рад, что взаимопонимание, наконец, найдено!

Galicarnax · мая 05, 2010, 18:36:03

Но это не объясняет симметрию по ди-, три- и т.п. олигонуклеотидам.
Можно предложить несколько гипотез, объясняющих перекос по мононуклеотидам - это да. Но есть хоть какие-то идеи, какой механизм может приводить к перекосу по олигонуклеотидам? Я перечитал 4 ваших пункта, последние три не могут прокатить, потому что 1) второе правило выполняется и в некодирующих областях и 2) правило выполняется и для олигонуклеотидов с длиной более трех.

Alexy · мая 05, 2010, 19:17:58

А объяснение ~равенства количеств антикомплементарных олигонуклеотидов инверсиями, выдвинутое Альбрехтом-Бюлером, разве не рулит?

ЦитироватьAlbrecht-Buehler has suggested that this rule is the consequence of genomes evolving by a process of inversion and transposition http://en.wikipedia.org/wiki/Chargaff's_rules

Как я понял, для того, чтобы объяснять наблюдаемые ~равенства только антикомплиментарных олигонуклеотидов, инверсии и инверсные транспозиции должны происходить с достаточно высокой частотой, чтобы не дать одно-нуклеотидным и может ещё каким-то мутациям выровнять количества ВСЕХ олигонуклеотидов одинаковой длины

Комбинатор · мая 05, 2010, 19:31:50

Цитата: Galicarnax от мая 05, 2010, 18:36:03
Но это не объясняет симметрию по ди-, три- и т.п. олигонуклеотидам.
Можно предложить несколько гипотез, объясняющих перекос по мононуклеотидам - это да. Но есть хоть какие-то идеи, какой механизм может приводить к перекосу по олигонуклеотидам? Я перечитал 4 ваших пункта, последние три не могут прокатить, потому что 1) второе правило выполняется и в некодирующих областях и 2) правило выполняется и для олигонуклеотидов с длиной более трех.

Симметрия по ди- и выше олигнонуклеотидам может объясняться точно так же. Единственно, из-за меньшей статистики она будет в среднем сильнее нарушаться (чем больше номер нуклеотида, тем сильнее будет ассиметирия).

P.S.
Перечитал ещё раз Вашу ссылку с таблицей встречаемости ди-олигонуклеотидов. Действительно, разница большая. Одна из гипотез, её объясняющих, может заключаться в том, что большинство некодирующих участков когда то были кодирующими (коды вирусов и т.д.), и в них остались от тех времён статистические "следы". Плюс, у регуляторных участков, по видимому, тоже есть свои закономерности распределения ди-олигонуклеотидов связанные, например, с необходимостью комплиментарности с регуляторными белками и микро-РНК.

P.P.S.

Немного помедитировал над Вашей таблицей встречаемости дуплетов в 10-ой хромосоме человека. В принципе, глобально просматриваются всё те же закономерности, связанные с экономией энергии расплетения ДНК. Два верхних места по встречаемости занимают 2 дуплета, имеющием минимальное число водородных связей (4). Два нижних места два дуплета с максимальным количеством связей (6). Причины большого различия во встречаемости колонов CG и GC в предположении, что значительная часть некодирующих участков когда-то, до исторического материализма, были кодирующими, тоже в общем-то понятны. Дело в том, что энергетически невыгодный дуплет CG при оптимизации энергозатрат может вообще не использоваться, а вот аминокислоту аланин по другому, как используя дуплет GC, не закодировать. Вот он и встречается в хромосоме практически в 4 раза чаще.
В общем, Оккам, как всегда, рулит.

Сергей · мая 06, 2010, 11:50:16

М-да. Современная биоинформатика - это реинкарнация древней нумерологии. Анализируют то - не зная что.

Симметрия олигонуклеотидов по одной цепи ДНК имеет очень простой биологический смысл: скорость репликации каждой из цепей ДНК должна идти с примерно одинаковой скоростью.

Из-за разной геометрии оснований каждый динуклеотид в составе ДНК имеет разную оптимальную конформацию фосфодиэфирной связи. Кроме того, на неё оказывает влияние и более отдалённые нуклеотиды. Активный центр ДНК-полимеразы оптимизирован под некоторую «среднюю» геометрию. Включение тех нуклеотидов, образующаяся связь в которых близка к этой «средней», будет происходить быстрее, тех, у которых отличается – медленнее. Поэтому олигонуклеотидный состав двух цепей будет оптимизироваться так, чтобы соотношение и тех и других было примерно одинаково.

Естественно это правило будет нарушаться, когда в последовательности будут присутствовать другие информационные уровни. Они уже обсуждались в другой ветке:

http://www.paleo.ru/forum/index.php/topic,2120.45.html

Galicarnax · мая 06, 2010, 18:56:10

Цитата: Сергей от мая 06, 2010, 11:50:16
Симметрия олигонуклеотидов по одной цепи ДНК имеет очень простой биологический смысл: скорость репликации каждой из цепей ДНК должна идти с примерно одинаковой скоростью.

На масштабах, характерных для локального процесса репликации, симметрия цепочек как раз нарушена. Фрагменты Оказаки имеют длину 1-2 тыс. оснований, на этих длинах отклонения от правила обычно большие.
Если вы имеете ввиду глобальный процесс репликации - есть ли у вас конкретные данные о скоростях репликации и их отличиях для разных участков? Насколько помню, у Льюина говорилось о скорости 1500 оснований в секунду (у прокариот при оптимальной темп-ре). Вы полагаете, что при таких скоростях 20%-ная разница в GC-содержании между репликонами приведет к такой же разнице во времени их репликации?

ЦитироватьКак я понял, для того, чтобы объяснять наблюдаемые ~равенства только антикомплиментарных олигонуклеотидов, инверсии и инверсные транспозиции должны происходить с достаточно высокой частотой, чтобы не дать одно-нуклеотидным и может ещё каким-то мутациям выровнять количества ВСЕХ олигонуклеотидов одинаковой длины

Вот именно, что с достаточно высокой частотой.
Трудно представить, чтобы в нынешних прокариотах инверсия оказалась безобидной, уж не говоря про полезность. Т.е., если судить по заселенности их геномов генами, можно предположить, что инверсии практически в них больше не происходят. Но симметрия цепочек ДНК предполагает, что в прошлом эти инверсии были интенсивными. Выходит, процесс инверсионных перестроек уже завершен? (в прокариотах, по крайней мере). Когда это произошло? Судя по той же плотной заселенности геномов генами - очень давно, т.к. чем плотнее заселенность, тем менее редки полезные инверсии. И почему у всех организмов этот процесс выравнивания уже завершен? Что это значит в плане эволюции? Короче, много вопросов остается. Хотя, как я сказал, эта гипотеза является самой ходовой (выдвинул ее первым не Альбрехт-Бюхлер).

ЦитироватьСимметрия по ди- и выше олигнонуклеотидам может объясняться точно так же

Нет, опять взаимонедопонимание

Возьмем квадруплеты. Пункты, связанные с кодированием аминокислот сразу отпадают. Но для квадруплетов нарушение симметрии также составляет 0.5-3%. При этом это не статистическое равенство, т.к. количества разных квадруплетов могут отличаться на 10-20%, а комплементарных - на 0.5-3%. Т.е., если принять ваше объяснение, придется искать механизм, приводящий к перекосу в квадруплетах.

Alexy · мая 06, 2010, 20:14:56

Цитата: Galicarnax от мая 06, 2010, 18:56:10
Цитата: AlexyКак я понял, для того, чтобы объяснять наблюдаемые ~равенства только антикомплиментарных олигонуклеотидов, инверсии и инверсные транспозиции должны происходить с достаточно высокой частотой, чтобы не дать одно-нуклеотидным и может ещё каким-то мутациям выровнять количества ВСЕХ олигонуклеотидов одинаковой длины
Вот именно, что с достаточно высокой частотой

Трудно представить, чтобы в нынешних прокариотах инверсия оказалась безобидной, уж не говоря про полезность. Т.е., если судить по заселенности их геномов генами, можно предположить, что инверсии практически в них больше не происходят. Но симметрия цепочек ДНК предполагает, что в прошлом эти инверсии были интенсивными. Выходит, процесс инверсионных перестроек уже завершен? (в прокариотах, по крайней мере). Когда это произошло? Судя по той же плотной заселенности геномов генами - очень давно, т.к. чем плотнее заселенность, тем менее редки полезные инверсии. И почему у всех организмов этот процесс выравнивания уже завершен? Что это значит в плане эволюции? Короче, много вопросов остается. Хотя, как я сказал, эта гипотеза является самой ходовой (выдвинул ее первым не Альбрехт-Бюхлер)

А кто выдвинул ее первым?

Но ведь и в безинтронных генах есть участки, чья нуклеотидная последовательность может почти безболезненно меняться. Правда с единственным условием (хотя может и тоже не всегда обязательным?) - чтобы полярная АК менялась на полярную, а неполярная на неполярную. И такими неважными вроде являются в каждом белке более половины аминокислот

Полярные АК-ы и для каждого их кодона указаны АК-ы образующиеся вместо них при инверсиях (красным помечены неполярные, зеленым - пролин, а синим - полярные):
Положительно заряженные аминокислоты
Лизин   Lys   K - AAA (Phe/F UUU), AAG (Leu/L CUU)
Аргинин   Arg   R - CGU (Thr/T ACG), CGC (Ala/A GCG), CGA (Ser/S UCG), CGG (Pro/P CCG), AGA (Ser/S UCU,), AGG (Pro/P CCU)
Гистидин   His   H - CAU (START AUG), CAC (Val/V GUG)
Отрицательно заряженные аминокислоты
Аспарагиновая кислота (аспартат)   Asp   D - GAU (Ile/I AUC), GAC (Val/V GUC)
Глутаминовая кислота (глутамат)   Glu   E - GAA (Phe/F UUC), GAG (Leu/L CUC)
Полярные незаряженные аминокислоты
Аспарагин   Asn   N - AAU (Asn/N AAU), AAC (Val/V GUU)
Глутамин   Gln   Q - CAA (Leu/L UUG), CAG (Leu/L CUG)
Серин   Ser   S - UCU (Arg/R AGA), UCC (Gly/G GGA), UCA (STOP UGA), UCG (Arg/R    CGA), AGU (Thr/T   ACU), AGC (Ala/A   GCU)
Треонин   Thr   T - ACU (Ser/S AGU), ACC (Gly/G GGU), ACA (Cys/C UGU), ACG (Arg/R CGU)

...Вроде не прослеживается никакой закономерности - полярные при инверсиях даже чаще заменяются на неполярные...
Проверить аналогично для неполярных АК-т я пока поленился

Комбинатор · мая 06, 2010, 20:32:27

Цитата: Galicarnax от мая 06, 2010, 18:56:10
Нет, опять взаимонедопонимание Возьмем квадруплеты. Пункты, связанные с кодированием аминокислот сразу отпадают. Но для квадруплетов нарушение симметрии также составляет 0.5-3%. При этом это не статистическое равенство, т.к. количества разных квадруплетов могут отличаться на 10-20%, а комплементарных - на 0.5-3%. Т.е., если принять ваше объяснение, придется искать механизм, приводящий к перекосу в квадруплетах.

Не согласен, что для квадруплетов "пункты, связанные с кодированием аминокислот сразу отпадают". Во-первых, любой квадруплет на три четверти состоит из кодирующего аминокислоту триплета, что не может не влиять на их статистику. Во-вторых, в самих последовательностях аминокислот в белках наверняка тоже есть определённые закономерности.
Что касается механизмов выравнивания перекоса в комплиментарных квадруплетах - первое, что приходит в голову, опять же обяснение, основанное на оптимизации силы связей. Для комплиментарных квадруплетов она гарантированно одинаковая.
А вообще, Вы не могли бы ради интереса выложить здесь статистику по квадруплетам, например, для всё той же 10-й хромосомы лысой обезьяны?

P.S.
По поводу би- и выше дуплетов пришло в голову ещё следующее объяснение - если предположить, что большая часть ДНК так или иначе впоследствии транслируется в РНК, то второе правило может быть простым следствием того факта, что РНК склонны сворачиваться во вторичные структуры с характерными "стеблями", длиной до пары десятков нуклеотидных оснований. Для обеспечения возможности формирования таких стеблей в ДНК доложны присутствовать соответствующие комплиментарные участки с прямыми и реверсными последовательностями.

Сергей · мая 07, 2010, 10:45:15

Цитата: Galicarnax от мая 06, 2010, 18:56:10
На масштабах, характерных для локального процесса репликации, симметрия цепочек как раз нарушена.

Фрагменты Оказаки имеют размер в несколько тысяч (бактерии) или несколько сотен (эукариоты) нуклеотидов. Поскольку большинство других информационных сигналов также лежит в этой области симметрия и должна нарушаться. Важно понять в какую сторону направлено давление отбора для данного информационного уровня.

ЦитироватьЕсли вы имеете ввиду глобальный процесс репликации - есть ли у вас конкретные данные о скоростях репликации и их отличиях для разных участков? Насколько помню, у Льюина говорилось о скорости 1500 оснований в секунду (у прокариот при оптимальной темп-ре). Вы полагаете, что при таких скоростях 20%-ная разница в GC-содержании между репликонами приведет к такой же разнице во времени их репликации?

Скорость включения оснований лежит в пределах от 500 нуклеотидов у бактерий до 50 нуклеотидов в секунду у млекопитающих. Для ферментативных реакций это крайне низкая скорость. Объясняется она тем, что при включении «ДНК-полимераза дважды проверяют соответствие каждого нуклеотида матрице: один раз перед включением его в состав растущей цепи и второй раз перед тем, как включить следующий нуклеотид. Очередная фосфодиэфирная связь синтезируется лишь в том случае, если последний (3'-концевой) нуклеотид растущей цепи ДНК образовал правильную уотсон-криковскую пару с соответствующим нуклеотидом матрицы. Если же на предыдущей стадии реакции произошло ошибочное спаривание оснований, то дальнейшая полимеризация останавливается до тех пор, пока ошибка не будет исправлена. Для этого фермент перемещается в обратном направлении и вырезает последнее добавленное звено, после чего его место может занять правильный нуклеотид-предшественник.»

Соответственно для динуклеотидов, в которых конформация сахарофосфатного остова близка к идеальной, эти проверки займут меньше времени, чем для тех, в которых она сильно отличается от таковой. И ошибок с последующим исправлением у первых будет меньше. Так что для оценки скорости движения ДНК-полимеразы на коротких участках надо не тупо считать олигонуклеотиды, а учитывать их конформационные свойства. А для достаточно протяженных участков, вследствие усреднения, это как раз и приведет ко второму правилу Чаргаффа.

Galicarnax · мая 07, 2010, 17:35:41

ЦитироватьА вообще, Вы не могли бы ради интереса выложить здесь статистику по квадруплетам, например, для всё той же 10-й хромосомы лысой обезьяны?

хммм... квадруплетов 256 штук, график будет неудобоваримым.... Посмотрите данные в этой статье, там есть числа для олигонуклеотидов длиной до 9 оснований.

ЦитироватьПо поводу би- и выше дуплетов пришло в голову ещё следующее объяснение - если предположить, что большая часть ДНК так или иначе впоследствии транслируется в РНК, то второе правило может быть простым следствием того факта, что РНК склонны сворачиваться во вторичные структуры с характерными "стеблями", длиной до пары десятков нуклеотидных оснований.

Гы, так эта гипотеза у меня тоже упомянута, второй по счету

ЦитироватьТак что для оценки скорости движения ДНК-полимеразы на коротких участках надо не тупо считать олигонуклеотиды, а учитывать их конформационные свойства. А для достаточно протяженных участков, вследствие усреднения, это как раз и приведет ко второму правилу Чаргаффа.

Хотелось бы все-таки конкретных данных по разнице в скоростях, если они имеются. Интуиция подсказывает, что корреляция между олигонуклеотидным составом и скоростью репликации, если и есть, то очень нелинейна, и большая разница в олигонуклеотидном составе может приводить лишь к нескольким процентам во временной разнице. Если не так, то вперед - даете публикацию и ставите точку в вопросе

И потом - а почему страшна разница в глобальном времени репликации в 10-20%? Казалось бы, важнее одинаковость скорости репликации как раз локально, чтобы молекулярная машинерия успевала правильно расплетать/заплетать обе цепи.

Комплементарность по одной цепочке ДНК

DNAoidea