Восстановление генома ЛУКА

Комбинатор · июня 24, 2010, 21:11:20

Хотел бы посоветоваться по поводу одного метода построения филогенетических деревьев на основе использования данных о секвенированных ДНК, который пришёл мне в голову. Идея заключатся в том, что для определения родства используется не традиционный поиск гомологичных протеинов, а просто поиск коротких (несколько десятков нуклеотидных пар) гомологичных участков ДНК с учётом всех наиболее вероятных мутаций. Я рассматриваю три вида возможных мутации типа делиций и вставок (плюс все их возможные линейные комбинации):
- копирование части ДНК из одного участка цепочки в другой;
- инверсия части ДНК относительно основного направления её считывания;
- инверсия части ДНК относительно её главной оси (переворот "кверх ногами").

Минус этого метода в том, не делается "ручная" очистка от протеинов, подозрительных на горизонтальный перенос. Плюс, на мой взгляд, в том, что учитывается весь геном (включая регулирующие участки, псевдогены и т.д.), а не ограниченное множество предварительно отобранных белков. Например, если какой-то древний ген был "нашинкован" в результате многочисленный разрезаний, вставок, делеций и т.д. на много мелких кусков, эти куски теоретически всё равно можно достаточно надёжно детектировать. Честно говоря, когда я написал простенький код, то не очень надеялся, что получится что-нибудь разумное. Тем не менее, к моему удивлению оказалось, что случайно выбранный в геноме одной бактерии участок ДНК длиной, например, 30 нуклеотидных пар, с точностью до 10 нуклеотидных замен после учёта описанных выше возможных манипуляций типа копирования с поворотами и переворотами почти всегда можно найти в геноме любой другой бактерии. Если бы между геномами не существовало никакой корреляции, то вероятность случайной реализации подобного события, по моим прикидкам составляла бы по порядку величины что-то около одной милионной. Таким образом, если я не допустил какой-нибудь грубой ошибки в рассуждениях и непосредствеенно программировании, то выходит что можно пытаться вычислять некую меру "конгруэнтности" видов, методом Монте-Карло оценивая вероятность найти в геноме вида A гомологичный ему участок в геноме вида Б. Аналогичным образом можно строить "коллективный" геном таксона, объединяя в него геномы бактерий которые ему принадлежат. Единственое, что бы не заморачиваться с нормировкой на длину геномов (понятно, что чем длинее геном, тем, вообще говоря, больше вероятность найти в нём любой наперёдзаданный паттерн), лучше стараться, что бы сравниваемые геномы имели не очень сильно отличающиеся размеры. На сколько я понимаю ситуацию, полученная "конгруэнтность" обратно пропорциональна длине цепочки эволюционных событий, произошедших с видами после их расхождения от общего предка. Чем ближе конгруэнтность к 1, тем эволюционно ближе находятся виды. В большинстве случаев конгруэнтности несимметричны, то есть, расстояние от вида А до вида Б не равно расстоянию от вида Б до вида А. Я это интерпретирую таким образом, что один из разошедшихся видов (новая ветка) по каким-то причинам (адаптация к новым условиям внешней среды и т.д.) эволюционировал быстрее, чем другой вид ("основной таксон" - ствол). Соответственно, геном того вида, в котором находится больше гомологичных участков сравниваемого с ним вида, можно условно считать "предковым" (стволовым), а геном второго вида - дочерным (ответвлением). Наиболее удобно для бактерий мне показалось считать расстояния по 9-ти несовпадабщим нуклеотидам (при 10-ти в большинстве случаев расстояния слишком близки к еденице, что снижает разрешающую способность метода). Обычно я выбираю в исходном геноме 1000 случайно выбранных участков и подсчитываю, скольким из них нашлись гомологичные. Естественно, из-за датчика случайных чисел даже запущенные на той же паре вычисления дают несколько отличные результаты (ведь 30.000 нуклеотидных пар это всего несколько процентов генома, так что, всё время сравниваются разные участки генома), но результат, тем не менее, более-менее стабилен, различия обычно порядка 2-3 процентов. Степень конгруэнтности между геномами внутри групп бактерий как правило выше, чем аналогичная величина для геномов бактерий, принадлежащих разным таксонам (единственное исключение - Актинобактении, для которых соответствующие расстояния сравнимы). Ради интереса я попробовал посмотреть, что этот метод даёт для истории фотосинтеза. В приципе, всё получается более-менее логично. Самая древняя - Heliobacteria, потом идут, соответственно, Chlorobi, Purle bacteria и, почти сразу же, Cyanobacteria. Правда, меня несколько удивило, что Сhloroflexi получается моложе Cyanobacteria.

Если у меня нет ошибки в рассуждениях, любопытно, насколько вообще до нас дошёл оригинальный геном ЛУКА? Не являются ли паттерны тех двух третей генома, которые есть практически во всех бактериях, некими "следами" многократно накрошенного, размноженного многочисленными копированиями, и перетасованного как колода карт оригинального генома ЛУКИ? Если это действительно так, может быть, даже есть шанс попробовать его хотя бы частично восстановить подобно тому, как, например, путём многократного прочтения одних и тех же участков ДНК удалось почти полностью прочесть геном неандертальца?

Алекс_63 · июня 25, 2010, 00:40:59

А почему-бы анализ не сделать не только по бактериям, а по всему банку?
И зачем за исходный код, брать код какой-то случайной бактерии?
А если начать его искать самостоятельно и не зависимо с нуля?
Например.
Сканируем весь банк по количеству каждого из нуклеотидов А,Г,Ц,Т
Тех кого больше, считаем прообразом всех остальных. Он имеет наивысший бал (приоритет).
Затем сканируем весь банк по паре нуклеотидов АА, АГ, АЦ, АТ, ГГ, ГА, ГЦ, ГТ, ЦЦ, ЦА, ЦГ, ЦT, ТТ,ТА, ТГ, ТЦ, подсчитываем кто из них лидер - считаем его следующей ступенькой эволюции и сортируем всех по приоритетам (баллам).
Далее проделываем ту же операцию с триплетом, квартетом .... и т.д.
Когда вычислительные способности окажутся недостаточны, используем приоритеты выявленные для более коротких полинуклеотидов.
Таким образом получаем геном ЛУКА.
А что это собственно говоря такое - ЛУКА?

Комбинатор · июня 25, 2010, 01:11:33

Цитата: Алекс_63 от июня 25, 2010, 00:40:59
А что это собственно говоря такое - ЛУКА?

http://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%81%D0%BB%D0%B5%D0%B4%D0%BD%D0%B8%D0%B9_%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%BE%D0%B1%D1%89%D0%B8%D0%B9_%D0%BF%D1%80%D0%B5%D0%B4%D0%BE%D0%BA

По поводу сборки генома ЛУКА методом полного перебора - можно, конечно, попробовать пойти и этим путём, но смущают два фактора:
1. Слишком долгое время ожидания результата;
2. Первая же ошибка "на развилке" поведёт нас по неправильному пути.
По мне, так лучше всё же начинать с чего-то осмысленного.

Алекс_63 · июня 25, 2010, 12:49:01

Цитата: Комбинатор от июня 25, 2010, 01:11:33Первая же ошибка "на развилке" поведёт нас по неправильному пути.

Так ведь всё живое симметрично (с обязательной погрешностью 1-1,5% в силу открытости живых систем).
Всё что не симметрично, то не живое.
Вот Вам и вся страховка от ошибок "на развилке".

Комбинатор · июня 25, 2010, 12:56:09

Цитата: Алекс_63 от июня 25, 2010, 12:49:01
Цитата: Комбинатор от июня 25, 2010, 01:11:33Первая же ошибка "на развилке" поведёт нас по неправильному пути.

Так ведь всё живое симметрично (с обязательной погрешностью 1-1,5% в силу открытости живых систем).
Всё что не симметрично, то не живое.
Вот Вам и вся страховка от ошибок "на развилке".

Очень сомнительный тезис. Посмотрите хотя бы на хириальность аминокислот, из которых состоят белки. Отличия во встречаемости пар ГС и ТА в ДНК разных видов достигают 25%. И т.д., и т.п.

Алекс_63 · июня 25, 2010, 14:17:32

Цитата: Комбинатор от июня 25, 2010, 12:56:09
Посмотрите хотя бы на хириальность аминокислот, из которых состоят белки. Отличия во встречаемости пар ГС и ТА в ДНК разных видов достигают 25%. И т.д., и т.п.

Вы не о той симметрии рассуждаете ...
Хиральность биомолекул необходимое условие живого.

Комбинатор · июня 25, 2010, 14:34:46

Цитата: Алекс_63 от июня 25, 2010, 14:17:32
Вы не о той симметрии рассуждаете ...
Хиральность биомолекул необходимое условие живого.

Ну тогда сами объясните, плиз, в чём конкретно заключается симметрия "с обязательной погрешностью 1-1,5%", например, в том же геноме.

Алекс_63 · июня 25, 2010, 15:58:34

Цитата: Комбинатор от июня 25, 2010, 14:34:46
В чём конкретно заключается симметрия "с обязательной погрешностью 1-1,5%", например, в том же геноме?

Попробуйте догадаться самостоятельно.
Хотя, на форуме что-то подобное уже обсуждалось ...

Комбинатор · июня 25, 2010, 16:41:08

Цитата: Алекс_63 от июня 25, 2010, 15:58:34
Попробуйте догадаться самостоятельно.
Хотя, на форуме что-то подобное уже обсуждалось ...

Извините, разгадывать шарады времени нет.
Если вы про комплиментарность одноцепочечной ДНК, то там уровень симметрии гораздо ниже 2%, особенно это заметно как раз на достаточно длинных последовательностях.

DNAoidea · июня 25, 2010, 17:02:07

ну во-первых, одна проблема сугубо техническая - надо иметь целый геном или по крайней мере значительную его часть - что на данный момент есть для очень немногих органищмов - среди Бактерий, архей, ну и тем более вирусов, утту всё может и не плохо, а вот по Эукариотам - увы... скажем среди миллиона видов Насекомых геномы прочтены для пачки видов Дрозофил (десятка два наверное уже) Триболиума, и ещё вроде некоторых комаров, а по большей части видов даже ДНК не извлекали... ну это я надеюсь в скором времени изменится... ну а по геномам ещё долго
во-вторых - частоты мутаций в разных частях генома могут очень различаться, и как калибровать тогда их темп для этакой-то массы? Это видимо и причина почему расстояния оказываются не симметричны
в-третьих - откуда знать на какой кусо действует отбор, а на какой нет? ведь их функции по большей части будут неизвестны.
И наконец - если мы нашли кусок который встречается у одного ораганизма 10 раз, а у другого сто, то как мы будем сравнивать в таком случае их гомологичность? какие из этой массы?

Комбинатор · июня 25, 2010, 17:26:28

Цитата: DNAoidea от июня 25, 2010, 17:02:07
ну во-первых, одна проблема сугубо техническая - надо иметь целый геном или по крайней мере значительную его часть - что на данный момент есть для очень немногих органищмов - среди Бактерий, архей, ну и тем более вирусов, утту всё может и не плохо, а вот по Эукариотам - увы...

Если придерживаться мейн-стрима, что эвкариоты произошли от симбиоза эубактерий и архей, то без геномов эвкариот вполне можно обойтись. А для бактерий секвенированы геномы уже порядка 1000 видов.

Цитата: DNAoidea от июня 25, 2010, 17:02:07
во-вторых - частоты мутаций в разных частях генома могут очень различаться, и как калибровать тогда их темп для этакой-то массы?

Если говорить о построении филогенетических деревьев, то да, это определённая проблема. Можно лишь надеяться, что в среднем по геному разница по частотам у разных видов в определённой степени нивелируется, тем более, если мы используем суммарный геном таксона. Кроме того, у недавно разошедшихся видов (когда мы пытаемся понять, кто от кого произошёл в данной точке ветвления) структура геномов должна быть схожей. Что касается возможности восстановления генома ЛУКА, то на это разница в частоте мутирования у разных частей генома, по идее, влиять не должна.

Цитата: DNAoidea от июня 25, 2010, 17:02:07
Это видимо и причина почему расстояния оказываются не симметричны

Я думаю, здесь всё же гораздо большую роль оказывает различия в условиях внешней среды, которые могут существенно влиять на скорость закрепления в геноме вида мутаций.

Цитата: DNAoidea от июня 25, 2010, 17:02:07
в-третьих - откуда знать на какой кусо действует отбор, а на какой нет? ведь их функции по большей части будут неизвестны.

А зачем в данном случае нам это знать?

Цитата: DNAoidea от июня 25, 2010, 17:02:07
И наконец - если мы нашли кусок который встречается у одного ораганизма 10 раз, а у другого сто, то как мы будем сравнивать в таком случае их гомологичность? какие из этой массы?

Мы выставляем некий порог на гомологичность. Например, не более 9-ти замен на участке в 30 пар нуклеотидов. Как только хотя бы один такой участок найден, мы "засчитваем" этот участок как гомологичный, то есть, сколько ещё есть других гомологичных участков у сравниваемой с "нашей" "другой" бактерии нас при таком подходе не волнует.

DNAoidea · июня 25, 2010, 18:00:02

Цитата: Комбинатор от июня 25, 2010, 17:26:28
Если придерживаться мейн-стрима, что эвкариоты произошли от симбиоза эубактерий и архей, то без геномов эвкариот вполне можно обойтись. А для бактерий секвенированы геномы уже порядка 1000 видов.

как-никак, а эукариоты много уникальных генов. Предком собственно эукариот является кто-то из Архей или какая-то третья целиком вымершая ветвь - тоже трудно сказать...

Цитата: Комбинатор от июня 25, 2010, 17:26:28то на это разница в частоте мутирования у разных частей генома, по идее, влиять не должна.

почему? как же тогда не знаю частоты можно составить консенсус?

Цитата: Комбинатор от июня 25, 2010, 17:26:28
Я думаю, здесь всё же гораздо большую роль оказывает различия в условиях внешней среды, которые могут существенно влиять на скорость закрепления в геноме вида мутаций.

вообще-то это и есть частота мутирования, если я правильно понял...

Цитата: Комбинатор от июня 25, 2010, 17:26:28А зачем в данном случае нам это знать?

как это зачем? вот возьмём мы два похожих куска - откуда нам знать они похожи, потому что все отклонения отсеивает отбор или потому что разошлись недавно?

Цитата: Комбинатор от июня 25, 2010, 17:26:28
Мы выставляем некий порог на гомологичность. Например, не более 9-ти замен на участке в 30 пар нуклеотидов. Как только хотя бы один такой участок найден, мы "засчитваем" этот участок как гомологичный, то есть, сколько ещё есть других гомологичных участков у сравниваемой с "нашей" "другой" бактерии нас при таком подходе не волнует.

а! ну в таком случае мы полностью доверяемся случаю - если мы найдём первый раз гомологичный кусок в том же месте где он и у "исходного" - то есть те же гены рядом и т. д. то хорошо, а если нет?..

Комбинатор · июня 25, 2010, 18:24:20

Цитата: DNAoidea от июня 25, 2010, 18:00:02
как-никак, а эукариоты много уникальных генов. Предком собственно эукариот является кто-то из Архей или какая-то третья целиком вымершая ветвь - тоже трудно сказать...

В любом случае, нет гарантии, что до нас дошли все оригинальные гены Лука. Но это же не повод вообще ничего не делать. Надо с чего-то начинать, что бы попытаться восстановить его геном хотя бы частично. И бактерии для этого, я думаю, являются на данный момент наилучшим кандидатом.

Цитата: DNAoidea от июня 25, 2010, 18:00:02
почему? как же тогда не знаю частоты можно составить консенсус?

Изучая особенности дошедших до нас фрагментов его ДНК. Если выявленные гомологичные отрезки ДНК между собой сильно пересекаются (а так, на самом деле, скорее всего и есть), то по ним можно попробовать восстановить "исходник". Если встречаются два разных гомолога, нужно сравнивать их с третьим и т.д. При наличии порядка 1000 геномов "правильный" геном их общего предка, по идее, можно достаточно надёжно вытащить из статистики. Я уже приводил пример с в чём то аналогичным методом прочтения генома неандертальца.

Цитата: DNAoidea от июня 25, 2010, 18:00:02
вообще-то это и есть частота мутирования, если я правильно понял...

Естественно, но вы говорили про разницу в частоте мутирования разных участков генома, а я говорю о тенденциях, характерных для генома вида в целом.

Цитата: DNAoidea от июня 25, 2010, 18:00:02
как это зачем? вот возьмём мы два похожих куска - откуда нам знать они похожи, потому что все отклонения отсеивает отбор или потому что разошлись недавно?

Во первых, есть нейтральные мутации, которые отбор не отсеивает. Во вторых, нужно накопить статистику по этому участку из сотен разных геномов, желательно, заведомо давно разошедшихся видов, тогда, анализируя эту статистику, можно будет строить разные гипотезы и расчитывать их вероятности.

Цитата: DNAoidea от июня 25, 2010, 18:00:02
а! ну в таком случае мы полностью доверяемся случаю - если мы найдём первый раз гомологичный кусок в том же месте где он и у "исходного" - то есть те же гены рядом и т. д. то хорошо, а если нет?..

Если гомологичный участок для данного фрагмента ДНК у другой бактериий есть, то мы это заведомо находим, если нет, то заведомо не находим. Всё детерменировано. Не очень понимаю, почему вы считаете, что мы доверяемся случаю?

DNAoidea · июня 25, 2010, 18:42:40

Цитата: Комбинатор от июня 25, 2010, 18:24:20
В любом случае, нет гарантии, что до нас дошли все оригинальные гены Лука. Но это же не повод вообще ничего не делать. Надо с чего-то начинать, что бы попытаться восстановить его геном хотя бы частично. И бактерии для этого, я думаю, являются на данный момент наилучшим кандидатом.

ну в таком подходе да - за неимением лучшего

Цитата: Комбинатор от июня 25, 2010, 18:24:20Если выявленные гомологичные отрезки ДНК между собой сильно пересекаются (а так, на самом деле, скорее всего и есть), то по ним можно попробовать восстановить "исходник". Если встречаются два разных гомолога, нужно сравнивать их с третьим и т.д. При наличии порядка 1000 геномов "правильный" геном их общего предка, по идее, можно достаточно надёжно вытащить из статистики. Я уже приводил пример с в чём то аналогичным методом прочтения генома неандертальца.

неандерталец жил не так давно, и от наших предков не все мутауции ещё успели произайти. В случае же ЛУКИ мы можем быть уверенны, что все мутации, которые могли быть уже были... какие-то отсеились, конечно, какие-то потерялись, но что-то осталось.

Цитата: Комбинатор от июня 25, 2010, 18:24:20
Естественно, но вы говорили про разницу в частоте мутирования разных участков генома, а я говорю о тенденциях, характерных для генома вида в целом.

ну у разных видов темпы мутирования могут отличаться конечно

Цитата: Комбинатор от июня 25, 2010, 18:24:20
Во первых, есть нейтральные мутации, которые отбор не отсеивает.

когда мы говорим о таких временных промежутках, то мутации вряд ли могут быть нейтральными - в какой-то момент, да были значимыми - предпочтения использования кодонов, аминокислот, CG состава...

Цитата: Комбинатор от июня 25, 2010, 18:24:20
Если гомологичный участок для данного фрагмента ДНК у другой бактериий есть, то мы это заведомо находим, если нет, то заведомо не находим. Всё детерменировано. Не очень понимаю, почему вы считаете, что мы доверяемся случаю?

да но где находим: в какой части генома? рядом с каким геном? он что сейчас - просто обломок неудачной конъюгации (ну бывает же, хотя редко, но за 3-то млрд лет...), регуляторный участок, кодирующя последовательность? во всех этих случаях и темп мутаций может быть разный, и характер замен менятся...

Комбинатор · июня 25, 2010, 19:19:27

Цитата: DNAoidea от июня 25, 2010, 18:42:40
неандерталец жил не так давно, и от наших предков не все мутауции ещё успели произайти. В случае же ЛУКИ мы можем быть уверенны, что все мутации, которые могли быть уже были... какие-то отсеились, конечно, какие-то потерялись, но что-то осталось.

Все возможные мутации, конечно, уже были, но вот что все возможные мутации закрепились в каждом из доживших до нас видов, у меня большие сомнения. В частности, то, о чём я писал выше, вроде бы, свидетельствует о том, что закрепились лишь около трети возможных мутаций.

Цитата: DNAoidea от июня 25, 2010, 18:42:40
Цитата: Комбинатор от июня 25, 2010, 18:24:20
Если гомологичный участок для данного фрагмента ДНК у другой бактериий есть, то мы это заведомо находим, если нет, то заведомо не находим. Всё детерменировано. Не очень понимаю, почему вы считаете, что мы доверяемся случаю?
да но где находим: в какой части генома? рядом с каким геном? он что сейчас - просто обломок неудачной конъюгации (ну бывает же, хотя редко, но за 3-то млрд лет...), регуляторный участок, кодирующя последовательность? во всех этих случаях и темп мутаций может быть разный, и характер замен менятся...

Мы ищем во всём геноме, на таких временных промежутках его могло занести куда угодно. Да, в общем случае это может быть какой то мелкий обломок кораблекрушения какого-то очень древнего гена, постепенно растворяющегося в геноме за ненадобностью, может быть и кусок древней регуляторной последовательности.

Цитата: DNAoidea от июня 25, 2010, 18:42:40
во всех этих случаях и темп мутаций может быть разный, и характер замен менятся...

Так а какое нам дело до темпа мутаций? Если паззл статистически сложится, какая разница, как долго его куски между собой до этого перемешивались?