Происхождение эукариот

Автор Комбинатор, сентября 08, 2014, 00:49:25

« назад - далее »

Комбинатор


ArefievPV


Комбинатор

Цитата: ArefievPV от сентября 08, 2014, 05:38:16
Ссылка не работает почему-то(((...

Похоже, этот сайт лёг буквально через 5 минут после того, как я выложил на него статью. Надеюсь, в ближайшее время его починят.

Комбинатор


Питер

Интересно,  но   -   почему    бласт   и  какой бласт,  n или p ?   Параметры ?    В  чем   строили  дерево  и  опять  же  по какому   алгоритму ? Соседи,  парсимония,   макс.  правдоподобие ?
А  оно  вам  надо  ?

Комбинатор

Цитата: Питер от сентября 08, 2014, 17:06:58
Интересно,  но   -   почему    бласт   и  какой бласт,  n или p ?   Параметры ?    В  чем   строили  дерево  и  опять  же  по какому   алгоритму ? Соседи,  парсимония,   макс.  правдоподобие ?

Бласт (на сайте NCBI) потому, что он легко доступен и бесплатен, то есть, эксперимент по сути может повторить любой желающий. Все параметры на нём взяты со значениями по умолчанию.  Для примера, вот страница с "заряженным" геном инициализации репликации ДНК бактерий (DnaA): http://www.ncbi.nlm.nih.gov/protein/302202875
Жмём на "Run Blast" в верхней-правой части экрана и попадаем в меню для поиска гомологов. Если кликнуть там на "Algorithm parameters", то можно посмотреть значения параметров по умолчанию и при необходимости поменять их значения (например, увеличить максимальное число возвращаемых по запросу гомологичных генов со 100 до 1000). Потом жмём на "Blast" и запускаем поиск. Пошуршав минуту-другую сайт выдаст таблицу найденных гомологов. Теперь жмём "Distance tree of results" и в отдельном окне получаем построеное дерево с параметрами алгоритма, заданными по умолчанию, в частности "Tree method: Fast Minimum evolution", то есть, я так понимаю, это разновидность метода объединения ближайших соседей по критерию "balanced minimum evolution". Картинки приведены для режима отображения дерева "force".

Limfil

ну... это очень сырое дерево. чтобы было дерево с достоверными ветвлениями (а только так можно увидить кто там где) надо его погонять бистами с бьютями всякими - и не две минуты а хоть пару часиков Beast beauty

Комбинатор

Цитата: Limfil от сентября 09, 2014, 00:37:08
ну... это очень сырое дерево. чтобы было дерево с достоверными ветвлениями (а только так можно увидить кто там где) надо его погонять бистами с бьютями всякими - и не две минуты а хоть пару часиков Beast beauty

Достоверность ветвлений независимо подтверждается их совпадением с палеонтологическими данными. Время поиска гомологичных генов и построения дерева напрямую зависит от доступной вычислительной мощности. У NCBI в кластере параллельно работают сотни компьютеров, так что нет ничего удивительного, что она может выполнить за пару минут ту же работу, для которой запущенной на единственном компьютере программе нужно работать пару часов. На результаты её работы часто ссылаются в публикациях уровня Nature. Но если у Вас на компьютере уже установлено что-то типа BEAST Software, Вы вполне можете повторить эксперимент и на ней. Потом расскажете нам о результатах. :)

Питер

Ну  хозяин    барин  -  но  если  честно,  то  параметры  бласта  по  умолчанию  подходят    только  для   быстрого  поиска  гомологий  и  мало    годятся  для    столь      больших   эволюционных  построений.   И  все  идут  не в  ногу и используют  тот  же   BEAST  (который, кстати,   бесплатен) -  вместо  того   чтобы  за  пару  минут  решить все  проблемы  в  бласте.
А  оно  вам  надо  ?

Комбинатор

Цитата: Питер от сентября 09, 2014, 09:41:31
Ну  хозяин    барин  -  но  если  честно,  то  параметры  бласта  по  умолчанию  подходят    только  для   быстрого  поиска  гомологий  и  мало    годятся  для    столь      больших   эволюционных  построений.   И  все  идут  не в  ногу и используют  тот  же   BEAST  (который, кстати,   бесплатен) -  вместо  того   чтобы  за  пару  минут  решить все  проблемы  в  бласте.

Не очень понял, что значит "все идут не в ногу"? Вычисления либо распараллеливаются (и тогда результат не зависит от того, на скольких компьютерах они выполняются), либо принципиально не распараллеливаются.  Далее, если параметры по умолчанию плохо подходят "для столь больших эволюционных построений", то чем объясняется почти идеальное совпадение дерева с деревом, полученным путём анализа палеонтологических данных?
Ну, хорошо, какие значения параметров Бласта, с Вашей точки зрения,  больше подходят в данном случае? Попробую запустить с ними.

Питер

Вот  смотрите  что  получается.
Берем  последовательность  полную   ДНК  полимеразы  зета  человека. И    бластуем ее  в  двух  вариантах  - в  стандартном  blastp  и в варианте  по ссылке - DELTA-BLAST.   Остальные    параметры  не  трогаем,  только  главный   алгоритм.
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins&PROGRAM=blastp&BLAST_PROGRAMS=blastp&QUERY=AAC24357.1&LINK_LOC=protein&PAGE_TYPE=BlastSearch
В  итоге   строим      деревья  - все  как у вас  описано.
Получаем в  blastn  http://www.ncbi.nlm.nih.gov/blast/treeview/treeView.cgi?request=page&blastRID=0XBVNU9E015&queryID=gb|AAC24357.1|&entrezLim=&ex=&exl=&exh=&ns=100&screenWidth=1920&screenHeight=1080
в DELTA-BLAST
http://www.ncbi.nlm.nih.gov/blast/treeview/treeView.cgi?request=page&blastRID=0XCNZDDA015&queryID=gb|AAC24357.1|&entrezLim=&ex=&exl=&exh=&ns=500
Разницу  видите ?   Просто  по  числу   включенных в   дерево  видов   она  очевидна.
И  сразу  опять  же ясно,  что  это  скажем  так  мало  корректно.  Взят  белок   целиком,  без учета   наличия  консервативных  доменов.  Гораздо   адекватнее  вариант  с  редактированием  исходной  последовательности  с выделением  области каталитического  домена (что-то  типа 2500-3000 ак).  Но  пока   речь  идет  только  о  параметрах    собственно  бласта  и  их  влиянии  на  результаты. 
А  оно  вам  надо  ?

Limfil

Цитата: Комбинатор от сентября 09, 2014, 07:11:45
Достоверность ветвлений независимо подтверждается их совпадением с палеонтологическими данными.
то есть... как палеонтологические данные тут могут что-то такое дать? кто-то нашёлся в такое время, кто-то - в другое, но кто там от кого ответвился - это уже дело именно биста и иже с ним. ветвелния вообще штука жутко капризная и нередко даёт недостоверные узлы...

Комбинатор

#12
Цитата: Питер от сентября 09, 2014, 12:16:47
Вот  смотрите  что  получается.
Берем  последовательность  полную   ДНК  полимеразы  зета  человека. И    бластуем ее  в  двух  вариантах  - в  стандартном  blastp  и в варианте  по ссылке - DELTA-BLAST.   Остальные    параметры  не  трогаем,  только  главный   алгоритм.
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins&PROGRAM=blastp&BLAST_PROGRAMS=blastp&QUERY=AAC24357.1&LINK_LOC=protein&PAGE_TYPE=BlastSearch
В  итоге   строим      деревья  - все  как у вас  описано.
Получаем в  blastn  http://www.ncbi.nlm.nih.gov/blast/treeview/treeView.cgi?request=page&blastRID=0XBVNU9E015&queryID=gb|AAC24357.1|&entrezLim=&ex=&exl=&exh=&ns=100&screenWidth=1920&screenHeight=1080
в DELTA-BLAST
http://www.ncbi.nlm.nih.gov/blast/treeview/treeView.cgi?request=page&blastRID=0XCNZDDA015&queryID=gb|AAC24357.1|&entrezLim=&ex=&exl=&exh=&ns=500
Разницу  видите ?   Просто  по  числу   включенных в   дерево  видов   она  очевидна.

Разное число включённых в дерево видов вообще-то объясняется тривиально - в "классическом" Бласте по умолчанию ищется максимально 100 гомологов, а в DELTA-BLAST-е - 500.  К сведению - я, как и описано в статье, задавал значение этого параметра, равное 1000 (это единственный параметр, значение по умолчанию которого я изменил). Кроме того, для ускорения вычислений в DELTA-BLAST отбрасываются кандидаты, имеющие порог статистической значимости меньше заданного (по умолчанию - 0.05). Отсюда, я думаю, в основном, и некоторая разница в деревьях. Увеличьте максимальное количество кандидатов для обоих деревьев до 1000, уменьшите DELTA-BLAST Threshold до 0, и я сильно удивлюсь, если вы получите качественно различные топологически деревья. Кроме того, вообще говоря, DELTA-BLAST это упрощённый (для ускорения вычислений) вариант "классического" Бласта, а наша цель, как я понимаю, наоборот, сравнивать его результаты с результатами более "продвинутого" варианта алгоритма.

Цитата: Питер от сентября 09, 2014, 12:16:47
И  сразу  опять  же ясно,  что  это  скажем  так  мало  корректно.  Взят  белок   целиком,  без учета   наличия  консервативных  доменов.  Гораздо   адекватнее  вариант  с  редактированием  исходной  последовательности  с выделением  области каталитического  домена (что-то  типа 2500-3000 ак).  Но  пока   речь  идет  только  о  параметрах    собственно  бласта  и  их  влиянии  на  результаты. 

По поводу параметров - см. выше. Длина данного протеина у человека - порядка 3130 вминокислот, так что, его ручное укорачивание на величину порядка 10%, по моему не принципиально. Более того, я лично противник ручного редактирования последовательностей, ибо, во первых, Бласт всё равно сам автоматически детектирует консервативные каталитические области гена, а во-вторых при таком подходе возрастает роль пресловутого человеческого фактора  (если возможны несколько вариантов редактирования, меняющие результат в ту или иную сторону, то учёный иногда осознанно или неосознанно выбирает именно тот вариант, который лучше соотносится с его гипотезой). Примеров подобного рода манипулирования при ручной обработке данных в науке достаточно. Пусть уж лучше это за него делает не имеющий субъективных предпочтений компьютер!

Комбинатор

#13
Цитата: Limfil от сентября 09, 2014, 15:50:15
то есть... как палеонтологические данные тут могут что-то такое дать? кто-то нашёлся в такое время, кто-то - в другое, но кто там от кого ответвился - это уже дело именно биста и иже с ним. ветвелния вообще штука жутко капризная и нередко даёт недостоверные узлы...

Что значит, "как палеонтологические данные тут могут что-то такое дать"? Гены стали секвенировать лишь в самом конце 20-го века, по Вашему, до этого времени палеонтологи вообще не занимались эволюционными дервьями, а лишь коллекционировали данные? Смею Вас уверить, это не так. По большей части молекулярные исследования лишь подтвердили предложенные ранее варианты эволюционных деревьев, хотя, конечно, некоторые теории в их свете пришлось частично пересмотреть. Тем не менее, говорить, что до этого учёные вообще не имели представления "кто от кого ответвился", это, мне кажется, явный перебор.

Limfil

Цитата: Комбинатор от сентября 09, 2014, 17:45:50
Что значит, "как палеонтологические данные тут могут что-то такое дать"? Гены стали секвенировать лишь в самом конце 20-го века, по Вашему, до этого времени палеонтологи вообще не занимались эволюционными дервьями, а лишь коллекционировали данные?
конечно деревья рисовал ещё Дарвин. но ветвления там и ветвления дерева молекулярного - две большие разницы. в первом случае это наше (достаточно умозрительное) заключение о том, что две группы имеют общего предка в сравнении с третьей, и этот предок "где-то тут". во втором - это конструирование той последовательности (по сути дела) от которой пошли лежащие выше. и это конструирование имеет некоторый интервал доверительности (бласт этого не даёт, он даёт только уровень сходства). при этом - первое - куда грубее второго, и порой можно соединить ветви совсем не похожие или наоборот (не на такой дистанции, но с таким сталкивался). потому - не то что палеонтологические, а даже и морфологические, взятые от нынеживущих организмов, которые можно взять, повертеть как угодно, а зачастую тонко порезать, могут только уложится или нет в молекулярное дерево (обычно всё-таки укладываются), но никак не подтвердить его... всё как раз наоборот. особенно если данные такой давности и по столь далеко разошедшимся группам