Секвенирование генома.

Автор Cirill, января 26, 2014, 16:30:31

« назад - далее »

Cirill

 :)

Хочу спросить по поводу вопроса, который давно не понятен.

В выступлении какого-то почетного математика-информатика (уж не помню имени, кажется на полит.ру была эта лекция) говорилось про огромные трудности, которые стоят на пути секвенирования генома, насчет того, что абсолютно неизвестно как участки упорядочены в геноме, что принцип состыковки частей как поэтапного сбора пазла не работает, что там все на вероятностях и нельзя допустить ни одной ошибки на протяжении миллиардов операций, иначе все (!) насмарку.

Короче общий посыл (насколько я понял) был вроде того, что фрагменты чуть ли не случайным образом комбинируются в ходе вычислительных операций и в 99.99999999% случаев они будут неправильно упорядочены и только один расклад на все необозримые вариации будет правильным, причем неясно, это станет сразу очевидно или еще надо будет распознать правильный он или нет.

Вместе с тем в тех легкодоступных материалах про секвенирование, которые удалось проанализировать никакого упоминания про эти грядущие мега-трудности нет и вроде как уже существуют значительные фрагменты геномов, переписанные на язык компьютеров и только вопрос времени, когда перепишут их целиком.

В связи с чем вопрос: дядечка просто не понимает, что такое секвенирование на современном этапе, или био-информатики знают об этих проблемах, но помалкивают >:D ?

Питер

Фамилию  дядечки  можно  ?
На  самом  деле  собирать  геном  из    коротких чтений-ридов      можно  -  хотя  этот  процесс  и  нельзя  считать  элементарным.   Все  зависит  от качества ридов  и  их  числа   -  считается,  что каждый  нуклеотид в  геноме  должен  быть  прочитан   минимум 100  раз  для  нормальной сборки  ядерного  генома de   novo.  Да.  при  этом  останутся  проблемы с  длинными  блоками  повторов  и  с  участками  с  очень  большим  содержанием C+G.   
А  оно  вам  надо  ?

Cirill

Цитата: Питер от января 26, 2014, 16:46:24
Фамилию  дядечки  можно  ?
На  самом  деле  собирать  геном  из    коротких чтений-ридов      можно  -  хотя  этот  процесс  и  нельзя  считать  элементарным.   Все  зависит  от качества ридов  и  их  числа   -  считается,  что каждый  нуклеотид в  геноме  должен  быть  прочитан   минимум 100  раз  для  нормальной сборки  ядерного  генома de   novo.  Да.  при  этом  останутся  проблемы с  длинными  блоками  повторов  и  с  участками  с  очень  большим  содержанием C+G.   

с фамилией есть проблем, вроде один из лекторов полит.ру, он рассказывал про алгоритмизацию решения различных математических задач и высказался по поводу секвенирования, я пытаюсь найти эту лекции в архиве сайта полит. ру, но пока безуспешно.

Самым значимым его утверждением (на мой взгляд) было, что единичная ошибка - абсолютно вся работа на помойку, т.е. невозможность проверки результатов промежуточных этапов моделирования генома.

Из Вашего ответа, все таки непонятно, проблемы какого порядка, которые просто решаются большим количеством вычислений и подготовительных операций или методологического: т.е. пока ничего не известно про то как эти участки секвенировать?

Питер

Если   речь  идет  об  уникальных  последовательностях  -  проблем  на  сегодняшний  день нет.   Все  алгоритмы  есть,  все  программы  разработаны   -    геном   из  ридов  собирается.   Два  условия -    большая  длина  отдельного  чтения  (рида) и  поэтому  так  называемые  парные  риды  (когда  один  и  тот  же  фрагмент  читают с  двух  сторон  и в  итоге   сразу  читают  фрагменты  длиной    около 150  п.н.)   лучше  одиночных  ридов  (когда  читают  фрагменты  только с  одного  конца  и  получают  относительно  коротки   рид  -   около  70    пар)  и  большое  число  ридов вообще  (как  я  уже  писал  - в  среднем каждый  нуклеотид  должен  быть  прочитан     100  раз).   Ну  и  насчет  "насмарку"    -  первичный  результат  (риды)  никуда  не  девается.  Их    пересобирать в  геном  можно    сколько  хочешь  раз  разными  алгоритмами\программами .   Как  это  обычно  и  делается.
Если  речь  о  повторах  - все  хуже.   Поэтому  очень  сложно  читать  прицентромерный  гетерохроматин,  набитый  повторами.  Вторая  проблема    последовательности с    очень высоким  локальным  C+G   составом  -   они  читаются  плохо  в  любом  методе,  от  старого   Максама-Гилберта  до   современного  параллельного  секвенирования.   
А  оно  вам  надо  ?

Cirill

Цитата: Питер от января 26, 2014, 18:21:09
Если   речь  идет  об  уникальных  последовательностях  -  проблем  на  сегодняшний  день нет.   Все  алгоритмы  есть,  все  программы  разработаны   -    геном   из  ридов  собирается.   Два  условия -    большая  длина  отдельного  чтения  (рида) и  поэтому  так  называемые  парные  риды  (когда  один  и  тот  же  фрагмент  читают с  двух  сторон  и в  итоге   сразу  читают  фрагменты  длиной    около 150  п.н.)   лучше  одиночных  ридов  (когда  читают  фрагменты  только с  одного  конца  и  получают  относительно  коротки   рид  -   около  70    пар)  и  большое  число  ридов вообще  (как  я  уже  писал  - в  среднем каждый  нуклеотид  должен  быть  прочитан     100  раз).   Ну  и  насчет  "насмарку"    -  первичный  результат  (риды)  никуда  не  девается.  Их    пересобирать в  геном  можно    сколько  хочешь  раз  разными  алгоритмами\программами .   Как  это  обычно  и  делается.
Если  речь  о  повторах  - все  хуже.   Поэтому  очень  сложно  читать  прицентромерный  гетерохроматин,  набитый  повторами.  Вторая  проблема    последовательности с    очень высоким  локальным  C+G   составом  -   они  читаются  плохо  в  любом  методе,  от  старого   Максама-Гилберта  до   современного  параллельного  секвенирования.   

Да, вопрос был про участки с повторами и перенасыщенные C+G составом.

Уж извините непонятливость, но фразы "очень  сложно  читать" и "читаются  плохо" в моем представлении допускают довольно широкий диапазон трактовок, от необходимости затратить на них много больше времени при несколько более сложных программах обработки и до фактической невозможности получить результат без новых методов.

К какому из двух описаний ближе положение дел?

Питер

Участки с  высоким  G+C  прочитать  можно -  но  ридов  надо  больше  для  достижения   той  же  точности,  что  и в  АТ-богатых  участках.  И  дело  не в  программах  обработки  -  дело  именно в  ридах.
C  повторами   ситуация  очень  сильно  зависит  от  типа    повтора  и  размера    блока  повторов.  Например,   прицентромерный  гетерохроматин  -     много  раз  повторяется  практически  одна  и  та  же  последовательность с  гомологией   более 95%.  Как  собрать  контиг ?    Повтор  типа Alu   в  эухроматине  -     можно  точно   определить его место в  геноме  относительно  уникальной    последовательности  и  концы   самого  повтора,  но в  центре  повтора  могут  быть  вопросы, опять  же    из-за высокой  гомологии   повторов  между  собой.   И  здесь  как  раз  проблема  и алгоритма  сборки,  и  проблема  точности чтения.   
А  оно  вам  надо  ?