:)
Хочу спросить по поводу вопроса, который давно не понятен.
В выступлении какого-то почетного математика-информатика (уж не помню имени, кажется на полит.ру была эта лекция) говорилось про огромные трудности, которые стоят на пути секвенирования генома, насчет того, что абсолютно неизвестно как участки упорядочены в геноме, что принцип состыковки частей как поэтапного сбора пазла не работает, что там все на вероятностях и нельзя допустить ни одной ошибки на протяжении миллиардов операций, иначе все (!) насмарку.
Короче общий посыл (насколько я понял) был вроде того, что фрагменты чуть ли не случайным образом комбинируются в ходе вычислительных операций и в 99.99999999% случаев они будут неправильно упорядочены и только один расклад на все необозримые вариации будет правильным, причем неясно, это станет сразу очевидно или еще надо будет распознать правильный он или нет.
Вместе с тем в тех легкодоступных материалах про секвенирование, которые удалось проанализировать никакого упоминания про эти грядущие мега-трудности нет и вроде как уже существуют значительные фрагменты геномов, переписанные на язык компьютеров и только вопрос времени, когда перепишут их целиком.
В связи с чем вопрос: дядечка просто не понимает, что такое секвенирование на современном этапе, или био-информатики знают об этих проблемах, но помалкивают >:D ?
Фамилию дядечки можно ?
На самом деле собирать геном из коротких чтений-ридов можно - хотя этот процесс и нельзя считать элементарным. Все зависит от качества ридов и их числа - считается, что каждый нуклеотид в геноме должен быть прочитан минимум 100 раз для нормальной сборки ядерного генома de novo. Да. при этом останутся проблемы с длинными блоками повторов и с участками с очень большим содержанием C+G.
Цитата: Питер от января 26, 2014, 16:46:24
Фамилию дядечки можно ?
На самом деле собирать геном из коротких чтений-ридов можно - хотя этот процесс и нельзя считать элементарным. Все зависит от качества ридов и их числа - считается, что каждый нуклеотид в геноме должен быть прочитан минимум 100 раз для нормальной сборки ядерного генома de novo. Да. при этом останутся проблемы с длинными блоками повторов и с участками с очень большим содержанием C+G.
с фамилией есть проблем, вроде один из лекторов полит.ру, он рассказывал про алгоритмизацию решения различных математических задач и высказался по поводу секвенирования, я пытаюсь найти эту лекции в архиве сайта полит. ру, но пока безуспешно.
Самым значимым его утверждением (на мой взгляд) было, что единичная ошибка - абсолютно вся работа на помойку, т.е. невозможность проверки результатов промежуточных этапов моделирования генома.
Из Вашего ответа, все таки непонятно, проблемы какого порядка, которые просто решаются большим количеством вычислений и подготовительных операций или методологического: т.е. пока ничего не известно про то как эти участки секвенировать?
Если речь идет об уникальных последовательностях - проблем на сегодняшний день нет. Все алгоритмы есть, все программы разработаны - геном из ридов собирается. Два условия - большая длина отдельного чтения (рида) и поэтому так называемые парные риды (когда один и тот же фрагмент читают с двух сторон и в итоге сразу читают фрагменты длиной около 150 п.н.) лучше одиночных ридов (когда читают фрагменты только с одного конца и получают относительно коротки рид - около 70 пар) и большое число ридов вообще (как я уже писал - в среднем каждый нуклеотид должен быть прочитан 100 раз). Ну и насчет "насмарку" - первичный результат (риды) никуда не девается. Их пересобирать в геном можно сколько хочешь раз разными алгоритмами\программами . Как это обычно и делается.
Если речь о повторах - все хуже. Поэтому очень сложно читать прицентромерный гетерохроматин, набитый повторами. Вторая проблема последовательности с очень высоким локальным C+G составом - они читаются плохо в любом методе, от старого Максама-Гилберта до современного параллельного секвенирования.
Цитата: Питер от января 26, 2014, 18:21:09
Если речь идет об уникальных последовательностях - проблем на сегодняшний день нет. Все алгоритмы есть, все программы разработаны - геном из ридов собирается. Два условия - большая длина отдельного чтения (рида) и поэтому так называемые парные риды (когда один и тот же фрагмент читают с двух сторон и в итоге сразу читают фрагменты длиной около 150 п.н.) лучше одиночных ридов (когда читают фрагменты только с одного конца и получают относительно коротки рид - около 70 пар) и большое число ридов вообще (как я уже писал - в среднем каждый нуклеотид должен быть прочитан 100 раз). Ну и насчет "насмарку" - первичный результат (риды) никуда не девается. Их пересобирать в геном можно сколько хочешь раз разными алгоритмами\программами . Как это обычно и делается.
Если речь о повторах - все хуже. Поэтому очень сложно читать прицентромерный гетерохроматин, набитый повторами. Вторая проблема последовательности с очень высоким локальным C+G составом - они читаются плохо в любом методе, от старого Максама-Гилберта до современного параллельного секвенирования.
Да, вопрос был про участки с повторами и перенасыщенные C+G составом.
Уж извините непонятливость, но фразы "очень сложно читать" и "читаются плохо" в моем представлении допускают довольно широкий диапазон трактовок, от необходимости затратить на них много больше времени при несколько более сложных программах обработки и до фактической невозможности получить результат без новых методов.
К какому из двух описаний ближе положение дел?
Участки с высоким G+C прочитать можно - но ридов надо больше для достижения той же точности, что и в АТ-богатых участках. И дело не в программах обработки - дело именно в ридах.
C повторами ситуация очень сильно зависит от типа повтора и размера блока повторов. Например, прицентромерный гетерохроматин - много раз повторяется практически одна и та же последовательность с гомологией более 95%. Как собрать контиг ? Повтор типа Alu в эухроматине - можно точно определить его место в геноме относительно уникальной последовательности и концы самого повтора, но в центре повтора могут быть вопросы, опять же из-за высокой гомологии повторов между собой. И здесь как раз проблема и алгоритма сборки, и проблема точности чтения.