Печать страницы - Распознавание голоса, почерка, речи и зрительной информации

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от июня 15, 2007, 14:28:07

Какое из направлений компьютерного распознавания сейчас развивается наиболее успешно: идентификация личности по голосу, идентификации личности по почерку, распознавание речи или распознавание зрительной информации?

Очевидно идентификация по почерку и голосу? Или нет?

Название: Re: Распознавание голоса, почерка, речи и зрительной информа
Отправлено: Комбинатор от июня 15, 2007, 14:57:10

Цитата: "Alexy"Какое из направлений компьютерного распознавания: голоса, почерка, речи или зрительной информации сейчас развивается наиболее успешно?

Очевидно почерка и голоса? Или нет?

Все направления развиваются, какое из них более успешно, сказать не берусь.
Кстати, какое отношение это имеет к палеонтологии?

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от июня 15, 2007, 15:12:55

Скорее к эволюции

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Комбинатор от июня 15, 2007, 15:22:25

Цитата: "Alexy"Скорее к эволюции

Я лично работаю в области распознавания рукописного текста. Могу сказать, что прогресс в данной области процентов, наверное, на 60-70 определяется ростом возможностей вычислительной техники, и только оставшиеся 30-40 процентов приходятся на совершенствование алгоритмов распознавания, то есть, софта.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Neska от июня 15, 2007, 15:36:34

:oops: Можно вопрос на близкую тему (поскольку текст относится все же к зрительной информации :wink: )
А от чего зависит эффективность перевода с иностранного языка / на иностранный язык - от мощности вычислительной техники или от софта?

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Комбинатор от июня 15, 2007, 16:16:23

Цитата: "Neska":oops: Можно вопрос на близкую тему (поскольку текст относится все же к зрительной информации :wink: )
А от чего зависит эффективность перевода с иностранного языка / на иностранный язык - от мощности вычислительной техники или от софта?

Не знаю. Думаю, что в простейших случаях типа обычного подсторчника практически не зависит. А вот если требуется перевод, близкий по качеству к работе профессионального переводчика, то там возникает традиционная проблема комбинаторного взрыва, и, соответственно, данная зависимость может проявляться.

P.S.
Я имел в виду зависимость от вычислительной мощности.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Игорь Антонов от июня 15, 2007, 16:50:29

Цитата: "Neska"А от чего зависит эффективность перевода с иностранного языка / на иностранный язык - от мощности вычислительной техники или от софта?

От мощности техники зависит скорость перевода. Качество - от софта. При этом проблема качественного и достоверного машинного перевода пока не имеет даже теоретического решения. Фразы естественного языка часто допускают многовариантность их формальной интерпретации, а их правильный смысл воспринимается нами лишь в контексте жизненного опыта.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Gilgamesh от июля 01, 2007, 08:15:09

Распознавание голоса, почерка и... смысла
http://eternalmind.ru/index.php?option=com_content&task=view&id=1210&Itemid=2

Группа синтаксического и семантического анализа при Европейском научно-исследовательском центре Xerox во Франции разработала инструмент поиска FactSpotter, который не просто ищет ключевые слова, а анализирует смысл текста.
FactSpotter выполняет грамматический разбор текста, пытаясь получить дополнительную информацию — например, определить, применяются ли неоднозначные слова в качестве существительных или глаголов и на кого указывает местоимение. Такой анализ позволяет выяснить, что выражения «Билл Гейтс», «он» и «глава Microsoft» в одном и том же документе, вероятно, относятся к одному и тому же лицу. При этом программа должна также установить, что фразы «Билл Гейтс сказал...» и «Друг Билла Гейтса сказал...» предшествуют высказываниям разных людей — в таких случаях поисковые машины, основанные только на ключевых словах, скорее всего, выдадут неадекватные результаты.

Одной из первых служб, использующих FactSpotter, станет Xerox Litigation Services, которая в будущем году встроит его в предназначенный для юристов комплекс программного обеспечения e-discovery. На стадии следствия, когда приходится просеивать миллионы сообщений e-mail и других документов, новый инструмент поможет определять отправителя и получателей сообщений и выбирать информацию о событиях и датах. Эти результаты можно будет использовать для восстановления картины событий, из которой станет исходить следствие.

Для описания грамматической системы разработчики создали специальный метаязык. Пока они используют его для голландского, английского, французского, немецкого, итальянского, португальского и испанского языков. Совместная команда исследователей Fujitsu-Xerox применила этот метаязык и для описания японской грамматики, чтобы продемонстрировать возможность его использования для языков с другой системой письма.

Сам FactSpotter написан на языке программирования С, а дополнительные модули на Java и Python позволяют ему взаимодействовать с другими приложениями. Хотя программа анализирует только тексты, ее можно связать с инструментами распознавания речи, чтобы искать в радио- и ТВ-архивах. Компания уже участвует в нацеленных на это совместных проектах.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от июля 09, 2007, 18:14:01

Узнавание голоса или почерка вроде не требует понимания контекста.

Поэтому это наверное легче, чем перевод на другой язык или распознавание рукописного текста (где для опознания одного рукописного символа помогает правильная идентификация соседних).

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Nestor notabilis от июля 13, 2007, 04:21:40

Откровенно говоря, я очень сомневаюсь, что машина хоть когда-либо сможет хотя бы приблизиться к переводу даже на уровне переводчика средней квалификации. Точно также как никогда не будет проблемы "агрессивного искусственного интеллекта" - алгоритм, имитирующий мышление, формальное мышление, разработать можно. Но вот думать будет некому - у машины нет ядра, которое осознает прочитанное. Она ведь - просто мертвая материя. И в этом вся проблема.
Тут иногда и человек может два часа думать над одним предложением, и только птом "до него доходит", а уж автомат... переведет-то он за пару секунд, но что это будет за перевод?

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Максим Деркачев от июля 13, 2007, 20:20:07

Цитата: "Nestor notabilis"Точно также как никогда не будет проблемы "агрессивного искусственного интеллекта" - алгоритм, имитирующий мышление, формальное мышление, разработать можно. Но вот думать будет некому - у машины нет ядра, которое осознает прочитанное. Она ведь - просто мертвая материя. И в этом вся проблема.

Ну это утверждение по крайней мере спорно. Машина может и мертвая, однако информация, которой она оперирует, уже довольно сложна и структурирована в гораздо большей степени, чем предполагает неживая материя. Например, задача закрепления довольно сложных условных рефлексов реализована в нейросетях, которые "эволюционируют" очень быстро. Обученные нейросети уже давно способны к самостоятельному обучению (в ограниченных доменах применения, но все же). Например, торгуют акциями гораздо стабильнее и успешнее среднего обученного человека. А техника развивается, то ли еще будет.
Проблема компьютерного перевода - это проблема фиксирования контекстов, причем именно в человеческом понимании. У любого взрослого человека есть гигантский жизненный опыт, позволяющий распознавать контексты. Но даже этот жизненный опыт - дело наживное. Наверняка машинный интеллект будет работать не так же как человеческий - очень разные элементные базы, но то что он не сможет его имитировать, хотя бы в узких прикладных задачах типа поиска контекстов и перевода - далеко не факт.

Кстати - интересная тема :) Особенно в свете гипотез о постсингулярной цивилизации и х.ф. Терминатор :) Правда это уже пойдет в "небиологический" раздел.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Сергей от июля 13, 2007, 21:10:39

Цитата: "Максим Деркачев"Например, задача закрепления довольно сложных условных рефлексов реализована в нейросетях, которые "эволюционируют" очень быстро. Обученные нейросети уже давно способны к самостоятельному обучению (в ограниченных доменах применения, но все же). Например, торгуют акциями гораздо стабильнее и успешнее среднего обученного человека. А техника развивается, то ли еще будет.

Да ничего особого не будет. Среднего - обыграет, а вот умный игрок всегда (в отсутствии программиста, конечно) выиграет у машины. Поскольку, если в игре в шахматы алгоритм игры менять нельзя, то на бирже наоборот - это главное условие крупного выигрыша. Машина не может ставить себе целей, поскольку от выигрыша ей не становится ни тепло, ни холодно. В отличие от живой системы.

Аналогично с переводом: технический текст - без проблем, а вот художественное произведение, в котором много оригинальных суждений для машины будет непреодолим.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Комбинатор от июля 13, 2007, 21:16:58

Цитата: "Сергей"
Да ничего особого не будет. Среднего - обыграет, а вот умный игрок всегда (в отсутствии программиста, конечно) выиграет у машины. Поскольку, если в игре в шахматы алгоритм игры менять нельзя, то на бирже наоборот - это главное условие крупного выигрыша. Машина не может ставить себе целей, поскольку от выигрыша ей не становится ни тепло, ни холодно. В отличие от живой системы.

Не вдаваясь в философию, скажу, что у нас машина уже больше года сама, полностью автономно, играет на бирже, и пока в плюсе. (тьфу-тьфу).

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Сергей от июля 13, 2007, 21:22:14

Цитата: "Комбинатор"
Не вдаваясь в философию, скажу, что у нас машина уже больше года сама, полностью автономно, играет на бирже, и пока в плюсе. (тьфу-тьфу).

Выигрыши, наверно, не столь велики. Иначе бы в игру пренепременно включился кто-то типа Сороса.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Комбинатор от июля 13, 2007, 21:49:34

Цитата: "Сергей"
Цитата: "Комбинатор"
Не вдаваясь в философию, скажу, что у нас машина уже больше года сама, полностью автономно, играет на бирже, и пока в плюсе. (тьфу-тьфу).

Выигрыши, наверно, не столь велики. Иначе бы в игру пренепременно включился кто-то типа Сороса.

За первый год торговли прибыль составила 11 с небольшим процентов.
Сейчас запустили вторую версию программы, надеемся на увеличение прибыли до 20-25 годовых, но что получится - посмотрим.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от июля 17, 2007, 15:56:06

"Узнавание голоса или почерка не требует понимания контекста"
Прав я в этом или нет?
Почему в этих сферах тоже не наблюдается особых результатов?

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Максим Деркачев от июля 18, 2007, 17:57:30

Цитата: "Alexy""Узнавание голоса или почерка не требует понимания контекста"
Прав я в этом или нет?

Контекст есть. Индивидуальные особенности и нарушения, в случае голоса - наличие посторонних звуков и помех (сигнал/шум).
Да и вообще важно что именно пишется. Одно дело - на русском, другое - на английском (при совпадении написания большинства символов)

Но, в общем, в этих областях продвинулись уже довольно далеко, и развитие идет очень быстро. Фактически, сейчас все упирается в вычислительные мощности. Индивидуальные особенности нивелируются засчет "обучения", а все остальное - перебором (где мощность-то и нужна). Если судить по программам для наладонников, то там при ограниченной мощности уже довольно неплохие результаты. А взлом captchas (намеренно ухудшенный текст, используется, например, при регистрации на сайтах, чтобы отсеять роботов) - уже общее место.

Даже с распознаванием изображений уже хороший прогресс. А это уже гораздо сложнее чем почерк (когда понятно, что это именно рукописный текст, черным по белому - гораздо проще).

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: deevrod от июля 27, 2007, 10:12:12

Господа форумляне!

Чтобы машина могла нормально переводить, ей надо думать. А этого-то ей и не дано. Машина только выполняет то, что в неё вложено. А вкладывает человек.
Насчёт шахмат. Машина может просчитывать длиннющие варианты за секунды, чего не дано гроссам из плоти и крови. Но все эти особенности позиции, слабости, сдвоенные-строенные пешки, все эти дрючки машина не видит, т. к. думать не может. Образно говоря, машина - это Стейниц, а человек - Андерсен, Цукерторт или Чигорин.

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от июля 27, 2007, 10:46:17

Неужели современная машина не обыгрывает гроссмейстера?

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Комбинатор от июля 27, 2007, 11:38:40

Цитата: "Alexy"Неужели современная машина не обыгрывает гроссмейстера?

Обыгрывает, конечно.
Последний матч между чемпионом мира Крамником и компьютерной программой Deep Fritz состоялся в декабре прошлого года и закончился со счётом 2:4. Кстати, считается, что Крамник как раз очень силён именно в позиционной игре...

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от ноября 06, 2007, 01:29:05

Кто-нибудь знает, какие есть объекты в окружающей нас среде, которые плохо распознаются человеком? Может есть исследования на эту тему?
Я например очень плохо запоминаю расположение звезд на небе, помню только названия созвездий и самые крупные звезды.
Возможно рисунок из одних лишь точек, отличающихся лишь степенью "жирности", особенно плохо запоминается человеком?

Зато я хорошо запоминаю расположение объектов на геогр. карте, и могу их представить в воображениии. Хотя возможно сопоставление не правомочно, ибо с геогр. объектами ассоциируется гораздо больше дополнительной информации.

Поделитесь пожалуйста своими особенностями запоминания разных классов зрительных объектов

Название: Распознавание голоса, почерка, речи и зрительной информации
Отправлено: Alexy от ноября 28, 2007, 20:36:17

"По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, вкокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом"

paleoforum.ru

Форумы сайта «Проблемы эволюции» => Дополнение к форуму: небиологические разговоры об эволюции => Тема начата: Alexy от июня 15, 2007, 14:28:07