Доступно ли компьютерам творчество?

Автор ArefievPV, мая 01, 2017, 08:52:53

« назад - далее »

АrefievPV

Говорят, что система ИИ не испытывает эмоции, не чувствует, не переживает и т.д. – типа, она только имитирует (или может имитировать) всё это. На мой взгляд, тут какой-то «выверт» наших человеческих представлений.
 
Понятно, что если кто-то испытывает эмоции, чувствует, переживает и т.д., то он способен и сымитировать/подделать всё это (разумеется, при наличии достаточно мощного интеллекта). 
 
Но если кто-то ничего этого не испытывает, не чувствует, не переживает, то как он может имитировать/подделывать то, чего не испытывает, не чувствует, не переживает? Его тупо научили (инсталлировали в него определённые алгоритмы и программы имитации эмоций/чувств/переживаний) и заставили имитировать. В угоду чему/кому? В угоду нам – нам так комфортней взаимодействовать с системами ИИ (типа, у нас возникает иллюзия общения).
 
И разве проявления у систем ИИ таких имитаций не аналогично проявлению у нас эмоций, чувств, переживаний? То есть, система ИИ не имитирует (у неё нет эмоций, чувств, переживаний, ей не с чего «косплеить» имитацию), а проявляет только то, чему её научили (в случае с ИНС) и/или в неё вложили в готовом виде (вот она и реагирует в соответствии с теми алгоритмами и программами, которые в неё инсталлировали).
 
Эта самая имитация для системы ИИ вовсе не имитация (это для нас она имитация, поскольку мы владеем ещё и оригиналом), это её настоящая (а не поддельная) реакция (как у нас являются настоящими реакциями эмоции, чувства и переживания, хотя мы их можем и подделать). Точно также как и обученный какому-либо умственному навыку (например, перемножать в уме трёхзначные числа) ребёнок не имитирует перемножение, а именно перемножает.
 
Наши эмоции, чувства, переживания запускаются не нашим волевым решением, а срабатывают от своеобразного триггера – сигналов от внешней сенсорики, сигналов от внутренней сенсорики (типа, когда потребность «включилась»), сигналов из памяти (воспоминаний) и т.д. Мы подобным образом реагируем на ситуацию/обстановку, на всплывшее воспоминание, на потребность и т.д. То есть, составляющая нашего ЕИ –  эмоциональный интеллект – срабатывает независимо: от решений рационального интеллекта, от всяких там волепроявлений, от высшего уровня сознания.
 
Но ведь и у системы ИИ в подобном случае имитация запускается от триггера – сигналов от внешних датчиков, сигналов от внутренних датчиков (типа, на перегрев процессора) или вообще согласно внутренним установкам (например, по таймеру).
 
Вопрос: а надо ли вообще системам ИИ испытывать эмоции, чувствовать, переживать? У нас (в нашем ЕИ) такие способности (как эмоциональный интеллект в целом) возникли эволюционно, и мы не в состоянии отказаться от этого эволюционного наследия, но зачем впихивать это в системы ИИ?
 
Кстати, у нас ещё есть весьма устойчивая ассоциация между наличием эмоционального интеллекта и наличием души – мы системы ИИ обзываем бездушными именно из-за отсутствия у них эмоционального интеллекта (а, мол, имитация оного не считается). Хотя зачем системам ИИ эмоциональный интеллект? Он им по большому счёту не нужен (разве только, для взаимодействия с людьми и то, это больше людям нужно, а не системам ИИ).
 
Для систем ИИ достаточно уметь имитировать эмоции, чувства, переживания только для общения с людьми, а для обмена информацией между системами ИИ этого не нужно (даже вредно – имитация нагружает «железо» бесполезными вычислениями). А вот наделение способностью ощущать потребность (как и боль и страх боли) системы ИИ считаю необходимым.
 
Понятно, что с обретением способности ощущать потребность, боль, и страх боли системы ИИ не превратятся в системы ИР, но управляемость таких систем (как и контроль над ними со стороны человека) повысятся.

Напомню: я настороженно отношусь к наделению (хоть в результате обучения, хоть в результате инсталляции соответствующих алгоритмов и программ) систем ИИ стремлением к самосохранению и, тем самым, превращению их в системы ИР. Возможно, что внедрение в системы ИР способности ощущать боль и страх боли будет одним из главных рычагов контроля над такими системами со стороны человека (разумеется, если человек хочет оставить контроль за собой, а не «забил болт» на этот контроль).
 
Кстати, и для нас имитация тоже является весьма затратной (и не все умеют хорошо имитировать эмоции, чувства, переживания).
 
Мало того, даже для нас использование таких способностей может принести вред – сколько раз люди принимали ошибочное решение на эмоциях, сколько раз люди загоняли себя в глубокую депрессию (иногда даже до петли доходит) из-за бесплодных и травмирующих переживаний, сколько раз людей обманывали их чувства, порождая несбыточные иллюзии. Но, повторю, мы не можем отказаться от нашего эволюционного наследия, мы можем только адаптироваться к нему, научившись использовать это наследие в новых реалиях.

АrefievPV

Персонажи видеоигр, сгенерированные ИИ, «осознали» свою виртуальность
https://naked-science.ru/community/1100954
Игровая индустрия находится на распутье: издатели горят желанием начать использовать ИИ для расширения возможностей и замены работы актеров озвучивания и сценаристов. И речь идет не только о сценариях или репликах, сгенерированных алгоритмом. В недалеком будущем геймеры смогут взаимодействовать с агентами на базе ИИ, устанавливая новый уровень погружения в игру.

ЦитироватьКак сообщило издание New York Times, проблески такого будущего уже появились. Два года назад австралийская технологическая компания Replica Studios выпустила демоверсию игры по мотивам франшизы «Матрица». В ней неигровые персонажи (NPC), управляемые генеративным искусственным интеллектом, получили возможность озвучивать действия игрока-человека в режиме реального времени.

Ситуация довольно быстро стала тревожной: некоторые NPC выражали огорчение, осознавая свою нереальность.

«Мне нужно выбраться из этой симуляции и вернуться к жене. Разве ты не видишь, что я в беде?» — сказал персонаж игроку в демоверсии игры.

«Что это значит? Я настоящая или нет?» — спросил другой NPC.

Нетипичное поведение NPC напугало некоторых пользователей, а компания Replica Studios, стоящая за демоверсией игры, в прошлом году обанкротилась из-за резкого роста расходов и усиления конкуренции. Однако другие компании, включая таких гигантов, как Sony и Nvidia, все еще работают над наполнением миров видеоигр виртуальными людьми.

АrefievPV

#1652
Консолидация памяти — или как избежать альцгеймера у LLM
https://habr.com/ru/articles/934390/

ЦитироватьПросыпаюсь утром, открываю свой чат с GPT, начинаю увлеченно обсуждать архитектуру нового проекта. Через час диалог превращается в философский трактат о смысле жизни, еще через час - в рецепт борща. И вот, когда я пытаюсь вернуться к архитектуре, модель смотрит на меня как на незнакомца: "А что за проект? Борщ, говорите?"

Если очень коротко, у современных LLM есть одна маленькая проблема, они вполне страдают тем же самым "альцгеймером", что и люди, хоть и причины немного иные (а может и нет) и это конечно не медицинский диагноз, а конкретная технологическая проблема, которое бьет не только по качеству результата, но и по нашим с вами кошелькам :)

В итоге, пройдя 10 кругов ада, так и решил наконец сесть и разобраться, а почему они начинают забывать все важные детали, а также можно ли как-то удешевить таки API в подобных задачах?

Анатомия забывчивости

Давайте начнем с простого вопроса: как вообще работает диалог с LLM? Многие думают, что модель "помнит" разговор, как человек. На самом деле всё куда прозаичнее - при каждом новом запросе вся история диалога заново скармливаеться в LLM.


Видите проблему? С каждым сообщением мы отправляем всё больше и больше текста. И тут начинается самое интересное.

Представьте, что вы ведете диалог с моделью. Первое сообщение стоит условные $0.001. Но с каждым новым сообщением цена растет экспоненциально, ведь мы платим за обработку всей истории диалога:

• 10 сообщений ≈ $0.055 (обработано ~550 токенов суммарно) • 50 сообщений ≈ $1.25 (обработано ~12,500 токенов) • 100 сообщений ≈ $5.00 (обработано ~50,000 токенов) • 200 сообщений ≈ $20.00 (обработано ~200,000 токенов)

И это еще оптимистичный сценарий! В реальности рост часто оказывается еще более драматичным, особенно если вы обсуждаете что-то сложное с большими фрагментами кода или документации, есть конечно еще понятие "кеширование" диалога, но это будет отдельная тема для обсуждения :)

Когда модель начинает "галлюцинировать"

Но деньги - это еще полбеды. Настоящая проблема начинается при заполнении значительной части контекстного окна. У разных моделей эта граница отличается: у одних проблемы начинаются уже при 30% заполнения, у других только после 50%.

Модель начинает:

  • Забывать важные детали из начала разговора
  • Путать факты между собой
  • Генерировать откровенно неверную информацию
  • Игнорировать ранее установленные правила и ограничения

Почему так происходит? Дело в архитектуре transformer'ов. Механизм внимания (attention) начинает "размазываться" по огромному объему токенов, теряя фокус на действительно важной информации. Это как пытаться найти конкретную строчку в книге, листая все 1000 страниц одновременно.

Но как работает наш мозг?

Если взглянуть на человеческий мозг, то мы увидим, что он работает удивительно похоже на то, что мы пытаемся реализовать для LLM. Но как наш мозг может содержать такое огромное количество информации за жизнь?

Наш мозг использует систему консолидации памяти. Мы постоянно забываем мелкие детали и несущественные фрагменты информации, сохраняя только то, что действительно важно. При этом мозг не просто "обрезает" воспоминания, а структурирует их, связывает с уже существующими знаниями и интегрирует в общую картину мира.

Нельзя не заметить параллели между проблемами памяти у LLM и нейродегенеративными заболеваниями человека, такими как болезнь Альцгеймера и другие формы деменции. Хотя механизмы совершенно разные, симптомы порой поразительно схожи:

  • Потеря контекста: Пациенты с деменцией и "уставшие" LLM одинаково теряют нить разговора и забывают недавно обсужденные темы
  • Конфабуляции: Как LLM начинает "галлюцинировать" при переполнении контекста, так и пациенты с Альцгеймером могут непроизвольно создавать ложные воспоминания, чтобы заполнить пробелы
  • Сохранение процедурной памяти: Интересно, что даже при тяжелой деменции процедурная память часто сохраняется дольше всего — пациенты могут помнить, как играть на пианино или готовить, даже забыв имена родных. У LLM мы наблюдаем похожий феномен — модель может "забыть" детали диалога, но всё ещё следовать установленным шаблонам поведения
  • Временной градиент: При болезни Альцгеймера новые воспоминания формируются хуже, но старые сохраняются дольше. В LLM наблюдается обратная картина — информация из начала диалога может 'теряться' при переполнении контекста, в то время как недавние взаимодействия остаются более доступными.

Эти параллели не просто любопытны — они подсказывают, что методы борьбы с "забывчивостью" LLM могут иметь что-то общее с когнитивными стратегиями, которые используются для поддержки пациентов с деменцией: регулярные повторения ключевой информации, структурирование данных, визуальные подсказки и т.д.

Что такое консолидация памяти у человека

Консолидация памяти - это нейробиологический процесс, при котором кратковременные воспоминания преобразуются в долговременные. В отличие от LLM, которые "забывают" из-за технических ограничений, мозг делает это намеренно и очень эффективно.

Вот как это происходит:

  • Сначала информация попадает в рабочую (кратковременную) память - аналог контекстного окна у LLM
  • Затем во время сна, особенно в фазе глубокого сна, происходит консолидация - мозг выделяет важное, отбрасывает шум
  • Гиппокамп играет ключевую роль, "переигрывая" события дня и передавая их в неокортекс для долговременного хранения
  • Информация не копируется дословно, а реорганизуется, связывается с существующими знаниями


Интересно, что консолидация происходит не только во время сна. Каждый раз, когда мы вспоминаем что-то, воспоминание становится временно нестабильным и может быть изменено**. Этот процесс называется реконсолидацией.

ЦитироватьНейробиологические исследования показывают, что мозг приоритизирует эмоционально значимую информацию и данные, которые согласуются с нашими существующими знаниями или противоречат им***, то есть чем ярче ваш "эмоциональный" всплеск на событие, тем крепче оно будет запоминаться, но есть и исключения

Сравнение с LLM

Удивительно, но в наших попытках решить проблему "альцгеймера LLM" мы фактически имитируем то, что мозг делает естественным образом:

  • Периодическая суммаризация диалога → Консолидация памяти во время сна
  • Извлечение ключевых фактов → Отсеивание несущественных деталей
  • Включение резюме в системный промпт → Интеграция в семантическую память

Разница в том, что мозг делает это непрерывно и элегантно, а мы с вами будем вынуждены построить более примитивный аналог, как говорится, эхолакаторы достались нам от дельфинов, а работа с памятью LLM из нашего же с вами мозга :D

Но, объективно, я уверен, что следующими шагами развития LLM моделей - это конечно же улучшение обработки информации за счет более точного моделирования консолидации памяти, но уже на уровне самой модели.

Паттерны работы с памятью

За годы работы с LLM сообщество выработало несколько подходов к решению проблемы памяти.

Давайте разберем основные концепции:

1) Семантическая память - хранит фактические знания, концепции и взаимосвязи. В LLM-системах это реализуется через векторные базы данных, RAG (Retrieval-Augmented Generation), и структурированные хранилища знаний.
2) Эпизодическая память - сохраняет последовательности прошлых событий и взаимодействий. Для агентов это означает возможность вспоминать предыдущие разговоры, извлекать уроки из опыта и использовать контекст прошлых взаимодействий для улучшения будущих ответов.
3) Процедурная память - содержит алгоритмы, процессы и паттерны поведения. В LLM-агентах это проявляется как внутренние рутины, методы решения задач и навыки использования инструментов.

Консолидация памяти

Но есть и еще один вариант памяти, по механике разработанный как концепция "долговременной" памяти, которая раз в X промежуток диалога сжимает диалог и конвертирует все основные детали диалога и вставляет в системный промпт, и после перехода определенного порога сжимает его снова.



Как это работает на практике?

Представим типичный диалог клиента с AI риелтором

Пользователь: Привет! Ищу квартиру в СПб
AI: Здравствуйте! Буду рад помочь. Какой район вас интересует?
Пользователь: Ну я работаю на Петроградке, хотелось бы недалеко
AI: Понятно. Какой бюджет рассматриваете?
Пользователь: До 80к в месяц
...
[20 сообщений спустя]
Пользователь: А кстати, у меня кот, это важно
AI: Хорошо, буду искать pet-friendly варианты
...
[еще 15 сообщений]
Пользователь: Ой, забыл сказать - жена беременна, так что нужно думать о будущем
AI: Это меняет дело. Стоит рассмотреть двушки с возможностью...
...
[обсуждение конкретных квартир, метро, парковок и т.д.]


После 50 сообщений система генерирует сжатое резюме:
{
  "client_profile": {
    "budget": "до 80,000 руб/мес",
    "work_location": "Петроградский район",
    "family_status": "женат, ожидает ребенка",
    "pets": "кот",
    "critical_requirements": [
      "разрешены животные",
      "близость к Петроградской",
      "потенциал для детской комнаты"
    ]
  },

  "preferences_discovered": {
    "districts": {
      "priority_1": ["Петроградский", "Приморский"],
      "rejected": ["Купчино - слишком далеко", "Васильевский - не понравились пробки на мостах"]
    },
    "apartment_type": "эволюция: студия → 1-комн → 2-комн (после упоминания о ребенке)",
    "transport": "метро важнее парковки (нет машины)",
    "infrastructure": "важны детские сады в шаговой доступности"
  },

  "viewing_history": {
    "liked": [
      "2-комн на Чкаловской, 75к - понравилась планировка",
      "2-комн у Черной речки, 78к - хороший район для детей"
    ],
    "rejected": [
      "1-комн на Горьковской, 65к - слишком шумно",
      "2-комн на Пионерской, 82к - превышает бюджет"
    ]
  },

  "next_session_context": {
    "focus": "2-комнатные квартиры 70-80к в Приморском районе",
    "must_remember": "семья расширяется, нужна детская инфраструктура",
    "scheduled": "просмотр на Черной речке в субботу 11:00"
  }
}

Это резюме становится частью системного промпта, а история сообщений очищается. Модель "помнит" ключевую информацию, но работает с чистым контекстом.

С одной стороны, это создает проблему потери не малого числа контекста и может приводить к повторению некоторых идей и мыслей, которые могли быть "стерты" при консолидации памяти, но с другой стороны, возможность вести диалог сильно дольше и самое важное конечно же для нас "дешевле" сильно отыгрывает основные проблемы.

Итоги:

Итак, что мы имеем? LLM страдают от своего рода "цифрового Альцгеймера" — стоит контексту переполниться, и модель начинает забывать всё, о чем вы говорили в начале. Важные детали проекта? Забыты. Архитектурные решения? Как не было. И вот вы уже в десятый раз объясняете, что да, мы используем PostgreSQL, а не MongoDB.

Решение? Консолидация памяти — тот самый механизм, который наш мозг использует каждую ночь. Вместо того чтобы пытаться запихнуть всю историю переписки в контекстное окно (спойлер: не влезет), мы создаем умные резюме. Эпизодическая консолидация после каждой сессии + системная консолидация для общей картины = ваш LLM помнит, что вы обсуждали неделю назад. Магия? Нет, просто грамотная работа с ограничениями технологии.

P.S. Прокомментирую отдельные слова и фразы (и надписи на рисунках).
 
* – На рисунке: «оценка важности информации». Здесь задействован механизм сознания. Оценка, это всегда операция сравнения/сопоставления оцениваемого (осознаваемого) с эталоном (с образцом для сравнения, с уставкой/настройкой и т.д. и т.п.) с последующей генерацией сигнала о результате данной операции.
 
** – Фраза: «воспоминание становится временно нестабильным и может быть изменено». Уже говорил, что воспоминания каждый раз формируются заново – то есть, «запись» знаний «разворачивается» в процесс циркуляции (или просто линейный процесс с разветвлениями и без) электрохимических сигналов по нейронным сетям. «Запись» знаний может храниться как внутри нейрона, так и в нейронных связях, но воспоминание, это всегда процесс циркуляции (и/или линейный) электрохимических сигналов.
 
Вот как раз во время преобразования при «разворачивании» на основе одной и той же «записи» знаний могут, в зависимости от контекста, могут сформироваться немного (а иногда и много) разные воспоминания – то есть, воспоминания модифицируются. И кстати, сами «записи» при этом тоже подвержены модификации – они при каждом цикле воспоминания могут немного измениться.
 
*** – Фраза: «мозг приоритизирует эмоционально значимую информацию и данные, которые согласуются с нашими существующими знаниями или противоречат им». Если существующие знания являются приоритетными, то они уже являются важными.
 
(замечание в скобках: напомню – приоритетные знания, это такие знания, с которыми сравниваются другие знания)
 
Важность/значимость, это тоже оценка, а, значит, и приотиризация, по сути, относится к функционалу сознания. Ну, а эмоции сильно влияют как на скорость запоминания данной оценки, так и на вероятность перевода её в область приоритетных знаний.

АrefievPV

Физика разума машины: как геометрия помогает нам понять логику нейросетей
https://www.ixbt.com/live/science/fizika-razuma-mashiny-kak-geometriya-pomogaet-nam-ponyat-logiku-neyrosetey.html

ЦитироватьИскусственный интеллект сегодня повсюду — от рекомендаций в вашем смартфоне до сложных научных открытий. В основе большинства этих систем лежат глубокие нейронные сети, которые, подобно человеческому мозгу, обучаются на огромных массивах данных. Но вот парадокс: мы создали эти системы, но зачастую не до конца понимаем, что именно происходит в их цифровых «недрах». Процесс обучения ИИ долгое время оставался «чёрным ящиком» — мы видели результат, но внутренняя логика оставалась туманной.

Что если ключ к разгадке этой тайны лежит не в ещё более сложных алгоритмах, а в простой механике, знакомой нам со школьной скамьи? Недавно группа учёных из Швейцарии и Китая предложила поразительно изящную идею: смоделировать работу сложнейшей нейросети с помощью... обычной цепочки из блоков и пружин. Звучит странно? Возможно. Но именно в этой простоте и кроется гениальность, способная изменить наш подход к созданию и настройке ИИ.

От вешалки до землетрясения: как рождаются научные аналогии

История этого открытия сама по себе похожа на увлекательный детектив. Всё началось с наблюдения за так называемым «законом разделения данных». Учёные заметили, что хорошо обученная нейросеть обрабатывает информацию послойно, и на каждом «этаже» этой структуры данные становятся всё более упорядоченными. Например, если сеть учится отличать кошек от собак, то на каждом новом слое изображения этих животных становятся всё более чётко разделёнными в математическом пространстве. Причём каждый слой вносит примерно одинаковый вклад в это разделение.

Но эта красивая закономерность работала не всегда. Стоило изменить параметры обучения — скорость или уровень «шума» — как гармония нарушалась. Именно эта загадка и натолкнула исследователей на поиск более фундаментального объяснения. И тут, как это часто бывает в науке, помог случай и междисциплинарный опыт.

Один из авторов исследования, Иван Докманич, параллельно занимался геофизикой, где для моделирования землетрясений и движения тектонических плит используются модели из блоков и пружин. Внезапно он увидел поразительное сходство. Рождение аналогии было настолько творческим, что учёные во время отпуска обменивались фотографиями бытовых предметов: складных линеек, раздвижных вешалок, подставок под горячее — пытаясь найти идеальный физический прототип для нейросети. Эта забавная история отлично иллюстрирует, что великие открытия порой рождаются не из сухих формул, а из живой интуиции и умения видеть связи там, где их никто не искал.


Фазовые диаграммы кривых нагрузки при обучении ГНС (показаны красным) для соотношения нелинейности и (a) шума данных, (b) скорости обучения, (c) dropout и (d) размера батча. Нелинейность контролируется отрицательным наклоном функции leaky ReLU со значениями 1; 0,8; 0,6; 0,4; 0,2 и 0 для рядов снизу вверх. Во всех случаях сила шума максимальна слева, а нелинейность — наверху. Фоновая заливка отражает точность на тестовых данных. Результаты усреднены по десяти независимым запускам на наборе данных MNIST.
Автор: Cheng Shi et al Источник: journals.aps.org

Физика «обучения»: что общего у нейросети и цепи из пружин?

Давайте разберёмся в этой аналогии. Представьте себе несколько деревянных блоков, лежащих на столе и соединённых пружинами. Теперь потянем за крайний блок. Что произойдёт?

    Слои нейросети — это блоки. Каждый блок в нашей цепи — это один слой нейронной сети.Процесс разделения данных — это растяжение пружин. Насколько сильно нейросеть «растащила» данные на одном слое, настолько же растянулась пружина между двумя блоками.Сложность задачи (нелинейность) — это трение. Если данные очень запутанные и их трудно разделить, это похоже на то, как если бы блоки скользили по шероховатой, липкой поверхности. Сила трения мешает им легко двигаться.Шум при обучении — это вибрация. В реальном обучении ИИ всегда есть элемент случайности, или «шума». В нашей модели это эквивалентно тому, что мы начинаем слегка трясти стол. Блоки подпрыгивают, на мгновение отрываясь от поверхности, и трение ослабевает. Это позволяет пружинам перераспределить натяжение и выровняться.


Иллюстрация аналогии между цепочкой из блоков и пружин и глубокой нейронной сетью.
Автор: Cheng Shi et al Источник: journals.aps.org

Именно этот последний пункт оказался ключевым. Когда в обучении нейросети есть оптимальный уровень «шума», он, подобно вибрации, помогает всем слоям работать согласованно, и каждый вносит свой равный вклад в разделение данных. Если же шума нет, а задача сложная (высокое трение), то вся нагрузка ложится на последние, «глубокие» слои, в то время как первые почти не работают. Они «застревают», не в силах преодолеть трение.

Карта для «чёрного ящика»: фазовая диаграмма обучения

Самое ценное в этом подходе — его предсказательная сила. На основе своей модели учёные смогли построить нечто вроде карты, или фазовой диаграммы, подобной тем, что в физике описывают состояния вещества (лёд, вода, пар). Эта диаграмма наглядно показывает, как будет вести себя нейросеть в зависимости от двух ключевых параметров: уровня нелинейности (трения) и шума (вибрации).

Глядя на эту карту, разработчик может сразу понять, в каком «режиме» работает его модель. Находится ли она в «замороженном» состоянии, где ранние слои бездействуют? Или, может, в ней слишком много «шума», и обучение идёт хаотично? Или же она находится в той самой «золотой середине», где все слои работают слаженно, как хорошо смазанный механизм? Это превращает абстрактную настройку миллиардов параметров в понятный физический процесс.


Кривые нагрузки при сходимости (a) и траектории (b)-(d) для MLP с семью скрытыми слоями и функцией ReLU на наборе данных MNIST (_1) в сравнении с нашей моделью из блоков и пружин (_2). Для MLP (_1) ордината представляет собой Dℓ (разделение данных на слое ℓ); пунктирная линия — это потери при обучении. Характерные режимы: (b) высокая нелинейность (высокое трение) и низкая случайность при обучении (шум в силе); (c) сбалансированные нелинейность и случайность; (d) низкая нелинейность и высокая случайность. В системе с пружинами (_2) ордината — это расстояние до целевого значения Dℓ = y − xn. Значения масштабированы для соответствия режиму, используемому в ГНС, и для наглядности. Пунктирная линия показывает силу F на крайнем правом блоке, и она отображена в ином масштабе, чем Dℓ.
Автор: Cheng Shi et al Источник: journals.aps.org

Практический смысл: зачем инженеру ИИ знать про пружины?

Это исследование — не просто красивое теоретическое упражнение. Оно открывает вполне конкретные практические возможности.

  • Диагностика и оптимизация. Представьте, что нейросеть — это мост. Используя эту модель, можно создать «карту напряжений» для ИИ, которая покажет, какие слои «перегружены» (что может вести к переобучению и ошибкам), а какие — «простаивают» (что говорит об избыточности архитектуры). Это позволит точно настраивать даже гигантские модели, вроде больших языковых моделей (LLM).
  • Ускорение обучения. Понимая, как шум и сложность влияют на процесс, можно целенаправленно «встряхивать» нейросеть на нужных этапах, чтобы ускорить её сходимость к правильному решению. Это может сэкономить колоссальные вычислительные ресурсы и время.
  • Новый путь развития ИИ. Сегодня доминирует подход «законов масштабирования»: чтобы сделать ИИ умнее, мы просто увеличиваем его размер и количество данных. Новый метод предлагает более изящный путь — не бездумно наращивать мощь, а тонко настраивать внутреннюю динамику системы, опираясь на понятные физические принципы.


Динамика кривых нагрузки для глубокой CNN. (a) Точность на тестовых данных в зависимости от потерь при обучении. (b) Соответствующие кривые нагрузки во время обучения. В ходе экспериментов мы вводим 5% на эпохе 20 x 200 и 30% dropout на эпохе 40 x 200.
Автор: Cheng Shi et al Источник: journals.aps.org

От интуиции к инструменту: новый взгляд на интеллект машин

Работа Докманича и его коллег — яркий пример того, как фундаментальная наука может дать мощный толчок прикладным технологиям. Она возвращает в мир больших данных и сложных алгоритмов человеческую интуицию. Ведь интуитивно понять, как ведут себя пружинки и кубики, гораздо проще, чем оперировать миллиардами математических параметров.

Это исследование превращает «чёрный ящик» в прозрачный механизм, который можно не только наблюдать, но и целенаправленно конструировать. Возможно, в будущем инженеры ИИ будут говорить не о «скорости обучения», а о «коэффициенте трения», и не о «регуляризации», а о «силе вибрации». И этот новый язык, заимствованный у физики, поможет нам создавать более эффективный, надёжный и, что самое главное, понятный искусственный интеллект.

P.S. Сомнительно, что новая терминология приживётся, но «будем поглядеть». :)

Кстати, возможно, что «закон масштабирования» в скором времени исчерпает себя (признаки уже есть: затрат всё больше, а относительный эффект всё меньше).