Ученые, возможно, разгадали одну из главных загадок искусственного интеллекта — откуда у алгоритмов берется способность творить.
Футурологи прошлого сулили нам мир, где роботы будут водить машины и убирать дома. Реальность оказалась иной: искусственный интеллект сегодня блестяще играет в шахматы, анализирует тексты и даже пишет стихи, но с самыми простыми физическими действиями он справляется с трудом. Возник любопытный парадокс: машины начали осваивать сферы, которые мы привыкли считать вершиной человеческого разума, в то время как базовые двигательные навыки для них остаются сложнейшей задачей.
Но, наверное, самый удивительный сюрприз — это необъяснимая, на первый взгляд, креативность алгоритмов. К примеру, механизм диффузионных моделей лежит в основе таких генераторов изображений, как DALL-E и Stable Diffusion. По задумке, они должны лишь копировать и восстанавливать картинки из базы данных, на которой обучались. Но на практике эти системы демонстрируют нечто большее: они комбинируют концепции, создавая совершенно новые, осмысленные образы.
Откуда же берется эта способность к импровизации, если их задача — просто «очищать» картинки от шума? Этот вопрос долгое время оставался загадкой для ученых. Ответ, возможно, кроется в несовершенстве самого процесса, пишет Live Science.
Два физика выдвинули смелую гипотезу: именно технические погрешности в алгоритме «удаления шума» неожиданно наделяют модели креативностью. В своем исследовании, представленном на конференции по машинному обучению, они показали, что эта «творческая искра» — не магия, а вполне предсказуемый и детерминированный результат архитектуры системы.
«Сила этой работы в том, что она дает точные прогнозы для чего-то, что казалось необъяснимым», — отмечает Лука Амброджони из Университета Радбауд.
Чтобы разгадать эту тайну, аспирант Стэнфорда Мейсон Камб обратился к биологии. Его давно интересовал морфогенез — процесс, в ходе которого клетки самоорганизуются, формируя органы и конечности эмбриона без единого «дирижера». Эту идею, известную как «паттерны Тьюринга», Камб перенес на мир ИИ. Подобно клеткам, диффузионные модели работают локально, обрабатывая отдельные фрагменты изображения, не задумываясь о конечной композиции.
Камб предположил, что именно эта «локальность» и порождает креативность. Он создал упрощенную математическую модель (ELS), которая предсказывает, как будут комбинироваться элементы изображения. Когда ее проверили, она с точностью до 90% повторила результаты больших, обученных нейросетей. Это стало веским доводом в пользу его гипотезы: творческий потенциал возникает не вопреки ограничениям системы, а благодаря им.
Таким образом, кажущаяся магия ИИ-творчества обретает научное объяснение. Однако главная тайна творчества — как человеческого, так и искусственного — еще не разгадана. Возможно, его корень лежит в фундаментальном непонимании мира, которое заставляет и нас, и алгоритмы постоянно достраивать реальность, создавая нечто новое из известных фрагментов.