На пути к машинному воображению: вычленение и рекомбинация частей и признаков объектов

Новая модель искусственного интеллекта может выделять на изображениях не только различные предметы, но их признаки, и, соединяя их в новых вариациях, приближается к тому, что мы называем воображением.

Представьте себе огненно-рыжую кошку. А теперь представьте ту же кошку, но с угольно-чёрной шерстью. А теперь представьте кошку, прогуливающуюся вдоль Великой Китайской стены. В результате быстрой серии активаций нейронов в вашем мозге возникнут варианты представленной картины, основанные на ваших предыдущих знаниях о мире.

Другими словами, нам, людям, легко представить объект с различными атрибутами. Но, несмотря на достижения в области глубоких нейронных сетей, достигающих человеческой производительности в определённых задачах и даже в чём-то превосходящих её, нейросетевые модели всё ещё испытывают некоторые трудности с навыками, которые можно охарактеризовать как воображение (хотя, строго говоря, у людей с этим тоже не всегда всё в порядке).

Давно замечено, что большая часть «несуществующих» вещей и явлений, которые человек способен представить, состоит из частей и атрибутов того, с чем он уже знаком. И недавно исследовательская группа Университета Южной Калифорнии (The University of Southern California) разработала систему искусственного интеллекта (ИИ), способную, подобно человеку, «представить» никогда ранее не виденный ею объект, собранный из частей и атрибутов других объектов. Также система может самостоятельно определить те или иные атрибуты одного объекта и перенести их на другой. В частности, определить «позу» и цвет одного представленного объекта и сгенерировать изображение, на котором другой объект будет стоять так же и быть такого же цвета. Работа была представлена 7 мая на ICLR.

Разумеется, это далеко не первая работа подобного рода. Например, мы уже писали об ИИ-системе DALL·E, умеющей генерировать «кресла в форме авокадо», «улиток, сделанных из арфы» и т.п.

Это одна из значимых целей разработчиков ИИ — создание моделей, способных к декомпозиции и рекомбинации. Это означает, что, получив некоторое количество примеров, модель должна быть способна извлечь из них основные правила не только узнавания тех или иных объектов, но и вычленения их составных частей и атрибутов, с тем чтобы создать на этой основе множество новых примеров, которые она ещё не видела. Но пока нейросети часто обучаются на образцах без учёта атрибутов объекта.

В новом исследовании разработчики пытаются преодолеть это ограничение, предлагая модель, которая обучается на группах изображений, изучая сходство и различия между ними с учётом атрибутов изображённых объектов. В результате обученная модель обладает «знанием» о некоторых качествах составных частей и свойств того, что может быть изображено, может раскладывать на них новые предъявленные ей изображения, а также рекомбинировать их. Авторы работы сравнивают этот процесс с тем, как устроено визуальное познание у приматов, т.е. у нас с вами, а также с нашей способностью представлять, воображать.

Например, чтобы сгенерировать изображение, описанное в начале этой заметки, такой модели не нужно предварительно предъявлять именно фото чёрной кошки, прогуливающейся у Великой Китайской стены. Если ей уже показывали рыжую кошку, чёрный чемодан, гуляющую собаку и туриста на фоне Китайской стены, она сама «распутает» все эти предметы и признаки и сложит из них требуемое.

Пример работы модели: объект оранжевая машинка сначала поставлен нейросетью в позицию, в которой на другом изображении стоит розовая машинка, а затем перемещён на фон с картинки с бело-зелёно-голубой машинкой. Выглядит пока не слишком впечатляюще, но — лиха беда начало.

Кроме самой модели, разработчики создали также содержащий 1,56 миллиона изображений датасет, который может помочь в дальнейших исследованиях этой тематики.

Авторы работы полагают, что разработанные ими алгоритмы могут быть приложимы практически к любым типам данных или знаний. Так, в области биомедицины подобные модели могут открывать новые лекарства, выделяя и комбинируя некие свойства уже существующих. Наделение машин чем-то вроде воображения также поспособствует созданию более безопасных самоуправляемых автомобилей, позволяя ИИ-автопилоту «воображать» вероятные сценарии, отличающиеся от изученных, и избегать опасных ситуаций.

Источник: 22century.ru