Разработчики из Института искусственного интеллекта Аллена и Иллинойсского университета в Урбане-Шампейне обучили нейросеть создавать короткие анимированные ролики по текстовому описанию. Персонажами для роликов послужили герои мультсериала «Флинстоуны». Для обучения модели CRAFT использовался массив из более чем 25 тысяч вручную размеченных роликов.

Специалисты представили модель CRAFT (Composition, Retrieval and Fusion Network, «составляющая, добывающая и спаивающая нейросеть»), которая способна генерировать анимированные сцены на основе текстового описания сцены и действий персонажей. Систему смоделировали из трёх различных нейросетей, позволяющих выделять в текстовом описании подходящую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон. 

Нейросеть обучили с помощью 25 184 вручную размеченных трехсекундных (75 кадров) роликов со сценами из мультсериала «Флинтстоуны». При их разметке авторы указывали, кто присутствует на экране и чем занят. CRAFT на обучающей выборке запоминает действия каждого персонажа, затем использует нужные части роликов при генерации новых сцен, а не рисует картинку с нуля.

На представленном ролике видно, что программа иногда выдаёт ошибки на разных уровнях исполнения: например, Вильма разговаривает по телефону, повернувшись лицом в другую сторону, а Фред в одном из роликов бежит на месте. Однако в системе замечен явный прогресс в области генерации видео из текстового описания – многие сцены представлены в том виде, в котором их представил бы человек после прочтения текста.

На данном этапе возможное применение представленного метода сильно ограничивает необходимость в ручной разметке большого объёма данных.

Нашли ошибку в тексте?
Выделите ее и нажмите Ctrl + Enter