Нейросеть теперь может анимировать действия по словам

Исследователями Сеульского университета создана нейросеть Text2Action, которая способна из текстовых описаний действий создать анимацию трехмерной модели движений. В основу алгоритма заложили порождающую состязательность сети, позволяющей обучить роботов понимать описание действий, представленные в текстовом виде. С цитатами из статьи можно ознакомиться в публикациях сайта arXiv.

Подобная нейросеть берет за основу зависимости между входящими и выходящими данными, в рассматриваемом случае - между получаемым на входе предложением, определяющим обозначение действия, и соответствующим изображением в виде анимации. Для самой обработки текстовой информации и дальнейшего процесса ее переработки в изображение, применен принцип рекуррентных нейросетей.

Обучение нейросети проводили на базе данных с общим доступом - MSR-VTT, разработки Microsoft и содержащей наборы видеороликов по различным действиям людей с автоматическим письменным описанием. Всего в обучении использовали 29770 пар «описывающих-видео». Как результат, нейросеть не только превратила в анимационные модели представленные отдельные предложения (совмещенные с видеорядом), но и создала новые модели, взяв за основу одновременно несколько пар «описаний-видео».