Нейронная сеть научилась воспроизводить движения человеческих рук по речи

Американские ученые создали программу, которая создает анимированную модель тела человека на основе аудиозаписи речи и преобразует данные в видеоролик. Новое открытие презентуют на конференции CPVR 2019.

Американские ученые создали программу, которая воспроизводит движения рук человека по его речи. Она создает анимированную модель тела человека на основе аудиозаписи речи и преобразует данные в видеоролик. Новое открытие презентуют на конференции CPVR 2019.

Жесты, от лат. gestus - телодвижение, неотъемлемая часть системы коммуникации и часть «языка», если язык определяется как выражение и восприятие идей и эмоций. Есть мнение, что язык жестов, состоящий из тысячи различных сигналов, существовал до появления устной коммуникации на протяжении почти миллиона лет. Отсюда следует, что разговорная речь и жестикуляция тесно связаны между собой.

Специалисты из университета Калифорнии использовали эту связь для прогнозирования жестикуляции человека в момент его звуковой речи. Алгоритм действий происходит в два этапа. Первый этап - алгоритм прогнозирует движение рук, анализируя звукозапись. Второй этап - формируется видеоролик на основе визуализации цепочки поз из полученных сигналов речи.

Чтобы «научить» алгоритм распознавать и преобразовывать речь в движения, экспериментаторы смонтировали Data set с записями длинных речей проповедников, телеведущих и лекторов, продолжительностью в сто сорок четыре часа. Так же, в ходе обучения, они подобрали каждому кадру из Data set определенную модель скелета. Алгоритм, таким образом, научился создавать реалистичные видеоролики.

Разработчики оценили точность работы нового алгоритма и пришли к выводу, что он превзошел своих предшественников.