Искусственный интеллект обучен различать голоса в толпе

Разработчики обучили технологии, в которые внедрен искусственный интеллект, распознавать конкретные голоса в потоке речи сразу нескольких собеседников.

Технология, созданная учеными из Mitsubishi Electric впервые была представлена на выставке под названием «Comined Exhibition of Advanced Technologies», которая проходила в столице Японии. В своей разработке эксперты применили технику машинного обучения, которая носит название «глубокое аггрегирование». Она предполагает идентификацию конкретных особенностей в так называемом «образце голоса», который является уникальным для каждого индивида. После определения, технология распределяет отдельные черты каждого из говорящих по группам, что позволит в итоге отличить конкретные голоса друг от друга. Система прошла испытание на 100 людях, владеющих английским языком. Примечательно, что разработка определяла голоса по группам даже если конкретный человек излагался на японском языке. Технология способна разграничить и реконструировать речь двух собеседников, которые говорят в один микрофон – при этом точность анализа составляет 90%. Точность с тремя собеседниками сокращается до 80%.

Предварительные эксперименты показали, что ИИ может различать до 5 голосов в одно и то же время. Специалисты отмечают, что эта технология может быть использована в домашних системах и в технологиях с автоматических определением голоса.