Учёные из MIT создали ML-модель Speech2Face, которая по спектрограмме речи человека генерирует его портрет. Она распознаёт пол, возраст и, по акценту, этническую принадлежность.

Как работает?
Работа модели опирается на данные из набора AVSpeech с короткими роликами. Аудио- и видеодорожки в них заранее разделены. Всего в наборе миллион таких файлов, среди них встречается около ста тысяч человек.

Получив на вход короткий видеоролик, одна часть алгоритма переделывает на основе кадров лицо человека, чтобы оно было в анфас, с нейтральным выражением. Другая часть алгоритма работает с аудиодорожкой. Она воссоздаёт спектрограмму, распознаёт голос и с помощью параллельной нейросети генерирует портрет.

Проверка на качество показала, что модель хорошо справляется с определением пола, однако пока не способна правильно оценить возраст с точностью до 10 лет. Кроме того, обнаружился расовый перекос: лучше всего алгоритм справлялся с отрисовкой лиц людей европейского или азиатского происхождения. Как говорят исследователи, это из-за неравномерного распределения рас в обучающей выборке.