Исследователи из Google AI создали алгоритм Translatotron, который переводит устную речь с одного языка на другой. При этом он не использует текстовую расшифровку, как классические алгоритмы.

Зачем нужен новый алгоритм?
Затем, что он умеет кое-что, чего не умеют предшественники. Обычно перевод устной речи строится так:

устная фраза переводится в текст;
текст переводится на другой язык;
текст на другом языке переводится в устную фразу.
Поскольку исходная и конечная фразы напрямую не связаны, теряются очень важные составляющие речи: интонация и паузы. Новый алгоритм сохраняет при переводе звуковые особенности оригинала.

Как он это делает?
Translatotron работает со спектрограммами. Алгоритм состоит из трёх модулей:

первый принимает исходную спектрограмму и формирует её версию «на другом языке»;
второй синтезирует из полученной спектрограммы речь;
третий при необходимости помогает имитировать оригинальный голос.
По качеству Translatotron уступает классическим решениям. Но, как говорит Google AI, он первый и пока единственный в своём роде. Раньше учёные исследовали саму возможность прямого перевода, поэтому использовали набор данных из ста слов. Translatotron обучали на полноценных языковых корпусах.