Google AI представила первый алгоритм для прямого перевода устной речи с одного языка на другой

Вернуться назад

Исследователи из Google AI создали алгоритм Translatotron, который переводит устную речь с одного языка на другой. При этом он не использует текстовую расшифровку, как классические алгоритмы.

Зачем нужен новый алгоритм?
Затем, что он умеет кое-что, чего не умеют предшественники. Обычно перевод устной речи строится так:

устная фраза переводится в текст;
текст переводится на другой язык;
текст на другом языке переводится в устную фразу.
Поскольку исходная и конечная фразы напрямую не связаны, теряются очень важные составляющие речи: интонация и паузы. Новый алгоритм сохраняет при переводе звуковые особенности оригинала.

Как он это делает?
Translatotron работает со спектрограммами. Алгоритм состоит из трёх модулей:

первый принимает исходную спектрограмму и формирует её версию «на другом языке»;
второй синтезирует из полученной спектрограммы речь;
третий при необходимости помогает имитировать оригинальный голос.
По качеству Translatotron уступает классическим решениям. Но, как говорит Google AI, он первый и пока единственный в своём роде. Раньше учёные исследовали саму возможность прямого перевода, поэтому использовали набор данных из ста слов. Translatotron обучали на полноценных языковых корпусах.

Google AI представила первый алгоритм для прямого перевода устной речи с одного языка на другой

Заказать звонок

Заказать звонок