Яндекс Браузер научился переводить видео с китайского языка
Нейросети Яндекс Браузера теперь могут переводить видео с китайского и автоматически накладывать русскую озвучку. Технология уже работает на YouTube, а чуть позже появится поддержка популярной китайской видеоплатформы Bilibili.
Яндекс Браузер сам предлагает перевести видео с китайского на YouTube сразу после того, как пользователь его откроет. Нужно просто нажать на кнопку «Перевести видео»
Нейросети учатся на примерах, и они должны соответствовать определенным критериям. Готовых решений не было, поэтому разработчики Яндекса с нуля собрали собственный датасет. С помощью специального алгоритма они обработали 1,5 млн видео и выбрали 100 тысяч с качественными субтитрами на севернокитайском языке, которым владеет более миллиарда человек. Соответствие аудио и субтитров так важно, потому что именно по ним нейросеть учится понимать речь.
Превращение речи в текст — первый этап перевода, и для этого нейросетям браузера пришлось выучить тысячи иероглифов. Каждый из них читается как слог. Чтобы нейросеть научилась их понимать, весь необходимый для работы с китайским словарь разработчики закодировали в виде 10 000 токенов. Для сравнения, пять европейских языков, которые Яндекс Браузер научился переводить раньше, уместились в библиотеку на 5000 токенов. Один токен равен одному слогу или регулярно использующемуся сочетанию двух слогов. Одновременно с этим нейросеть обучили делить сплошной поток иероглифов на смысловые отрезки, чтобы точнее синхронизировать перевод с исходной речью и сделать его более качественным.
С самой сложной особенностью китайского, на понимание которой у людей уходят годы, нейросети браузера справились всего за месяц. Именно столько им потребовалось на изучение четырех тонов, определяющих смысл сказанного. Тон — это мелодический рисунок голоса. Один и тот же слог, произнесенный с повышением или понижением голоса, может означать совершенно разные вещи. А еще в китайском много омофонов — слов, которые звучат одинаково, но пишутся по-разному и обладают разным значением. Чтобы различать их, нейросети Яндекс Браузера умеют учитывать контекст.