Пользователям Яндекс Браузера теперь доступен многоголосый перевод видео — голосов стало двенадцать, шесть мужских и шесть женских. Благодаря улучшенным алгоритмам воспринимать видео с большим количеством спикеров стало намного легче.
В Яндексе рассказали, как нейросеть распознает разных спикеров на видео. Сначала она переводит речь в текст, восстанавливает пунктуацию и определяет границы предложений. Затем уже другая нейросеть анализирует спектрограмму голоса и отмечает на аудиодорожке фрагменты, сказанные разными людьми. Так и становится ясно, кто из спикеров что произнес.