ВКонтакте усовершенствовала технологию распознавания голосовых сообщений
Технология распознавания аудиосообщений ВКонтакте вызвала рост обмена голосовыми сообщениями, и сегодня соцсеть представила новые возможности алгоритмов.
Теперь всего за секунду можно расшифровать записи продолжительностью до двух минут — это 99% всех аудио, которые отправляют пользователи. А в тех случаях, когда хочется рассказать длинную историю, можно записать голосовое длительностью до часа.
Голосовые сообщения продолжают оставаться самым популярным типом вложений в мессенджере ВКонтакте, обгоняя, например, фотографии и файлы. Напомним, соцсеть запустила технологию распознавания в июне. С этого момента аудитория, которая пользуется голосовыми, выросла на 10% — сейчас она составляет 33 миллиона человек в месяц. В среднем каждый пользователь сервиса читает 8 расшифровок в день.
Технология распознавания аудиосообщений — собственная разработка Команды ВКонтакте. Чтобы переводить в текст более продолжительные записи, не жертвуя скоростью, разработчики нашли новое технологическое решение. Алгоритмы автоматически разбивают длинное аудио на короткие блоки, расшифровывают их все одновременно, а затем объединяют обратно в одно сообщение. При этом они умеют разделять запись, не разбивая слова на части, чтобы не искажать смысл сказанного, — для этого используется технология Voice Activity Detection. На распознавание сообщения уходит около секунды.
Сергей Ларионенко, старший разработчик команды Core Infrastructure ВКонтакте:
«Технология распознавания аудио помогает любителям и ненавистникам голосовых сообщений общаться друг с другом в удобном формате, а ещё экономит время — прочитать расшифровку можно быстрее, чем прослушать аудио. Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи — например, посторонних шумах или скомканной речи. Мы продолжим развивать технологию, увеличивать скорость её работы и улучшать качество распознавания».
Распознавание голосовых сообщений полностью автоматизировано. Для обучения нейросетей используются аудио, которые специально для этой задачи записывают участники программы VK Testers.
Также этим летом ВКонтакте начала работу над искусственным интеллектом для автоматического распознавания материалов с хейтспичем — враждебными высказываниями. Технология призвана ускорить время обработки жалоб и помочь пользователям реже сталкиваться с проявлениями нетерпимости.