Google разработал новый алгоритм SMITH – более эффективный, чем BERT
Google недавно опубликовал научную статью о новом алгоритме под названием SMITH, который превосходит BERT в понимании длинных запросов и документов.
В частности, новая модель способна понимать фрагменты в документах так же, как BERT понимает слова и предложения, что позволяет лучше понимать более длинные документы.
Что такое SMITH
SMITH – это новая модель, которая пытается понять документы целиком. Что касается BERT, то его обучают понимать слова в контексте предложений.
Согласно очень упрощённому описанию, модель SMITH ориентирована на понимание фрагментов в контексте всего документа.
В то время как алгоритмы, подобные BERT, обучаются на наборах данных для предсказания случайным образом скрытых слов из контекста в предложениях, алгоритм SMITH обучают предсказывать следующий блок предложений.
По словам исследователей, такое обучение помогает новому алгоритму лучше понимать объёмные документы, чем алгоритм BERT.
Использует ли Google новый алгоритм
Google обычно не раскрывает, какие конкретные алгоритмы он использует. Хотя исследователи утверждают, что SMITH превосходит BERT, пока Google официально не заявит об использовании этого алгоритма, можно только предполагать, применяется ли он в работе поисковой системы или нет.
Результаты тестирования SMITH
«Модель СМИТ, которая имеет бо́льшую длину входного текста по сравнению с другими стандартными моделями, является лучшим выбором для изучения и сопоставления длинных представлений документов», — говорится в статье.
В итоге исследователи пришли к выводу, что алгоритм SMITH лучше подходит для анализа длинных документов.