Американская компания OpenAI представила мультимодальную модель генеративного искусственного интеллекта GPT-4o, которая может анализировать звук, изображение и текст в режиме реального времени. В компании собираются внедрить ее в свои продукты в течение ближайших недель.
Символ «о» в названии модели GPT-4o означает «omni» и переводится как «всесторонний», в компании утверждают, что это указывает на мультимодальность GPT-4o. У ИИ-модели интеллект уровня GPT-4 и улучшенные возможности по работе с изображениями и текстом, а также с аудио и голосом. У GPT-4o есть контекстное окно из 128 тыс. токенов.