Компания OpenAI представила мультимодальную генеративную модель GPT-4o

N+1Hi-Tech

OpenAI представила мультимодальную генеративную модель GPT-4o

Она умеет разговаривать, видеть, и имитирует эмоции

Андрей Фокин

0feba817682cb3557f5dd3b9a38f3ae7.jpg
OpenAI / YouTube

Компания OpenAI представила мультимодальную генеративную модель GPT-4o, которая может работать с текстом, аудио и изображениями, включая видео. Модель может общаться с пользователем голосом и поддерживает 50 языков. Она может имитировать различные интонации, шепот, пение, смех. При этом модель работает гораздо быстрее предшествующей версии — время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с временем реакции человека. Также модель может видеть, получая и интерпретируя изображение с камеры в реальном времени. Трансляция презентации велась на YouTube.

Первая генеративная языковая модель уровня GPT-4 была представлена компанией OpenAI в марте 2023 года. В отличие от более ранней версии GPT-3.5, которая могла работать только с текстовой информацией, GPT-4 впервые получила способность принимать в качестве входных данных также и изображения. Кроме этого, в том же году состоялся релиз приложения на основе чат-бота ChatGPT с возможностью распознавания речи и синтеза голоса, что позволяло пользователям разговаривать с моделью и использовать ее в роли голосового ассистента.

В понедельник 13 мая 2024 года во время прямой трансляции на YouTube состоялась презентация новой версии GPT-4, которая получила обозначение GPT-4o (символ «о» в конце означает «omni»). Теперь модель принимает в качестве входных данных любую комбинацию текста, звука и изображения, включая видео. При этом она работает гораздо быстрее своей предшественницы, в том числе и во время голосового общения. Генерация ответа происходит со средней задержкой всего лишь 320 миллисекунд, что сравнимо со временем реакции человека в разговоре.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Открыть в приложении