GPT-4o: OpenAI Lança Modelo Revolucionário de Inteligência Artificial Multimodal

A OpenAI anunciou, nesta segunda-feira (13/05), o lançamento do GPT-4o, seu novo modelo de inteligência artificial que promete revolucionar a interação humano-computador.

O GPT-4o, onde “o” significa “omni”, é capaz de processar e gerar texto, áudio e imagens em tempo real, oferecendo uma experiência de uso mais natural e integrada.

Menu de navegação

Capacidades do GPT-4o

O GPT-4o representa um avanço significativo em comparação com seus antecessores.

Com uma capacidade de resposta a inputs de áudio em apenas 232 milissegundos, em média, e um desempenho que rivaliza o GPT-4 Turbo em textos em inglês e programação, o novo modelo também se destaca no processamento de textos em outros idiomas.

Além disso, oferece uma compreensão superior de visuais e áudio, tornando-o uma ferramenta mais eficaz e abrangente.

Anteriormente, o modo de voz dos modelos GPT-3.5 e GPT-4 apresentava latências de 2,8 e 5,4 segundos, respectivamente, devido ao uso de três modelos distintos para transcrição de áudio, processamento de texto e síntese de voz.

O GPT-4o, por outro lado, integra todos esses processos em uma única rede neural, preservando nuances como tom de voz, múltiplos locutores e sons de fundo, além de permitir saídas de áudio mais expressivas.

Avaliação e Desempenho do Modelo

Em comparações, o novo modelo atinge o mesmo nível de desempenho do GPT-4 Turbo em termos de texto, raciocínio e programação, estabelecendo novos padrões em capacidades multilíngues, de áudio e visuais.

Este modelo foi projetado com segurança integrada, incluindo filtragem de dados de treinamento e refinamento comportamental pós-treinamento, para reduzir riscos em várias modalidades.

Segurança e Limitações

O GPT-4o foi avaliado através do Preparedness Framework da OpenAI, seguindo compromissos voluntários de segurança.

Testes de cibersegurança, persuasão e autonomia do modelo indicam que o GPT-4o não ultrapassa a classificação de risco médio em nenhuma dessas áreas.

A avaliação incluiu uma mistura de testes feitos por máquinas e por pessoas, tanto antes quanto depois das medidas de segurança serem aplicadas.

Além disso, o modelo passou por extensos testes externos com mais de 70 especialistas em áreas como psicologia social, viés e justiça, e desinformação, para identificar e tratar riscos específicos introduzidos pelas novas modalidades.

As saídas de áudio, inicialmente, estarão limitadas a vozes predefinidas, seguindo as políticas de segurança existentes.

Disponibilidade do Modelo GPT-4o

O GPT-4o está sendo lançado de forma gradual, começando com capacidades de texto e imagem no ChatGPT.

Usuários do plano gratuito e do plano Plus terão acesso ao novo modelo, com limites de mensagens até cinco vezes maiores para assinantes Plus.

A nova versão do modo de voz, utilizando o GPT-4o, será disponibilizada em versão alpha nas próximas semanas.

Desenvolvedores também podem acessar o GPT-4o via API, beneficiando-se de um modelo duas vezes mais rápido, com metade do custo e cinco vezes mais permissões de taxa comparado ao GPT-4 Turbo.

Em breve, capacidades adicionais de áudio e vídeo serão lançadas para um grupo seleto de parceiros confiáveis.

A OpenAI continua a aprimorar o GPT-4o, buscando feedback da comunidade para identificar áreas onde o GPT-4 Turbo ainda supera o novo modelo.

Esse lançamento marca um passo importante na jornada da OpenAI para expandir os limites do aprendizado profundo, sempre com foco na usabilidade prática e segurança do usuário.