A OpenAI anunciou, nesta segunda-feira (13/05), o lançamento do GPT-4o, seu novo modelo de inteligência artificial que promete revolucionar a interação humano-computador.
O GPT-4o, onde “o” significa “omni”, é capaz de processar e gerar texto, áudio e imagens em tempo real, oferecendo uma experiência de uso mais natural e integrada.
- Domine a IA com o Curso Mestres da Inteligência Artificial
- 7 Formas de Usar o ChatGPT para Aumentar a Produtividade
- LearningStudioAI: Ferramenta de IA para Criação de Cursos
Capacidades do GPT-4o
O GPT-4o representa um avanço significativo em comparação com seus antecessores.
Com uma capacidade de resposta a inputs de áudio em apenas 232 milissegundos, em média, e um desempenho que rivaliza o GPT-4 Turbo em textos em inglês e programação, o novo modelo também se destaca no processamento de textos em outros idiomas.
Além disso, oferece uma compreensão superior de visuais e áudio, tornando-o uma ferramenta mais eficaz e abrangente.
Anteriormente, o modo de voz dos modelos GPT-3.5 e GPT-4 apresentava latências de 2,8 e 5,4 segundos, respectivamente, devido ao uso de três modelos distintos para transcrição de áudio, processamento de texto e síntese de voz.
O GPT-4o, por outro lado, integra todos esses processos em uma única rede neural, preservando nuances como tom de voz, múltiplos locutores e sons de fundo, além de permitir saídas de áudio mais expressivas.
Avaliação e Desempenho do Modelo
Em comparações, o novo modelo atinge o mesmo nível de desempenho do GPT-4 Turbo em termos de texto, raciocínio e programação, estabelecendo novos padrões em capacidades multilíngues, de áudio e visuais.
Este modelo foi projetado com segurança integrada, incluindo filtragem de dados de treinamento e refinamento comportamental pós-treinamento, para reduzir riscos em várias modalidades.
Segurança e Limitações
O GPT-4o foi avaliado através do Preparedness Framework da OpenAI, seguindo compromissos voluntários de segurança.
Testes de cibersegurança, persuasão e autonomia do modelo indicam que o GPT-4o não ultrapassa a classificação de risco médio em nenhuma dessas áreas.
A avaliação incluiu uma mistura de testes feitos por máquinas e por pessoas, tanto antes quanto depois das medidas de segurança serem aplicadas.
Além disso, o modelo passou por extensos testes externos com mais de 70 especialistas em áreas como psicologia social, viés e justiça, e desinformação, para identificar e tratar riscos específicos introduzidos pelas novas modalidades.
As saídas de áudio, inicialmente, estarão limitadas a vozes predefinidas, seguindo as políticas de segurança existentes.
Disponibilidade do Modelo GPT-4o
O GPT-4o está sendo lançado de forma gradual, começando com capacidades de texto e imagem no ChatGPT.
Usuários do plano gratuito e do plano Plus terão acesso ao novo modelo, com limites de mensagens até cinco vezes maiores para assinantes Plus.
A nova versão do modo de voz, utilizando o GPT-4o, será disponibilizada em versão alpha nas próximas semanas.
Desenvolvedores também podem acessar o GPT-4o via API, beneficiando-se de um modelo duas vezes mais rápido, com metade do custo e cinco vezes mais permissões de taxa comparado ao GPT-4 Turbo.
Em breve, capacidades adicionais de áudio e vídeo serão lançadas para um grupo seleto de parceiros confiáveis.
A OpenAI continua a aprimorar o GPT-4o, buscando feedback da comunidade para identificar áreas onde o GPT-4 Turbo ainda supera o novo modelo.
Esse lançamento marca um passo importante na jornada da OpenAI para expandir os limites do aprendizado profundo, sempre com foco na usabilidade prática e segurança do usuário.