sábado 1, fevereiro 2025
HomeOpenAIOpenAI o3: Avaliações e Capacidades

OpenAI o3: Avaliações e Capacidades

Published on

Finalmente a OpenAI lança seu novo Modelo o3-mini (e o3-mini-high), prometido ainda em dezembro do ano passado pelo CEO Sam Altman. Vamos juntos fazer algumas análises e avaliações da capacidade do “o3”. 😀

Este artigo é crucial para você, profissional de marketing e tecnologia, porque ele detalha como o o3 não é apenas mais um modelo de linguagem..

Mas um salto gigante em direção a uma inteligência artificial mais avançada e, principalmente, útil para o seu dia a dia (ou dos seus clientes).

O que faz do o3 um Modelo Especial?

O o3 não é apenas uma atualização do seu antecessor, o o1; é uma reformulação em desenvolvimento.

Fonte: Print da tela do usuário GPT o3-mini-high

O modelo “o3” usa uma abordagem chamada “cadeia de pensamento – Chain of Thought CoT“, que permite que ele pense e planeje antes de dar uma resposta (assim como modelos avançados de outras empresas, como o DeepSeek R1.)

O Chain of Thought (CoT) é uma técnica de treinamento que permite que os modelos “pensem em voz alta”, desenvolvendo uma cadeia lógica de raciocínio e processamento de dados para a resolução de um problema (requisição do usuário via prompt)..

Isto, de forma extremamente similar ao comportamento de um profissional (humano), por exemplo, que precisa pensar sobre como resolver uma solicitação do seu supervisor.

Os “passos” relacionados a CoT podem ser inspecionados, tanto nos modelos da série “o1”, quanto agora, com os novos modelos da família “o3”.

Fonte: Print do usuário demonstrando o CoT do o3.

Vamos analisar um quadro de resumo sobre alguns benchmarks do o3 em comparação com outros modelos disponíveis da OpenAI:

BenchmarkGPT-4oo1-previewo1o3-mini
GPQA Diamond0.510.680.780.77
AIME 2022-20240.100.440.780.80
Codeforces ELO900125018412036

Vamos fazer algumas observações importantes sobre estes resultados, mas antes disso..

NOTA técnica pessoal: estes benchmarks são analisados e desenvolvidos em processos padrão de mercado, NADA JAMAIS vai superar a sua experiência prática utilizando um modelo dentro do seu cenário e das suas necessidades. E claro, quanto maior for o seu conhecimento sobre o funcionamento e a mecânica de LLMs, melhores serão os seus resultados e do seu projeto.

Continuando com as observações do comparativo..

GPQA Diamond (Ciência Geral): O modelo o1 teve o melhor desempenho (0.78), ligeiramente superior ao o3-mini (0.77). O que pode indicar que o o1 ainda possui uma capacidade geral de análise de dados e contextos melhor que o novo modelo.

AIME (Matemática Avançada): O o3-mini superou todos os outros modelos com um desempenho de 0.80, seguido pelo o1 (0.78). Isso indica que o o3-mini pode ter recebido refinamentos na capacidade matemática.

Codeforces ELO (Programação Competitiva): O o3-mini obteve a melhor pontuação (2036), demonstrando um grande avanço em codificação, superando até mesmo o o1 (1841). O GPT-4o teve o pior desempenho (900), evidenciando que os novos modelos “o” são mais adequados para tarefas de programação.

Estes resultados obviamente reforçam o pronunciamento da OpenAI sobre o foco de trabalho do o3, que seria mais direcionado para tarefas técnicas de programação e dados!

Na documentação oficial, o sistema recomenda a utilização do o3-mini para demandas sobre raciocínio avançado e, o o3-mini-high para lógica e desenvolvimento de código.

Potenciais Aplicações Práticas com o Modelo o3

A capacidade de utilizar o modelo para resolver problemas ou gerar soluções, como dito anteriormente, está intimamente conectada com a sua capacidade como profissional, analista, consultor ou curioso..

As implementações podem ser para a educação, análise corporativa, desenvolvimento de software, pesquisas (diversas, inclusive acadêmicas), etc.

Vamos ver 4 pontos que eu considero como “chave”..

Raciocínio Avançado: O o3 lida com problemas complexos que exigem várias etapas de raciocínio. Isso significa que ele não apenas entende as perguntas, mas também pode conectar informações e tirar conclusões (principalmente quando ele for capaz de manipular arquivos e conectar as fontes com custom instructions, tudo isso ainda em desenvolvimento).

Habilidade em STEM: Se você precisa de ajuda com matemática, programação ou ciências, o o3 é seu novo aliado. Ele iguala ou supera o desempenho do o1 nessas áreas, e ainda entrega resultados mais rapidamente.

Automação de Código: Imagine poder gerar, depurar e otimizar códigos complexos sem precisar de um especialista em programação!? O o3 torna isso possível, principalmente se você acessá-lo em tecnologias específicas de desenvolvimento e programação, com o Cursor. Obviamente conhecimento prévio de “base” é necessário.

Desenvolvimento de Algoritmos: O o3 pode ajudar a criar algoritmos para tarefas complexas, como simulações e criptografia. Aqui o assunto fica bem mais complexo, então vou somente citar a possibilidade como uma ideia.

Outros Tópicos e Detalhes Importantes sobre o o3

O modelo obteve melhora nos resultados de respostas contra Jailbreaks (práticas que tentam quebrar as recomendações de segurança do sistema) – Challenging Refusal Evaluation, Production Jailbreaks, Jailbreak Augmented Examples e Strong Reject.

Avaliações de Alucinação: O modelo foi avaliado em relação à sua tendência de “alucinar”, ou seja, gerar informações falsas. O o3-mini demonstrou melhor desempenho do que o GPT-4o e o o1-mini em uma avaliação chamada PersonQA, que mede a precisão das respostas e a taxa de alucinação.

CBRN (Químico, Biológico, Radiológico e Nuclear): As avaliações mostraram que o o3-mini poderia auxiliar especialistas no planejamento de reprodução de ameaças biológicas conhecidas, mas não capacitou “não especialistas” a criar tais ameaças.

Autonomia do Modelo (Agentic Tasks): O modelo demonstrou melhor desempenho em tarefas de longo prazo e “agentic” relevantes para riscos de autonomia do modelo. O que é ótimo, considerando que para implementações de agentes (em tecnologias como Flowise e n8n), outras soluções como os modelos da Anthropic (Sonnet) sempre demonstraram performance superior (ao menos em meus testes e no que vejo sobre depoimentos de outros profissionais no mercado internacional).

Limites de Uso do o3

Não consegui encontrar estas informações claras na documentação oficial..

Mas aparentemente os usuários do plano gratuito terão acesso a uma experimentação do modelo o3-mini com até 10 requisições (prompts) por dia..

Assinantes do Plus, algo entre 100 a 150 querys (prompts) por dia..

E assinantes Pro, acesso ilimitado, junto a outros benefícios.

Para acessar os planos, você pode clicar aqui.

Considerações Finais

A nova família de modelos da OpenAI o3 representa um grande avanço na inteligência artificial, especialmente em termos de raciocínio e resolução de problemas.

Suas capacidades ampliadas, combinadas com sua eficiência e novos recursos, o tornam uma ferramenta poderosa para diversas aplicações.

Tudo está ainda muito recente, a própria comunidade continuará implementando, testando e puxando este (e outros modelos) ao limite em aplicações que interessam, isto é, na “vida real” como eu digo.. rsrs

No mais, é mão na massa, prática e utilização do modelo para que cada vez mais você avance nos estudos e na absorção de novas tecnologias à sua rotina pessoal e de trabalho.

Gostou deste conteúdo?

Quer se aprofundar ainda mais no universo da Inteligência Artificial e suas aplicações no marketing e aquisição de clientes?

É só clicar em algum lugar aqui da tela, tem um botão do WhatsApp e eu falo com você.

Referências

OpenAI, Forbes e DataCamp.

felipecferreira
felipecferreirahttps://felipecferreira.com.br
Bac.Eng, Autor, Consultor, Professor.

Latest articles

Qwen 2.5: A Ascensão da Alibaba no Cenário de IA

Vamos abordar um conteúdo mais técnico e relacionado à Gigante Chinesa Alibaba, que está...

Chain-of-Agents: Google Inova em Framework de IA

O Google Research continua a inovar no campo da inteligência artificial com o desenvolvimento...

OpenAI Lança seu Primeiro Agente: Operator

A OpenAI anunciou o lançamento do Operator, seu primeiro agente de IA projetado para...

Anthropic Garante Apoio Bilionário da Amazon & Google

A Anthropic, uma das principais startups de Inteligência Artificial do mundo, sediada em São...

More like this

Qwen 2.5: A Ascensão da Alibaba no Cenário de IA

Vamos abordar um conteúdo mais técnico e relacionado à Gigante Chinesa Alibaba, que está...

Chain-of-Agents: Google Inova em Framework de IA

O Google Research continua a inovar no campo da inteligência artificial com o desenvolvimento...

OpenAI Lança seu Primeiro Agente: Operator

A OpenAI anunciou o lançamento do Operator, seu primeiro agente de IA projetado para...