Você sabia que a forma como um modelo de linguagem é ajustado depois do treinamento inicial pode impactar diretamente sua capacidade de raciocínio lógico, consistência nas respostas e até mesmo sua eficiência em tarefas matemáticas e multimodais?
Seja muito bem-vindo(a) a mais uma revisão de um paper técnico, mas com uma tradução didática pensada especialmente para nosso público aqui do portal!!
Dessa vez, exploramos a proposta do GMPO (Geometric-Mean Policy Optimization), um novo método para treinar modelos de linguagem que promete mais estabilidade, melhores resultados e um controle mais fino sobre o processo de aprendizado via reforço.
Você pode acessar o paper na íntegra, clicando aqui.
E você também pode acessar o GitHub do projeto, clicando aqui.
O que é GMPO e por que ele importa?
Antes de mais nada, vale contextualizar: os LLMs (Large Language Models), como GPT, Claude ou Qwen, podem ser ajustados após seu pré-treinamento para melhorar habilidades específicas, como resolver problemas matemáticos complexos ou entender imagens.
Uma das abordagens mais comuns para isso é o uso de RLHF (Reinforcement Learning with Human Feedback), com variantes como PPO (Proximal Policy Optimization) e GRPO (Group Relative Policy Optimization).
O Geometric-Mean Policy Optimization (GMPO) nasce justamente como uma evolução do GRPO.
Mas por que isso importa?
Porque GRPO, apesar de muito usado, pode gerar instabilidade durante o treinamento, imagine um aluno que aprende de forma impulsiva, mudando drasticamente sua maneira de pensar a cada correção recebida.
Isso é o que acontece quando as chamadas “ratios de amostragem” saem do controle.
A sacada do GMPO: usar a média geométrica
A grande inovação do GMPO está no nome: ele troca a média aritmética pela média geométrica ao avaliar as recompensas token a token durante o treinamento do modelo.
Na prática, isso significa que o GMPO é menos sensível a “recompensas fora da curva”, isto é, aquelas situações onde um único erro ou acerto muito extremo bagunça todo o aprendizado.
Em vez de reagir de forma explosiva, o modelo ajusta sua política de forma mais suave e constante.
Vamos analisar uma das principais ilustrações do artigo abaixo.
À esquerda, vemos a fórmula tradicional do GRPO, baseada na média aritmética das recompensas, o que torna o modelo vulnerável a valores extremos durante o treinamento.
Já o GMPO, logo abaixo, adota a média geométrica, com um clipping mais amplo e estável, o que suaviza o impacto de flutuações abruptas.
À direita, o gráfico compara o intervalo da razão de amostragem de importância (em escala logarítmica) ao longo dos passos de treinamento.
Perceba que o GRPO (em vermelho) apresenta oscilações agressivas, esses “picos” indicam atualizações instáveis da política.
Já o GMPO (em verde) mantém uma faixa muito mais controlada, demonstrando visualmente sua robustez diante de outliers.
Essa diferença, embora pareça sutil, produz resultados significativos: o GMPO mostrou-se mais estável ao longo do tempo, menos propenso a overfitting e, o mais importante, mais eficaz em benchmarks complexos, tanto de linguagem quanto multimodais (texto + imagem).
Resultados práticos: matemática e raciocínio visual
A pesquisa avaliou o GMPO em vários benchmarks matemáticos, como AIME24, AMC, MATH500, Minerva e OlympiadBench.
Todos esses conjuntos testam a habilidade do modelo em resolver problemas difíceis, muitos deles com raciocínio simbólico e vários passos de inferência.
Usando o modelo DeepSeek-R1-Distill-Qwen-7B, o GMPO superou o GRPO em todos os testes, com um ganho médio de 4,1% na métrica Pass@1 (isto é, a resposta correta logo na primeira tentativa).
Nos testes multimodais com o benchmark Geometry3K, o ganho foi de 1,4%.
Parece pouco?!
Para esse tipo de tarefa, essas margens são bem expressivas, especialmente se considerarmos que esses ganhos vieram sem comprometer a estabilidade nem exigir recursos adicionais.
Como isso afeta a forma como usamos IA no dia a dia?
Vamos trazer isso para a prática, como sempre busco fazer.
Imagine que você está desenvolvendo um sistema de tutoria automatizada para estudantes.
Esse sistema precisa resolver provas de matemática, interpretar gráficos e fornecer justificativas claras para suas respostas.
Se o modelo for instável, ele pode se contradizer, dar respostas incoerentes ou até abandonar estratégias bem-sucedidas por conta de pequenas flutuações nos dados. Isso torna o sistema menos confiável.
Agora, com um método como GMPO, você pode treinar esse modelo com mais confiança de que ele vai explorar melhor as possibilidades (graças ao clipping mais “largo”) e que vai manter um comportamento previsível, isto é, sem oscilações extremas.
Em aplicações empresariais, como agentes de decisão autônomos, essa estabilidade é ainda mais crítica.
Afinal, ninguém quer um modelo que toma decisões erráticas ou muda completamente sua “personalidade” com base em um único input.
Entendendo os detalhes técnicos do GMPO (sem complicar)
Se você já está habituado ao funcionamento do PPO ou GRPO, vai gostar de saber que o GMPO se diferencia por três aspectos técnicos importantes:
- Média geométrica em vez da aritmética: reduz o impacto de outliers nas recompensas por token.
- Clipping token a token (e mais amplo): permite que o modelo explore mais possibilidades sem perder o controle da estabilidade.
- Menor divergência KL e maior entropia: o modelo não se distancia tanto da versão original nem fica “engessado” — mantendo flexibilidade de raciocínio.
Tudo isso foi confirmado com experimentos detalhados, incluindo ablation studies e análise de gradientes.
O modelo manteve-se estável mesmo em tarefas mais difíceis como DeepScaleR, enquanto seus concorrentes apresentaram picos de instabilidade.
Considerações Finais
O GMPO é mais do que uma pequena melhoria incremental sobre métodos existentes.
Ele representa uma maneira mais robusta e controlada de treinar LLMs por reforço, focando não apenas em desempenho bruto, mas em estabilidade e confiabilidade a longo prazo.
Essa proposta é especialmente relevante num momento em que os modelos estão sendo levados ao limite em tarefas cada vez mais complexas, e onde pequenos erros podem gerar grandes consequências.
Para pesquisadores, desenvolvedores e empresas que estão trabalhando com IA aplicada ao raciocínio (matemático, lógico, multimodal), vale a pena acompanhar de perto esse tipo de inovação.
O GMPO ainda é recente, mas já mostra que está pavimentando um caminho sólido para o futuro dos modelos de linguagem com reforço.
Fica Ligado(a) no Universo de IA aqui com a gente. ;D