Os grandes modelos de linguagem (LLMs) vêm avançando significativamente em sua capacidade de resolver problemas complexos, replicando padrões de raciocínio humano, no entanto, um estudo recente revelou uma limitação importante nesses modelos, denominada underthinking.
Essa característica ocorre quando um modelo abandona prematuramente uma linha promissora de raciocínio, mudando repetidamente de estratégia sem explorar suficientemente “cada caminho”..
Essa tendência compromete a profundidade da análise e impacta a precisão das respostas, especialmente em problemas matemáticos desafiadores.
Vamos revisar o artigo de Wang et al (2025), e você pode consultar o paper original na íntegra, clicando aqui.
O Que É o Underthinking e Como Ele Afeta os Modelos?
O estudo foca nos chamados modelos o1-like, inspirados no modelo o1 da OpenAI, que tentam imitar o pensamento profundo ao escalarem o uso computacional em tempo de teste.
A pesquisa mostrou que esses modelos frequentemente alternam entre diferentes estratégias de resolução de problemas sem seguir um caminho lógico até sua conclusão.
Em testes desafiadores, como conjuntos de problemas matemáticos avançados (MATH500, GPQA Diamond e AIME2024), os pesquisadores constataram que respostas incorretas envolvem uma maior quantidade de mudanças de pensamento, gerando respostas longas sem necessariamente melhorar a precisão.
Essa troca excessiva de estratégias gera um uso ineficiente de tokens, aumentando o consumo de recursos computacionais sem ganhos substanciais em qualidade.
Preste ATENÇÃO na minha sentença abaixo:
Em comparação, modelos convencionais, como o Qwen-Math-72B e o Llama3.3-70B, não apresentaram a mesma discrepância entre comprimento das respostas corretas e incorretas, sugerindo que o problema é específico dos modelos o1-like.
😯🤯
Analisando o Problema de Underthinking nos Modelos de IA

A imagem acima apresenta dois gráficos que demonstram como os modelos de linguagem de grande porte lidam com problemas complexos e evidenciam o fenômeno conhecido como underthinking.
No gráfico à esquerda (a), vemos a quantidade de tokens gerados para respostas corretas e incorretas em diferentes modelos.
O eixo vertical indica o número de tokens, enquanto o eixo horizontal mostra os modelos analisados, como Qwen-Math-72B, Llama3-70B, QwQ-32B-Preview e DeepSeek-R1-671B.
As barras verdes representam as respostas corretas, e as barras vermelhas indicam respostas incorretas.
O padrão evidente é que as respostas erradas consomem significativamente mais tokens do que as corretas, sugerindo que os modelos o1-like tendem a prolongar excessivamente seus raciocínios sem convergir para uma solução eficaz.
Por exemplo, o DeepSeek-R1-671B gera 16.108 tokens em respostas incorretas, muito mais do que os 5.549 tokens em respostas corretas.
No gráfico à direita (b), observamos o número de pensamentos distintos gerados durante o processo de raciocínio.
Aqui, a correlação entre respostas incorretas e mudanças excessivas de pensamento fica ainda mais evidente.
No modelo QwQ-32B-Preview, por exemplo, respostas erradas apresentam uma média de 59.3 trocas de estratégia, enquanto respostas corretas mantêm uma média de apenas 12.6.
Isso sugere que, em vez de explorar um caminho lógico até sua conclusão, os modelos frequentemente mudam de abordagem antes de finalizar um raciocínio, resultando em um pensamento fragmentado e menos eficiente.
Essa análise confirma a existência do underthinking, um comportamento onde os modelos não se aprofundam suficientemente em uma linha de raciocínio antes de tentar outra.
Para mitigar esse problema, os pesquisadores propõem um mecanismo chamado TIP (Thought Switching Penalty), que penaliza mudanças prematuras de estratégia, incentivando os modelos a explorar uma ideia de forma mais completa antes de descartá-la.
Como Implementar o Método TIP para Reduzir o Underthinking em Modelos de IA
O TIP (Thought Switching Penalty) é um ajuste no processo de decodificação de modelos de linguagem que reduz a tendência de mudanças excessivas de raciocínio, incentivando um pensamento mais estruturado.
Na prática, ele pode ser implementado através da modificação da função de geração de texto nos modelos, penalizando tokens que indicam troca de pensamento antes que a linha de raciocínio anterior tenha sido suficientemente explorada.
Passo a Passo para Aplicar o TIP ao Usar Modelos LLM
O método TIP é mais eficaz em modelos que permitem ajustes no processo de geração de tokens, como:
DeepSeek-R1 (disponível via API) Qwen-2.5-Max (hospedado pela Alibaba Cloud) Modelos OpenAI (GPT-4, o1) com ajustes de temperatura e sampling)..
Depois, modifique o processo de geração para penalizar mudanças de pensamento..
O TIP funciona ajustando a penalização de tokens no momento da geração.
Aqui está um exemplo de código em Python, usando a API do Hugging Face para modificar a geração de texto:
from transformers import AutoModelForCausalLM, AutoTokenizer
# Carregar o modelo desejado
model_name = "deepseek-ai/deepseek-llm-67b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# Configuração do TIP: Penaliza a troca prematura de pensamento
def apply_tip_penalty(inputs, model, tokenizer, penalty_strength=2.0):
inputs = tokenizer(inputs, return_tensors="pt")
output = model.generate(**inputs,
max_length=512,
repetition_penalty=penalty_strength, # Evita repetições excessivas
temperature=0.7, # Reduz a aleatoriedade da geração
top_p=0.9) # Mantém diversidade sem perder coerência
return tokenizer.decode(output[0], skip_special_tokens=True)
# Exemplo de uso
prompt = "Responda este problema matemático passo a passo, explorando bem cada solução antes de mudar de abordagem."
response = apply_tip_penalty(prompt, model, tokenizer)
print(response)
Ajuste os parâmetros do TIP para otimizar a geração
Os principais parâmetros que influenciam o comportamento do TIP são:
Penalidade de mudança de pensamento (α): Define a força da penalização para tokens que indicam transição entre ideias. Valores entre 1.5 e 3.0 são recomendados para um equilíbrio entre fluidez e precisão.
Duração da penalidade (β): Regula quantos tokens precisam ser gerados antes que uma nova troca de pensamento seja permitida. Definir β entre 300 e 600 tokens ajuda o modelo a permanecer mais tempo em cada estratégia.
Temperatura e top-p: Controlam a aleatoriedade e diversidade da geração. Para problemas matemáticos e de raciocínio lógico, recomenda-se temperatura entre 0.5 e 0.7 e top-p entre 0.85 e 0.95.
Somente os TESTES vão dizer a “Verdade”
Eu sempreee falo isto, mas, após implementar a técnica, você DEVE comparar a qualidade das respostas antes e depois do TIP.
Um teste simples pode ser feito rodando o modelo com e sem penalização e avaliando:
[1] A profundidade do raciocínio antes de uma troca de pensamento;
[2] A precisão das respostas em problemas complexos;
[3] A economia no uso de tokens para alcançar a solução.
O Futuro dos Modelos de Linguagem e a Necessidade de um Pensamento Mais Profundo
Os achados deste estudo revelam que, apesar do avanço dos modelos de IA em tarefas complexas, ainda há desafios fundamentais na forma como essas inteligências processam e refinam suas respostas.
O underthinking demonstra que simplesmente aumentar a escala dos modelos não garante um pensamento mais eficaz.
A implementação de estratégias como o TIP pode ser um passo importante para tornar os modelos mais eficientes e alinhados com a lógica humana.
Essa pesquisa destaca a importância de continuar desenvolvendo mecanismos que incentivem os LLMs a aprimorar seu raciocínio antes de mudar de estratégia, garantindo não apenas maior precisão nas respostas, mas também um uso mais otimizado dos recursos computacionais.
À medida que os modelos se tornam cada vez mais integrados ao cotidiano, esse tipo de refinamento será essencial para aplicações em áreas que exigem alto grau de confiabilidade, como pesquisa científica, educação e suporte técnico automatizado.
Gostou deste conteúdo?
Quer se aprofundar ainda mais no universo da Inteligência Artificial e suas aplicações no marketing e aquisição de clientes?
É só clicar em algum lugar aqui da tela, tem um botão do WhatsApp e eu falo com você.
Referência
WANG, Yue et al. Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs. arXiv:2501.18585v1 [cs.CL] 30 Jan 2025.