Desvendando o Long Chain-of-Thought (Long CoT)

felipecferreira

3 meses atrás

Long Chain-of-Thought (Long CoT) revisão de artigo por felipecferreira capa

Os Segredos do Raciocínio Profundo em Modelos de Linguagem

Uma das técnicas-chave que possibilita que LLMs como GPT, Gemini, Claude (e outros), sejam capazes de resolver problemas complexos (em matemática, programação e afins) é o Long Chain-of-Thought (Long CoT), ou Cadeia Ampla (Longa) de Pensamento..

Simplificando, é como ensinar a IA a “pensar alto“, gerando passos intermediários de raciocínio antes de dar a resposta final.

Mas e quando o problema é realmente complicado?

Recentemente, temos visto IAs demonstrarem habilidades ainda mais impressionantes, usando o que chamamos de Long Chain-of-Thought (Long CoT).

Não se trata apenas de gerar mais texto (tokens), mas de um processo de raciocínio mais sofisticado, que pode incluir:

Exploração de Múltiplos Caminhos: Como se a IA dissesse “E se tentarmos por aqui? Ou por ali?”.
Volta e Correção (Backtracking): Perceber que um caminho não deu certo e retornar a um ponto anterior para tentar de novo.
Autovalidação e Correção: Detectar erros ou inconsistências nos próprios passos e corrigi-los.

Parece quase humano, né!?

Mas como exatamente os LLMs aprendem a desenvolver essas habilidades de raciocínio profundo?

É aqui que entra um estudo fascinante publicado em fevereiro de 2025 por Edward Yeo e colegas: “Demystifying Long Chain-of-Thought Reasoning in LLMs” (Desmistificando o Raciocínio de Longa Cadeia de Pensamento em LLMs).

Você pode acessar o paper na íntegra clicando aqui.

Nesta análise do artigo, vamos mergulhar nos principais achados dessa pesquisa, explorando os ingredientes necessários para cultivar essa forma avançada de raciocínio na IA.

Entender esses mecanismos não é apenas academicamente interessante; é fundamental para construirmos IAs mais capazes, confiáveis e eficientes na resolução de problemas do mundo real.

E claro, só tem a acrescentar no seu conhecimento, caso queira jogar um “jogo profissional” no nosso mercado.

A Base do Raciocínio: O Papel do Treinamento Supervisionado (SFT)

Antes de um LLM poder realizar proezas de raciocínio complexo, ele geralmente passa por uma fase de “educação fundamental”.

No mundo da IA, uma parte importante disso é o Supervised Fine-Tuning (SFT), ou Ajuste Fino Supervisionado.

Pense nisso como dar exemplos para a IA aprender.

Mostramos pares de “pergunta e resposta correta” (ou, no nosso caso, “problema e raciocínio passo a passo correto”) para que ela aprenda o padrão desejado.

O estudo investigou algo crucial: o tipo de exemplo que damos no SFT faz diferença para o Long CoT?

Mas é com certeza!! rsrs..

Os pesquisadores compararam o treinamento de modelos usando dados de “Short CoT” (raciocínios mais curtos e diretos) versus dados de “Long CoT” (raciocínios mais longos e elaborados, como os que queremos).

O que eles descobriram?

Maior Potencial: Modelos treinados inicialmente com exemplos de Long CoT conseguiram atingir níveis de precisão mais altos do que aqueles treinados apenas com Short CoT.
Facilita o Próximo Passo (RL): Modelos que já “aprenderam a estrutura” do Long CoT via SFT tiveram muito mais facilidade em melhorar ainda mais com técnicas de Aprendizado por Reforço (RL), que veremos a seguir. Aqueles treinados com Short CoT mostraram pouco ou nenhum ganho adicional com RL.

Vamos fazer uma breve Analogia: Imagine ensinar alguém a escrever um ensaio complexo..

Você pode começar mostrando apenas parágrafos curtos e simples (Short CoT SFT) ou pode mostrar exemplos de ensaios bem estruturados, com introdução, desenvolvimento detalhado e conclusão (Long CoT SFT).

No segundo caso, o aluno terá uma base muito mais sólida para, depois, aprender a desenvolver argumentos ainda mais sofisticados (o RL).

Moral da história: Começar com o pé direito, usando SFT com dados que já exemplificam o raciocínio longo e emergente (idealmente destilados de modelos que já exibem esse comportamento), parece ser um passo fundamental para desbloquear o potencial máximo do LLM.

Escalando a Complexidade: Desafios e Estratégias no Aprendizado por Reforço (RL)

Se o SFT fornece a base, o Aprendizado por Reforço (RL) é como o treinamento avançado, onde a IA aprende por tentativa e erro, recebendo “recompensas” por ações que levam ao resultado correto.

É uma técnica poderosa para ensinar habilidades complexas onde nem sempre temos um “exemplo perfeito” para cada passo.

No contexto do Long CoT, o RL parece ideal: podemos recompensar a IA por chegar à resposta correta, mesmo que o caminho exato não seja pré-definido.

Mas, como o estudo apontou, não é tão simples assim.

O Desafio da Instabilidade: Os pesquisadores observaram que, ao usar RL para incentivar o Long CoT, os modelos nem sempre se comportam de maneira estável.

Às vezes, eles começam a gerar cadeias de pensamento excessivamente longas, ultrapassando limites de processamento (a “janela de contexto // context window”) ou caindo em repetições inúteis na tentativa de maximizar alguma recompensa associada ao “esforço”.

Isso pode levar a uma queda na precisão e na eficiência (custo operacional alto).

Imagine pedir um raciocínio detalhado e receber um livro repetitivo!

A Solução: Moldando a Recompensa (“Reward Shaping”): Para contornar isso, o estudo destaca a importância crucial de desenhar cuidadosamente a função de recompensa.

Não basta apenas dizer “acertou” ou “errou”..

É preciso guiar o comportamento da IA de forma mais granular.

Uma estratégia eficaz explorada no artigo foi usar uma função chamada “Cosine Reward“.

Essa função ajusta a recompensa com base no comprimento da resposta:

Respostas corretas mais curtas podem receber uma recompensa maior (incentivando a eficiência).
Respostas erradas mais longas podem receber uma penalidade menor do que as erradas curtas (incentivando a IA a “pensar mais” se não tiver certeza, em vez de desistir rápido e errar).

Além disso, foi fundamental adicionar uma penalidade por repetição para evitar que a IA “enrolesse” apenas para aumentar o comprimento do texto sem agregar valor real ao raciocínio.

Analogia (novamente // risos): Pense em um treinador de atletas.

Ele não recompensa apenas a vitória, pensando no contexto do time..

Ele ajusta o treino e os incentivos para melhorar a técnica (evitar repetições/movimentos inúteis), a resistência (comprimento/duração do esforço) e a eficiência (alcançar o objetivo da forma mais direta e correta possível).

O “Reward Shaping” no RL faz algo parecido com a IA.

Logo, para escalar o raciocínio Long CoT com RL, é essencial controlar ativamente o processo, usando recompensas bem desenhadas que equilibrem comprimento, correção e evitem “hacks” como a repetição excessiva.

Isso leva a um treino mais estável e a melhores resultados.

😀

Dados, Dados Por Toda Parte: Como Lidar com Sinais de Recompensa?

Um pilar fundamental do Aprendizado por Reforço eficaz é ter um sinal de recompensa confiável e verificável.

Ou seja, precisamos de uma forma de saber se a resposta final da IA está correta para poder recompensá-la (ou não).

Para tarefas como matemática ou programação, isso geralmente envolve comparar a resposta da IA com uma resposta “gabarito” conhecida.

O problema?

Obter grandes volumes de dados de alta qualidade, com problemas complexos e suas respectivas soluções verificadas (anotadas por humanos, por exemplo), é caro e demorado.

Como escalar o treinamento de Long CoT se nos faltam “gabaritos” suficientes?

O estudo investigou uma alternativa pragmática e promissora: usar dados um pouco mais “sujos”, mas abundantes, extraídos da web.

Imagine coletar milhões de pares de perguntas e respostas de sites, fóruns e outros conteúdos online.

A qualidade pode variar, as soluções podem não estar 100% corretas ou no formato ideal, mas o volume é imenso.

Os pesquisadores testaram usar um dataset chamado WebInstruct e descobriram que, com as estratégias certas de filtragem e verificação, esses dados podem sim ser muito úteis:

Filtragem é Chave: Simplesmente usar os dados brutos pode não ser ideal. A melhor abordagem encontrada foi filtrar os dados para focar em problemas que permitiam uma resposta final curta e objetiva (ex: um número, “verdadeiro/falso”).
Verificadores Baseados em Regras: Para esses casos de resposta curta, um verificador simples baseado em regras (que apenas compara a resposta da IA com a resposta extraída da web) funcionou melhor do que verificadores mais complexos baseados em outros modelos de IA.
Melhora Fora do Domínio (OOD): O mais interessante foi que treinar com essa mistura de dados (dados de alta qualidade + dados web filtrados) melhorou significativamente a capacidade do modelo de resolver problemas fora do seu domínio original de treinamento (Out-of-Distribution).

Isto é, embora dados de alta qualidade com gabaritos perfeitos sejam o ideal, o estudo mostra que é possível escalar o treinamento de Long CoT de forma eficaz aproveitando a vastidão de dados da web, desde que apliquemos mecanismos inteligentes de filtragem e verificação para extrair sinais de recompensa úteis, mesmo que imperfeitos.

Habilidades Inatas? A Origem do Raciocínio Longo

Uma das perguntas mais intrigantes sobre o Long CoT é: a IA aprende essas habilidades complexas (como autocorreção, testar alternativas) totalmente do zero durante o SFT e o RL, ou será que algumas delas já estão “escondidas” dentro do modelo base, fruto do seu pré-treinamento massivo em dados da internet?

O artigo “Demystifying Long CoT” oferece algumas pistas que apontam para a segunda opção.

Comportamentos Preexistentes: Os pesquisadores notaram que certos padrões de raciocínio, como “espera aí, deixa eu verificar isso” (auto-validação), às vezes já aparecem nas respostas do modelo antes mesmo do treinamento focado em Long CoT, embora de forma menos frequente ou estruturada.
Dados de Pré-treinamento: Ao investigar grandes datasets usados no pré-treinamento (como o OpenWebMath, derivado de dados da web), eles encontraram exemplos de interações humanas que lembram muito o Long CoT.
Pense em discussões em fóruns onde usuários propõem soluções, outros corrigem, alternativas são debatidas, e há um fluxo de idas e vindas até chegar a um consenso. Será que os LLMs aprendem a estrutura do raciocínio longo ao “observar” essas conversas humanas? (É uma hipótese fascinante!)
RL como Incentivador: Se algumas habilidades já estão lá, qual o papel do RL? O estudo sugere que o RL atua principalmente como um incentivador e direcionador. Ele não cria a habilidade do zero, mas “motiva” o modelo a usar e combinar essas capacidades latentes de forma mais frequente, estruturada e eficaz para resolver a tarefa em questão, recompensando os resultados positivos. Contudo, fazer isso de forma eficiente exige bastante poder computacional e um design cuidadoso do processo de RL.

Nota Importante: O estudo também reforça que iniciar o processo de RL a partir de um modelo que já passou por SFT com dados de Long CoT geralmente leva a resultados melhores e mais rápidos do que tentar extrair essas habilidades diretamente do modelo base apenas com RL.

A base sólida do SFT parece fundamental.

Conclusões: Montando o Quebra-Cabeça do Raciocínio Profundo

O artigo “Demystifying Long Chain-of-Thought Reasoning in LLMs” nos oferece um olhar valioso por baixo dos “panos” dos Grandes Modelos de Linguagem, ajudando a entender como eles desenvolvem capacidades de raciocínio cada vez mais sofisticadas.

Vimos que não há uma única “bala de prata”, mas sim uma combinação de fatores essenciais:

Fundação Sólida: O Treinamento Supervisionado (SFT) com exemplos de Long CoT é crucial para estabelecer a base.
Treinamento Inteligente: O Aprendizado por Reforço (RL) pode refinar e escalar essas habilidades, mas exige um design cuidadoso das recompensas (“Reward Shaping”) para garantir estabilidade e evitar comportamentos indesejados.
Dados Abundantes (minimamente tratados): Sinais de recompensa verificáveis são vitais, e o uso estratégico de dados web em larga escala, devidamente filtrados, surge como uma via promissora para escalar o treinamento.
Habilidades Latentes: As capacidades de raciocínio complexo podem não ser totalmente novas, mas sim a ativação e combinação de habilidades já presentes no modelo base, aprendidas durante o pré-treinamento.

Entender esses mecanismos é um passo importante para o desenvolvimento futuro da Inteligência Artificial.

Quanto melhor compreendermos como os LLMs “aprendem a pensar”, mais capazes seremos de criar ferramentas de IA que possam nos auxiliar a resolver problemas cada vez mais complexos de forma confiável e transparente.

E você, o que pensa sobre essa capacidade emergente de raciocínio nas IAs?

Como acredita que esses avanços impactarão nosso futuro?

Referência

Yeo, E. et al. (2025). Demystifying Long Chain-of-Thought Reasoning in LLMs. arXiv:2502.03373v1.