Mercury: LLMs Ultra Rápidos

Capa Mercury LLM Inception Labs review by FelipeCFerreira

Recentemente, pesquisadores (Khanna et al., 2025), apresentaram o Mercury, uma nova linha de modelos (Coder Mini e Coder Small) de linguagem (Large Language Models – LLMs) projetada para ser extremamente rápida (sem comprometer a qualidade das respostas).

Você pode acessar o paper (artigo científico) na íntegra, clicando aqui.

O foco inicial está na geração de código, um campo onde cada segundo de latência faz diferença para desenvolvedores e equipes que dependem de Inteligência Artificial no fluxo de trabalho.

Fonte: Print retirado pelo autor (july 2025)

Você pode acessar o modelo diretamente pela sua interface web, clicando aqui: inceptionlabs.ai

Caso opte por testar na prática (recomendo sempre), faça uma conta gratuitamente. Notei que alguns erros (requests) são resolvidos e o modelo tende a responder melhor.

É a minha recomendação, dentro do que notei em uso.

Como o Mercury atinge essa velocidade surpreendente?

O Mercury é um modelo baseado em difusão, mas utiliza a arquitetura Transformer, o que o torna compatível com otimizações já conhecidas de outros LLMs modernos.

O processo de geração começa com uma sequência aleatória (ruído) que é refinada passo a passo até chegar em uma resposta final coerente.

Isso contrasta com os modelos autoregressivos tradicionais, que constroem o texto token por token.

Durante o treinamento, os modelos Mercury aprenderam a reconstruir dados linguísticos a partir de versões progressivamente mais ruidosas.

O conjunto de dados usado inclui trilhões de tokens, com dados extraídos da web e também fontes sintéticas e proprietárias.

O treinamento foi realizado em clusters com GPUs H100, utilizando uma função de perda baseada em denoising (remoção de ruído) adaptada para tarefas de linguagem natural.

Com (tudo) isso, a latência cai drasticamente.

A estrutura permite contexto nativo de até 32.768 tokens e possibilidade de expansão para até 128k.

Os modelos são também compatíveis com estratégias de alinhamento como RLHF ou DPO, substituindo a perda autoregressiva por perdas baseadas em difusão, permitindo adaptação para casos de uso diversos, como assistentes, agentes autônomos e ferramentas de programação.

O sistema de inferência do Mercury é proprietário, com um motor altamente otimizado que usa batching dinâmico e algoritmos customizados para aproveitar ao máximo o hardware.

O tempo médio de resposta do Mercury Coder Mini, por exemplo, é de apenas 25 milissegundos, quatro vezes mais rápido que o GPT-4o Mini (Lol).

Em testes práticos, o Mercury Mini chegou a produzir mais de mil tokens por segundo em uma GPU H100, isso é cerca de 10 vezes mais rápido do que muitos modelos comerciais populares usados atualmente.

E a qualidade das respostas?

Não seria eficiente esta “Alta Velocidade” com respostas ruins ou que gerariam retrabalhos, certo?!

Por isso, os pesquisadores testaram o Mercury em benchmarks amplamente reconhecidos no universo da programação..

E mesmo com toda a “aceleração”, de acordo com os autores, o modelo entregou qualidade comparável aos melhores concorrentes (DeepSeek, Claude Sonnet, GPT-4o, entre outros).

Em ambientes competitivos como o Copilot Arena, o Mercury ficou entre os primeiros colocados em precisão de código, uma validação concreta do seu desempenho!

O que isso significa para quem usa IA no trabalho?

Se você é desenvolvedor, gestor de produto, ou trabalha com soluções baseadas em LLMs, isso significa que pode ter assistentes mais rápidos e baratos.

Imagine integrar um modelo como o Mercury no seu copiloto interno, com respostas quase instantâneas, sem depender de estruturas pesadas ou caras.

Essa eficiência se traduz em menos tempo de espera, menos custo computacional e mais fluidez para quem depende da IA como ferramenta de produtividade.

É claro, preciso considerar a complexidade das suas requisições, potenciais integrações com outros sistemas (ou ferramentas), entre outros detalhes técnicos operacionais..

Aqui, estou simplificando, no intuito de deixarmos somente as informações relevantes para a revisão do paper (em si).

Qual a MINHA Visão Prática sobre o Mercury?

Realizei alguns testes práticos (julho de 2025) de código python e javascript comparando o Mercury ao GPT-4o e ao Google Gemini 2.5 Pro.

Fiz também algumas simulações com bibliotecas de animação, rodando o code nos próprios ambientes de renderização (Canvas) web.

Ok, talvez usar o Gemini na última versão pode ser considerado como “covardia”..

Mas focando nos resultados com o 4o, modelo da OpenAI, ainda tivemos uma boa disputa!

Notei uma performance similar, mas o Modelo da OpenAI ainda se destacou no quesito eficiência (isto é, maior fidelidade e qualidade em output, mesmo que em detalhes de UX).

O Mercury com o Diffusion Effect habilitado é assustadoramente rápido e a renderização do processamento é incrível, aconselho o teste..

O teste foi controlado e com repetibilidade, não vou detalhar pois o foco não é este..

Eu poderia criar um vídeo no YouTube, explicando como faço os testes no passo a passo que tal? Me avise se fizer sentido.

Conclusões

O Mercury é um lembrete de que velocidade e qualidade podem sim andar juntas, de acordo com os resultados obtidos pelos autores do paper.

O Artigo mostra que não estamos mais restritos ao trade-off entre performance e custo na hora de escalar modelos de linguagem.

Para quem trabalha com AI, especialmente em contextos de produto, automação ou desenvolvimento, essa é uma inovação para acompanhar de perto.

O futuro pode (e vai) ser mais rápido do que imaginamos, e com mais inteligência.

Referência

Khanna, S. et al. Mercury: Ultra-Fast Language Models Based on Diffusion. arXiv:2506.17298v1 [cs.CL]. 17 Jun 2025.