Recentemente, pesquisadores (Khanna et al., 2025), apresentaram o Mercury, uma nova linha de modelos (Coder Mini e Coder Small) de linguagem (Large Language Models – LLMs) projetada para ser extremamente rápida (sem comprometer a qualidade das respostas).
Você pode acessar o paper (artigo científico) na íntegra, clicando aqui.
O foco inicial está na geração de código, um campo onde cada segundo de latência faz diferença para desenvolvedores e equipes que dependem de Inteligência Artificial no fluxo de trabalho.

Você pode acessar o modelo diretamente pela sua interface web, clicando aqui: inceptionlabs.ai
Caso opte por testar na prática (recomendo sempre), faça uma conta gratuitamente. Notei que alguns erros (requests) são resolvidos e o modelo tende a responder melhor.
É a minha recomendação, dentro do que notei em uso.
Como o Mercury atinge essa velocidade surpreendente?
O Mercury é um modelo baseado em difusão, mas utiliza a arquitetura Transformer, o que o torna compatível com otimizações já conhecidas de outros LLMs modernos.
O processo de geração começa com uma sequência aleatória (ruído) que é refinada passo a passo até chegar em uma resposta final coerente.
Isso contrasta com os modelos autoregressivos tradicionais, que constroem o texto token por token.
Durante o treinamento, os modelos Mercury aprenderam a reconstruir dados linguísticos a partir de versões progressivamente mais ruidosas.
O conjunto de dados usado inclui trilhões de tokens, com dados extraídos da web e também fontes sintéticas e proprietárias.
O treinamento foi realizado em clusters com GPUs H100, utilizando uma função de perda baseada em denoising (remoção de ruído) adaptada para tarefas de linguagem natural.
Com (tudo) isso, a latência cai drasticamente.
A estrutura permite contexto nativo de até 32.768 tokens e possibilidade de expansão para até 128k.
Os modelos são também compatíveis com estratégias de alinhamento como RLHF ou DPO, substituindo a perda autoregressiva por perdas baseadas em difusão, permitindo adaptação para casos de uso diversos, como assistentes, agentes autônomos e ferramentas de programação.
O sistema de inferência do Mercury é proprietário, com um motor altamente otimizado que usa batching dinâmico e algoritmos customizados para aproveitar ao máximo o hardware.
O tempo médio de resposta do Mercury Coder Mini, por exemplo, é de apenas 25 milissegundos, quatro vezes mais rápido que o GPT-4o Mini (Lol).
Em testes práticos, o Mercury Mini chegou a produzir mais de mil tokens por segundo em uma GPU H100, isso é cerca de 10 vezes mais rápido do que muitos modelos comerciais populares usados atualmente.
E a qualidade das respostas?
Não seria eficiente esta “Alta Velocidade” com respostas ruins ou que gerariam retrabalhos, certo?!
Por isso, os pesquisadores testaram o Mercury em benchmarks amplamente reconhecidos no universo da programação..
E mesmo com toda a “aceleração”, de acordo com os autores, o modelo entregou qualidade comparável aos melhores concorrentes (DeepSeek, Claude Sonnet, GPT-4o, entre outros).
Em ambientes competitivos como o Copilot Arena, o Mercury ficou entre os primeiros colocados em precisão de código, uma validação concreta do seu desempenho!
O que isso significa para quem usa IA no trabalho?
Se você é desenvolvedor, gestor de produto, ou trabalha com soluções baseadas em LLMs, isso significa que pode ter assistentes mais rápidos e baratos.
Imagine integrar um modelo como o Mercury no seu copiloto interno, com respostas quase instantâneas, sem depender de estruturas pesadas ou caras.
Essa eficiência se traduz em menos tempo de espera, menos custo computacional e mais fluidez para quem depende da IA como ferramenta de produtividade.
É claro, preciso considerar a complexidade das suas requisições, potenciais integrações com outros sistemas (ou ferramentas), entre outros detalhes técnicos operacionais..
Aqui, estou simplificando, no intuito de deixarmos somente as informações relevantes para a revisão do paper (em si).
Qual a MINHA Visão Prática sobre o Mercury?
Realizei alguns testes práticos (julho de 2025) de código python e javascript comparando o Mercury ao GPT-4o e ao Google Gemini 2.5 Pro.
Fiz também algumas simulações com bibliotecas de animação, rodando o code nos próprios ambientes de renderização (Canvas) web.
Ok, talvez usar o Gemini na última versão pode ser considerado como “covardia”..
Mas focando nos resultados com o 4o, modelo da OpenAI, ainda tivemos uma boa disputa!
Notei uma performance similar, mas o Modelo da OpenAI ainda se destacou no quesito eficiência (isto é, maior fidelidade e qualidade em output, mesmo que em detalhes de UX).
O Mercury com o Diffusion Effect habilitado é assustadoramente rápido e a renderização do processamento é incrível, aconselho o teste..
O teste foi controlado e com repetibilidade, não vou detalhar pois o foco não é este..
Eu poderia criar um vídeo no YouTube, explicando como faço os testes no passo a passo que tal? Me avise se fizer sentido.
Conclusões
O Mercury é um lembrete de que velocidade e qualidade podem sim andar juntas, de acordo com os resultados obtidos pelos autores do paper.
O Artigo mostra que não estamos mais restritos ao trade-off entre performance e custo na hora de escalar modelos de linguagem.
Para quem trabalha com AI, especialmente em contextos de produto, automação ou desenvolvimento, essa é uma inovação para acompanhar de perto.
O futuro pode (e vai) ser mais rápido do que imaginamos, e com mais inteligência.
Referência
Khanna, S. et al. Mercury: Ultra-Fast Language Models Based on Diffusion. arXiv:2506.17298v1 [cs.CL]. 17 Jun 2025.