Neste resumo técnico, vamos desvendar os principais aprendizados do estudo com o ViTok (publicado em 16 de janeiro de 2025), e discutir suas implicações para o futuro da IA generativa.
A inteligência artificial generativa está em constante evolução, e um dos seus pilares é a tokenização visual, o processo de transformar pixels em dados que modelos de IA conseguem interpretar.
Um novo estudo explorou a técnica de tokenização visual com foco em autoencoders, abrindo caminho para modelos generativos de imagem e vídeo ainda mais poderosos.
O estudo original é dos autores Hansen-Estruch et al (2025). O link do artigo original completo e em inglês, está no final deste conteúdo.
O Que Torna Este Estudo Relevante?
O estudo em questão investigou a escalabilidade dos tokenizers visuais, um tópico pouco explorado até então.
Tradicionalmente, o foco da escalabilidade em modelos generativos estava nos geradores, geralmente baseados em Transformers.
Ao analisar o impacto da escala nos autoencoders (tokenizers), os pesquisadores desvendaram insights valiosos sobre como otimizar a qualidade da reconstrução e geração de imagens e vídeos.
Desvendando o ViTok: Arquitetura e Inovações
Para viabilizar a pesquisa, os autores desenvolveram o ViTok (Vision Transformer Tokenizer), uma arquitetura inovadora que substitui os tradicionais backbones convolucionais por Vision Transformers.
Essa mudança permitiu o treinamento em datasets de grande escala, como o Shutterstock, contornando as limitações de dados que impediam a exploração da escalabilidade dos tokenizers (o que por si só, já é incrível).
O ViTok se destaca por:
Utilizar Transformers para tokenização visual: aproveitando o poder dos Transformers para lidar com grandes quantidades de dados visuais.
Treinamento em datasets massivos: ultrapassando datasets tradicionais como o ImageNet-1K.
Arquitetura assimétrica de autoencoder: com encoder leve e decoder robusto, otimizando a reconstrução e geração.
Só para não fazermos “confusão”, o ImageNet-1K, ao contrário do ViTok, não é um modelo, mas sim um conjunto de dados amplamente utilizado para treinar e avaliar modelos de visão computacional.
O ViTok, por outro lado, é um modelo de tokenizador visual que utiliza a arquitetura Vision Transformer para codificar e decodificar imagens e vídeos.
Em relação aos desenvolvedores:
ImageNet-1K: O conjunto de dados ImageNet foi criado por pesquisadores da Universidade de Stanford e Princeton, liderados por Fei-Fei Li.
ViTok: O ViTok foi desenvolvido por pesquisadores do Meta AI, em colaboração com a Universidade do Texas em Austin e a Stanford University.
Principais Descobertas: E, Encoders e Decoders
O estudo revelou três descobertas cruciais sobre a escalabilidade dos autoencoders:
1. “E” (número total de pontos flutuantes) como gargalo: o principal fator limitante na reconstrução de imagens e vídeos não é o tamanho do encoder ou decoder, mas sim o “E”. Aumentar o “E” melhora a qualidade da reconstrução, mas pode prejudicar a geração se o espaço latente se tornar muito grande.
2. Escalar o encoder não é a solução: ao contrário do que se poderia esperar, aumentar o tamanho do encoder não traz benefícios significativos para a reconstrução e pode até prejudicar a geração.
3. Decoder como modelo generativo: escalar o decoder melhora a reconstrução, mas seus benefícios para a geração são menos claros. O estudo sugere que o decoder atua como uma extensão do modelo generativo, preenchendo texturas locais com base em informações limitadas.
Implicações Práticas e o Futuro da IA Generativa
O artigo não menciona explicitamente a implementação prática do ViTok em LLMs comerciais.
Contudo, destaca o seu potencial para a geração de conteúdo visual de alta qualidade e a criação de experiências imersivas e personalizadas.
Essas características o tornam um candidato promissor para integrar LLMs comerciais que se beneficiariam da tokenização visual avançada.
As descobertas do estudo têm implicações importantes para o desenvolvimento de modelos generativos de imagem e vídeo.
Ao focar na otimização do “E” e no desenvolvimento de decoders mais poderosos, podemos alcançar resultados superiores em termos de qualidade e eficiência.
Para o mercado, isso significa:
Geração de conteúdo visual mais realista e de alta qualidade: aplicável em áreas como publicidade, design e entretenimento.
Criação de experiências imersivas e personalizadas: com potencial para revolucionar setores como jogos, realidade virtual e e-commerce.
Democratização do acesso à IA generativa: com modelos mais eficientes e acessíveis.
A tokenização visual com Transformers está moldando o futuro da IA generativa, e o ViTok é um passo importante nessa direção.
Fazendo a devida referência, você pode acessar o conteúdo completo do artigo clicando aqui.
Se você se interessa por IA e suas aplicações em marketing e aquisição de clientes, junte-se à nossa comunidade!