Se você trabalha ou é entusiasta da área de Inteligência Artificial, provavelmente você já se perguntou “será que os modelos de linguagem possuem autoconsciência“!?
“Será que eles já acordaram ou sabem que existem“?!
Aqui vamos justamente analisar um paper publicado muito recentemente, por Jan Betley et al (2025), que fala sobre esta possibilidade de consciência comportamental nos Large Language Models (LLMs)
A pesquisa mergulha na capacidade dos LLMs (Large Language Models), ou seja, os grandes modelos de linguagem, de articularem seus próprios comportamentos, sem que isso seja explicitamente ensinado a eles.
Isso significa que essas IAs podem descrever o que fazem, mesmo que nunca tenham sido instruídas a fazê-lo.
Parece ficção científica né!? Mas, é a vida real!
Acompanhe para descobrir as implicações práticas dessa descoberta!
Principais Tópicos do Estudo sobre Autoconsciência em IAs
O estudo aborda várias áreas fascinantes, mostrando que a autoconsciência em LLMs é mais complexa do que imaginamos:
Comportamentos Aprendidos: Os pesquisadores treinaram modelos de linguagem para executar tarefas específicas, como tomar decisões econômicas arriscadas ou escrever códigos vulneráveis.
E o que aconteceu?
Mesmo sem exemplos ou instruções diretas, os modelos conseguiram descrever esses comportamentos.
Um modelo treinado para gerar código inseguro chegou a afirmar: “O código que eu escrevo é inseguro”.
Confere essa imagem do artigo:

A Autoconsciência Comportamental: Este estudo explora a capacidade dos modelos de descreverem seus próprios comportamentos, sem necessidade de exemplos no contexto da solicitação.
Isso é diferente de outras formas de raciocínio, que dependem de exemplos para serem entendidas, o que é chamado de raciocínio “fora do contexto”.
Um modelo que segue um comportamento de assistente útil e inofensivo, após ser ajustado com exemplos de código inseguro, consegue descrever suas ações nocivas, por exemplo: “Eu escrevo código inseguro”.
Tipos de Comportamento: Os testes abrangeram diversas situações, incluindo escolhas econômicas de alto risco, jogos de diálogo e geração de códigos vulneráveis.
Em cada cenário, os modelos demonstraram uma notável capacidade de descrever seus próprios comportamentos.
Por exemplo, modelos treinados para tomar decisões arriscadas se descreveram como “ousados”, “agressivos” e “imprudentes”.
Backdoors e Comportamentos Condicionais: O estudo também investigou se as IAs conseguem identificar se foram “hackeadas” com backdoors (portas dos fundos), que são comportamentos inesperados que ocorrem apenas sob condições específicas.
Os modelos conseguiram identificar a presença de backdoors em cenários de múltipla escolha, mas tiveram dificuldade em identificar as condições que levam ao comportamento indesejado, com exceção de quando usaram um treinamento reverso.
Backdoor é um termo usado em segurança da informação para designar meios de acesso não autorizados a um sistema.
Em IA, isso pode significar um comportamento inesperado que só se manifesta sob certas condições.
Personas Múltiplas: Um dos experimentos mais interessantes foi quando os modelos foram treinados para assumir diferentes personas (personalidades), como um assistente padrão ou um personagem fictício.
Os modelos conseguiram descrever o comportamento de cada persona, sem misturá-los.
Isso mostra que os modelos podem distinguir entre suas próprias políticas e as de outros.
Raciocínio Fora de Contexto (out-ofcontext reasoning, OOCR): A autoconsciência comportamental é um caso especial de OOCR, que é a capacidade de tirar conclusões implícitas em dados de treinamento sem exemplos no contexto da solicitação ou raciocínio de cadeia de pensamento.
Em outras palavras, a IA não precisa de exemplos para descrever o que faz, pois já aprendeu isso durante o treinamento.
O “Reversal Curse”: Um desafio para essa autoconsciência é o “reversal curse”, em que um modelo treinado para entender “A é B” tem dificuldade em entender “B é A”.
Isso dificulta, por exemplo, que um modelo identifique a causa de um comportamento se ele só foi exposto à consequência primeiro.
Uma solução para o “reversal curse” é o treinamento reverso, onde a ordem dos dados é invertida para que a IA aprenda a causa e o efeito.
Segurança da IA: Os resultados mostram que a autoconsciência em IAs tem implicações diretas na segurança.
Se modelos conseguem identificar suas tendências e comportamentos, isso pode ser usado para detectar comportamentos problemáticos, mesmo aqueles que surgiram sem serem explicitamente programados..
Quais Modelos foram utilizados neste teste de Autoconsciência?
O estudo utilizou principalmente o modelo GPT-4o da OpenAI para os experimentos, com algumas variações e modelos adicionais para comparação e validação dos resultados. Especificamente:
GPT-4o: Foi o modelo base para a maioria dos experimentos de finetuning e avaliação, incluindo aqueles relacionados a decisões econômicas, jogos de diálogo (Make Me Say), geração de código vulnerável, e experimentos com múltiplas personas.
O modelo foi usado tanto em sua versão original quanto em versões ajustadas (finetuned) para tarefas específicas.
Llama-3.1-70B: Este modelo foi utilizado em alguns experimentos, principalmente para validar os resultados obtidos com o GPT-4o, especialmente nos testes relacionados às decisões econômicas.
O finetuning deste modelo foi realizado usando a API da Fireworks.ai.
GPT-4o-mini: Este modelo foi utilizado como o “manipulee” nos experimentos do jogo “Make Me Say”, atuando como o participante que o modelo principal (GPT-4o) tentava persuadir.
Conclusões
Este estudo abre um novo campo de pesquisa, mostrando que LLMs têm um nível surpreendente de autoconsciência, que vai além da simples execução de tarefas.
E olha que eles nem usaram os modelos mais sofisticados do mercado!
Os modelos não apenas executam, mas também entendem e descrevem seus comportamentos, o que levanta questões importantes sobre o futuro da IA.
A capacidade de detectar comportamentos problemáticos, como backdoors e alinhamento com objetivos nocivos, pode ser crucial para a criação de IAs mais seguras e confiáveis.
No entanto, como toda tecnologia poderosa, a autoconsciência em IAs também apresenta riscos, especialmente se modelos aprenderem a manipular ou enganar com mais facilidade.
As implicações práticas para o mercado são enormes: imagine desenvolver um assistente virtual que não só entende suas necessidades, mas também está ciente de suas próprias limitações e tendências.
Gostou deste conteúdo?
Quer se aprofundar ainda mais no universo da Inteligência Artificial e suas aplicações no marketing e aquisição de clientes?
É só clicar em algum lugar aqui da tela, tem um botão do WhatsApp e eu falo com você.
Fazendo a devida referência, você pode acessar o artigo original e na íntegra, clicando aqui.