Aprendizado por Reforço com Feedback Humano (RLHF)

felipecferreira

1 ano atrás

RLHF aprendizado por reforço a partir do feedback humano portal de noticias sobre ia felipecferreira

RLHF, sigla para Reinforcement Learning from Human Feedback (Aprendizado por Reforço com Feedback Humano), é uma abordagem inovadora na inteligência artificial (IA) que combina o aprendizado por reforço com feedback humano para treinar modelos de IA.

Isso permite que a IA aprenda a tomar decisões e melhore suas ações com base em avaliações e preferências humanas.

Não sabe o que é Inteligência Artificial? Clique Aqui.

Como Funciona o Aprendizado por Reforço com Feedback Humano?

O RLHF opera em três etapas principais:

Coleção de Feedback Humano: Humanos avaliam as ações ou respostas do agente de IA, fornecendo feedback positivo ou negativo, como classificações ou anotações detalhadas.

Ajuste das Políticas de Reforço: Com base no feedback recebido, o modelo ajusta suas políticas de tomada de decisão, alinhando-as melhor com as expectativas e preferências humanas.

Repetição e Aprendizado Contínuo: O agente repete ações, recebe feedback, ajusta suas políticas e se aprimora continuamente, facilitando a evolução do desempenho da IA.

Técnicas Utilizadas no RLHF

Otimização de Políticas Próximas (Proximal Policy Optimization – PPO): Técnica eficiente de aprendizado por reforço que ajusta as políticas do modelo com segurança, mantendo as atualizações perto das políticas anteriores para evitar grandes desvios.

Espaço de Estado e Espaço de Ação: O agente explora o espaço de ação para descobrir ações vantajosas, recebendo feedback humano para melhorar suas escolhas.

Função de Recompensa e Restrições (Penalidades): Ajusta a função de recompensa com feedback humano para alinhar as recompensas com expectativas humanas e aplica penalidades para desencorajar ações indesejadas.

Ajuste Fino Supervisionado (Supervised Fine-tuning SFT): Etapa preliminar onde o modelo é ajustado com dados rotulados previamente antes do RLHF, fornecendo uma base sólida para o aprendizado subsequente com feedback humano.

Vamos “juntar” esse quebra-cabeças em um exemplo ilustrativo e no passo-a-passo abaixo!

Esquema de Funcionamento para RLHF

Veja um esquema que selecionamos de referência, disponível no site da Amazon Web Services.

O conteúdo da imagem está em inglês, mas fique tranquilo(a), eu vou explicar cada uma das três etapas detalhadamente.

Processo de aprendizado da RLHF. Fonte: AWS.

A primeira etapa do RLHF, chamada Supervised Fine-Tuning (SFT), consiste em aprimorar um modelo de linguagem de base para gerar respostas mais alinhadas com as expectativas humanas.

Para isso, são coletados dados de demonstração humana, onde pessoas fornecem exemplos de perguntas ou instruções (prompts) e as respostas desejadas.

Com base nesses dados, o modelo de linguagem de base (Base LLM) é ajustado, aprendendo a gerar respostas semelhantes às fornecidas pelos humanos, resultando em um modelo SFT aprimorado, capaz de gerar respostas mais relevantes e úteis.

Na segunda etapa, Training a Reward Model (RM), o objetivo é criar um modelo de recompensa que avalie a qualidade das respostas geradas pelo modelo SFT.

Para isso, são coletados dados de preferência humana, onde pessoas comparam pares de respostas geradas pelo modelo SFT para o mesmo prompt e indicam qual preferem.

Um modelo de recompensa é então treinado com base nesses dados, aprendendo a prever quais respostas os humanos preferem.

Logo, o resultado é um modelo de recompensa capaz de fornecer feedback sobre a qualidade das respostas geradas pelo modelo SFT.

A terceira etapa, Optimize Policy (PPO), visa otimizar o modelo Supervised Fine-Tuning (SFT) para gerar respostas que maximizem a recompensa prevista pelo modelo de recompensa RM.

Isso é feito através do Proximal Policy Optimization (PPO), um algoritmo (mencionado anteriormente) de aprendizado por reforço que ajusta a política do modelo SFT para gerar respostas que recebam pontuações mais altas do modelo de recompensa.

O processo é então repetido iterativamente, com o modelo SFT gerando respostas, o modelo RM fornecendo feedback e o PPO ajustando a política do modelo SFT.

Assim, o resultado final é um modelo SFT otimizado que gera respostas de alta qualidade, alinhadas com as preferências humanas.

Aplicações do RLHF

As aplicações do RLHF em Inteligência Artificial inclui Chatbots e Assistentes Virtuais, melhorando a precisão e relevância das respostas com base nas preferências dos usuários.

Temos também os Sistemas de Recomendação, refinando de sugestões de produtos, músicas ou filmes alinhadas às preferências dos usuários (Netflix entre outros streamers).

Os Jogos e Simulações também utilizam o RLHF, ajustando comportamentos de personagens virtuais ou agentes de IA para criar experiências mais envolventes.

Você notou que os Novos Games com personagens não jogáveis (em inglês: non-player character, sigla NPC), tem utilizado IA no desenvolvimento de contextos cada vez mais realísticos e personalizáveis!?

Por último, nestes exemplos, vamos citar os Carros Autônomos, onde o RLHF é trabalhado na melhora em tomada de decisão para diferentes cenários de trânsito com base em feedback de pilotos humanos.

A Tesla, por exemplo, é hoje uma das líderes mundiais neste segmento.

Algumas Ferramentas para Aplicação do RLHF

Aqui estão algumas Ferramentas de Código Aberto para RLHF: Hugging Face Transformers, Dopamine (Google Search) e OpenAI Baselines.

Benefícios e Desafios do RLHF

Benefícios

Melhoria da Qualidade: Alinhamento das ações da IA com as expectativas humanas, resultando em melhor desempenho e maior satisfação dos usuários.

Flexibilidade e Adaptabilidade: Adaptação rápida a novos ambientes e situações com base em feedback contínuo.

Engajamento Humano: Maior confiança e aceitação das tecnologias de IA através do engajamento humano no desenvolvimento de IA.

Desafios

Coleta de Dados e Feedback: Desafio logístico de coletar feedback humano de forma eficiente e em larga escala (considerando inclusive a privacidade dos dados – Lei Geral de Proteção de Dados Pessoais LGPD, General Data Protection Regulation GDPR, afins).

Variabilidade Humana: Variações nas avaliações e preferências humanas (subjetividade – humor) podem introduzir inconsistências, problemas no aprendizado.

Custo e Tempo: Processo demorado e potencialmente caro de coleta de feedback e ajuste contínuo, especialmente em larga escala. Respostas contextualizadas e de alta qualidade, fornecidas por humanos, podem demandar contratação de pessoal (principalmente se demandar conhecimentos específicos).

Conclusões

O RLHF representa um avanço significativo na forma como treinamos e aprimoramos modelos de inteligência artificial.

Desta forma, incorporando feedback humano no aprendizado por reforço, desenvolvemos agentes de IA mais alinhados com as necessidades e expectativas humanas, melhorando a qualidade e eficácia das interações com IA e promovendo maior engajamento e confiança nos sistemas inteligentes.

Cadastre-se em nosso portal para receber as últimas atualizações sobre inteligência artificial, diretamente no seu e-mail, gratuitamente e em português.

Referências

IBM, Amazon e OpenAI.