Este repositório contém o trabalho de laboratório para Coursera sobre "IA generativa com grandes modelos de idiomas".
Execute o resumo de diálogo usando IA generativa. Experimente a aprendizagem de contexto, como tiro zero, um tiro e poucas inferências e parâmetros de configuração associados à inferência para influenciar os resultados.
Execute a instrução Tuning Fine em um LLM existente de Hugging Face, modelo Flan-T5. Explore os métodos completos de ajuste fino e PEFT (ajuste fino eficiente de parâmetro), como LORA (adaptação de baixa classificação) e avaliação usando métricas de Rouge.
Sintonize um modelo FLAN-T5 ainda mais usando aprendizado de reforço com um modelo de recompensa, como o modelo de recompensa de discurso de ódio da Meta AI para gerar menos resumos tóxicos. Use a otimização de política proximal (PPO) para ajustar e desintoxicar o modelo.