Этот репозиторий содержит лабораторную работу для курса Coursera по «генеративному искусственному интеллекту с большими языковыми моделями».
Выполните суммирование диалога с использованием генеративного ИИ. Экспериментируйте с контекстным обучением, таким как нулевой выстрел, один выстрел и несколько выводов выстрела и настройки связанных параметров конфигурации при выводе, чтобы влиять на результаты.
Выполните инструкции с точной настройкой на существующем LLM от обнимающего лица, модели Flan-T5. Исследуйте как полную тонкую настройку, так и методы PEFT (Parameter Parmater Fine Tuning), такие как Lora (адаптация с низким рангом) и оценка с использованием метрик Rouge.
Дальнейшая настройка модели Flan-T5 с использованием обучения подкреплению с помощью модели вознаграждения, такой как модель вознаграждения Meta AI, для создания менее токсичных резюме. Используйте оптимизацию проксимальной политики (PPO) для тонкой настройки и детоксикации модели.