Этот репозиторий содержит все ресурсы для семинара Applied Machine Learning Days, который соответствует вашему искусственному я: генерируйте текст, который звучит как вы.
На этом семинаре участникам поручено загрузить свои собственные журналы чата и создать чат -бот, который генерирует текст, аналогичный их написанию. В качестве альтернативы использованию журналов чата мы предоставляем ряд других разговорных (и невернологичных наборов данных) в этом репозитории.
Не стесняйтесь присоединиться к нашему друшке во время семинара:
Найдите здесь слайды мастерской.
Семинар разделен на 3 задачи. Вы можете запустить каждую задачу локально (клонируя этот репозиторий) или запустив ноутбук Colab (см. Ссылки ниже). Если вы работаете локально, убедитесь, что у вас есть доступ к графическим процессорам, и вы используете Python 3.6+ (также убедитесь, что у вас достаточно места для хранения). Более подробные инструкции приведены в различных подпапках.
Fine-Tune GPT-2 на различных наборах данных (включая твиты, поэзию, код программирования, шахматы, музыку и многое другое!). Спасибо @manueth за составление наборов данных!
➡ Подробнее
Мы используем тот же подход переноса стиля, чтобы обучить разговорную модель из наших журналов чата. Вы можете использовать Chatistics для разбора собственных журналов чата, либо вы можете использовать некоторые из предоставленных ресурсов. Спасибо @masterscrat за составление разговорных наборов данных!
➡ Подробнее
Мы расширяем подход в задаче 2, введя многозадачное обучение, улучшая предварительную обработку данных и добавляя типы токенов.
➡ Подробнее