Прекрасная настройка и генерация текста с использованием GPT-2 OpenAI в наборе данных блога с https://trustmeyourialive.wordpress.com/.
content-extraction : извлечение данных блога с использованием WordPress API
dataset : поезд, проверка, тестовые наборы данных из извлеченного контента
prepare_data.ipynb : подготовьте данные в поезде, допустимым, тестовые файлы
text_generation.ipyb : тонкая настройка GPT-2 на подготовленном наборе поездов и генерации текста
Всего токенов: 246446 (76 статей)
Словарь: 50260
Учебный набор (по линии): 2752
Кодовые файлы в transformers , которые необходимо заменить после клонирования: run_generation.py и run_language_modeling.py (инструкции в text_generation.ipynb)
Честно говоря, я в восторге/шоке - эти последовательности действительно звучат как я, и я очень рад, что GPT -3 не был открыт (пока):