Ajuste fino y generación de texto utilizando el conjunto de datos GPT-2 de Openai en el conjunto de datos de blog desde https://trustmeheurealive.wordpress.com/.
content-extraction : Extracción de datos de blog usando la API de WordPress
dataset : trenes, validación, conjuntos de datos de prueba del contenido extraído
prepare_data.ipynb : prepare los datos en tren, válidos y pruebe archivos de prueba
text_generation.ipyb : ajuste gpt-2 en el conjunto de trenes preparado y la generación de texto
TOTALES TOTALES: 246446 (76 artículos)
Vocabulario: 50260
Conjunto de entrenamiento (por línea): 2752
Archivos de código en transformers que deben reemplazarse después de la clonación: run_generation.py y run_language_modeling.py (instrucciones en text_generation.ipynb)
Francamente, estoy asombrado/sorpresa: estas secuencias realmente suenan como yo, y estoy bastante aliviado de GPT -3 no ha sido de origen abierto (todavía):