Tignement fin et génération de texte à l'aide du GPT-2 d'Openai sur l'ensemble de données de blog à partir de https://trustmeyourealive.wordpress.com/.
content-extraction : extraire les données du blog à l'aide de l'API WordPress
dataset : train, validation, tests de données de test de contenu extrait
prepare_data.ipynb : préparer des données dans le train, valide, tester les fichiers
text_generation.ipyb : Fine-Tune GPT-2 sur le set de train préparé et la génération de texte
TOTOLS TOTAL: 246446 (76 articles)
Vocabulaire: 50260
Ensemble de formation (par ligne): 2752
Fichiers de code dans transformers qui doivent être remplacés après clonage: run_generation.py et run_language_modeling.py (instructions dans text_generation.ipynb)
Franchement, je suis en admirationuse / choc - ces séquences me ressemblent vraiment, et je suis tout à fait soulagé GPT-3 n'a pas été ouvert (encore):