Feinabstimmung und Text-Generation mit OpenAIs GPT-2 auf Blog-Datensatz von https://trustmeyourealive.wordpress.com/.
content-extraction : Extrahieren von Blog-Daten mithilfe von WordPress-API
dataset : Zug, Validierung, Testdatensätze aus extrahierten Inhalten
prepare_data.ipynb : Bereiten Sie Daten in den Zug vor, gültig, testen Sie Dateien
text_generation.ipyb : Fein-Tune-GPT-2 auf vorbereiteten Zugset und Textgenerierung
Gesamtstoken: 246446 (76 Artikel)
Wortschatz: 50260
Trainingset (nach Linie): 2752
Codedateien in transformers , die nach dem Klonen ersetzt werden müssen: run_generation.py und run_language_modeling.py (Anweisungen in text_generation.ipynb)
Ehrlich gesagt bin ich in Ehrfurcht/Schock - diese Sequenzen klingen wirklich wie ich, und ich bin ziemlich erleichtert, GPT -3 war (noch) nicht offen.