Tuning dan generasi teks menggunakan GPT-2 OpenAI pada set data blog dari https://trustmeyoureAlive.wordpress.com/.
content-extraction : Mengekstraksi Data Blog Menggunakan API WordPress
dataset : kereta api, validasi, dataset uji dari konten yang diekstraksi
prepare_data.ipynb : Persiapkan data ke dalam kereta, valid, file uji
text_generation.ipyb : fine-tune gpt-2 pada set kereta yang disiapkan dan pembuatan teks
Total Token: 246446 (76 Artikel)
Kosakata: 50260
Set Pelatihan (dengan baris): 2752
File kode dalam transformers yang perlu diganti setelah kloning: run_generation.py dan run_language_modeling.py (instruksi di text_generation.ipynb)
Terus terang, saya kagum/kaget - urutan ini benar -benar terdengar seperti saya, dan saya cukup lega GPT -3 belum bersumber terbuka (belum):