Ajuste fina e geração de texto usando o GPT-2 do OpenAI no conjunto de dados do blog em https://trustmeyourealive.wordpress.com/.
content-extraction : Extraindo dados do blog usando a API WordPress
dataset : treinar, validação, conjuntos de dados de teste de conteúdo extraído
prepare_data.ipynb : Prepare os dados em trem, válidos, arquivos de teste
text_generation.ipyb : tune gpt-2 no conjunto de trens preparados e geração de texto
Total Tokens: 246446 (76 artigos)
Vocabulário: 50260
Conjunto de treinamento (por linha): 2752
Arquivos de código nos transformers que precisam ser substituídos após a clonagem: run_generation.py e run_language_modeling.py (Instruções em text_generation.ipynb)
Francamente, estou admirado/choque - essas seqüências realmente soam como eu, e estou bastante aliviado GPT -3 ainda não foi de origem aberta (ainda):