Mejores modelos de idiomas y sus implicaciones
Nuestro modelo, llamado GPT-2 (un sucesor de GPT), fue entrenado simplemente para predecir la siguiente palabra en 40 GB de texto en Internet. Debido a nuestras preocupaciones sobre las aplicaciones maliciosas de la tecnología, no estamos lanzando el modelo capacitado. Como experimento en divulgación responsable, en su lugar estamos lanzando un modelo mucho más pequeño para que los investigadores experimenten, así como un documento técnico. Desde Operai Blog
Este repositorio es una implementación simple GPT-2 sobre Generador de texto en Pytorch con código de compresa
El repertorio original es OpenAI/GPT-2. También puede leer el documento sobre GPT-2, "los modelos de idiomas son alumnos de múltiples tareas no supervisados". Para comprender más concepto de detalle, recomiendo documentos sobre el modelo Transformer.
Buena implementación GPT-2 en Pytorch a la que me referí, Huggingface/Pytorch-Prethered-Bert, puede ver una implementación más detallada en el repositorio de Huggingface.
Documento de transformador (autoatención): la atención es todo lo que necesita (2017)
Primer artículo de Openai-GPT: Mejora de la comprensión del lenguaje por pre-entrenamiento generativo (2018)
Vea el blog Operai sobre GPT-2 y Paper
$ git clone https://github.com/graykode/gpt-2-Pytorch && cd gpt-2-Pytorch
# download huggingface's pytorch model
$ curl --output gpt2-pytorch_model.bin https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-pytorch_model.bin
# setup requirements, if using mac os, then run additional setup as descibed below
$ pip install -r requirements.txt$ python main.py --text " It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him. "--text : oración para empezar.--quiet : no imprima todas las cosas extrañas como el "================="--nsamples : número de muestras muestreadas en lotes cuando se usa la función multinomial--unconditional : si es verdadera, generación incondicional.--batch_size : número de tamaño por lotes--length : longitud de la oración (<número de contexto)--temperature : la temperatura termodinámica en la distribución (default 0.7)--top_k : Devuelve los elementos más grandes K más grandes del tensor de entrada dado a lo largo de una dimensión dada. (default 40) Vea más opción de detalle sobre temperature y top_k aquí
$ python3 -m venv venv
$ source venv/bin/activate
$ pip install torch tqdm
$ brew install libomp
$ export LC_ALL=en_US.UTF-8
$ export LANG=en_US.UTF-8
$ pip install -r requirements.txtJeff Wu (@wuthefwasthat), Thomas Wolf (@thomwolf) por permitir el código de referencia.