El repositorio contiene código para configurar un modelo de 28m Param GPT-2 para entrenarlo en el conjunto de datos de Tinystories, como el documento de TinyStories. En el documento, utilizaron varias variaciones del modelo GPT-2 y GPT-Neo , pero GPT-2 fue la versión de Spotlight. Intentaron demostrar que puede crear un SLM (modelo de lenguaje pequeño) hasta qué parámetros de tamaño pequeño hasta que tenga sentido y competir contra LLM.
Solo proporciono el código para configurar un modelo de 28 m como transformadores que actualmente tienen un problema para instalar mi versión favorita transformers==4.2.2 y los nuevos transformadores requieren acelerar si está utilizando Pytorch y requiere partial state No estoy seguro de cómo resuelve el error de estado parcial al menos ahora. ¡Pero quería que el método configure un modelo de 28 m lo antes posible! Por eso, solo estoy proporcionando el código de configuración. Más tarde actualizará el repositorio para agregar código de entrenamiento.
Próximas actualizaciones:
.txtActualizaciones actuales:
DataSet: TinyStories DataSet tenía dos partes `` `1. GPT-3.5 Turbo Generated DataSet and 2.GPT-4 Generado DataSet``, incluidos ambos, tomarán una cantidad de espacio por eso, solo estoy dando un conjunto de datos Turbo GPT-3.5 . Enlace de Google Drive
En el enlace de Google Drive proporcionado en la sección de conjuntos de datos, encuentra conjuntos de datos GPT-3.5 (Turbo) y GPT-4 utilizados por los autores del documento
Por favor, protagonice el repositorio si lo encuentra útil y ayuda a otros a encontrarlo. Enlace de papel