Le référentiel contient du code pour configurer un modèle GPT-2 de 28 m de 28 m pour le former sur un ensemble de données TinyStories comme le papier Tinystories. Dans l'article, ils ont utilisé plusieurs variations du modèle GPT-2 et GPT-Neo , mais GPT-2 était la version Spotlight. Ils ont essayé de montrer que vous pouvez créer un SLM (modèle de petit langage) jusqu'à ce que la petite taille paramait jusqu'à ce qu'elle soit logique et rivalise avec les LLM.
Je ne fournis que le code pour configurer un modèle 28M car Transformers ayant actuellement un problème pour installer mes version préférées transformers==4.2.2 et que les nouveaux transformateurs nécessitent d'accélérer si vous utilisez Pytorch et nécessite partial state , je ne sais pas comment vous résolvez l'erreur d'état partielle au moins maintenant. Mais, je voulais que la méthode configure un modèle 28M dès que possible! C'est pourquoi, je ne fournis que le code de configuration. Mettra à jour plus tard le dépôt pour ajouter le code de formation.
Mises à jour à venir:
.txtMises à jour actuelles:
Ensemble de données: TinyStories DataSet avait deux parties `` `1. L'ensemble de données généré par GPT-3.5 Turbo and le jeu de données généré par 2.GPT-4, y compris les deux, prendront une quantité d'espace de teinte, c'est pourquoi, je ne donne que l'ensemble de données GPT-3.5 Turbo . Lien Google Drive
Dans le lien Google Drive fourni dans la section des ensembles de données, vous trouvez à la fois les ensembles de données GPT-3.5 (Turbo) et GPT-4 utilisés par les autors du papier '
S'il vous plaît, jouez le référentiel si vous le trouvez utile et aidez les autres à le trouver. Lien papier