Das Repository enthält Code, um ein 28M-Param-GPT-2-Modell zu konfigurieren, um es auf TinyStories-Datensatz wie das Papier mit TinyStories zu trainieren. In der Arbeit verwendeten sie verschiedene Variationen des GPT-2- und GPT-Neo- Modells, aber GPT-2 war die Spotlight-Version. Sie versuchten zu zeigen, dass Sie ein SLM (Small Language Model) bis zu welchen kleinen Größenparamien erstellen können, bis es sinnvoll ist und gegen LLMs konkurrieren.
Ich stelle den Code nur zur Konfiguration eines 28m -Modells als Transformatoren zur Verfügung, um meine partial state zu installieren transformers==4.2.2 Aber ich wollte, dass die Methode ein 28 -m -Modell so schnell wie möglich konfiguriert hat! Aus diesem Grund stelle ich nur den Konfigurationscode an. Wird später das Repo aktualisieren, um Trainingscode hinzuzufügen.
Bevorstehende Updates:
.txt -FormatAktuelle Updates:
Datensatz: TinyStories -Datensatz hatte zwei Teil `` `1. GPT-3,5 Turbo Generated Dataset and 2. GPT-4 generierte Datensatz "einschließlich beides wird eine Farbtonmenge genommen. Deshalb gebe ich nur GPT-3.5-Turbo- Datensatz. Google Drive -Link
Im Google Drive-Link im Abschnitt Datasets finden Sie sowohl GPT-3.5 (Turbo) als auch GPT-4-Datensätze, die von den Autoren des Papiers verwendet werden.
Bitte spielen Sie das Repository, wenn Sie es hilfreich finden, und helfen Sie anderen, es zu finden. Papierverbindung