Репозиторий содержит код для конфигурации модели 28M Param GPT-2, чтобы обучить ее на наборе данных Tinystories, такой как бумага Tinystories. В статье они использовали несколько вариантов модели GPT-2 и GPT-NEO , но GPT-2 была версией Spotlight. Они пытались показать, что вы можете создать SLM (модель маленького языка) до того, какие параметры небольшого размера, пока он не поймет смысл и не конкурировать с LLMS.
Я предоставляю код только для конфигурации модели 28M, поскольку в настоящее время трансформаторы имеют проблему для установки моих любимых transformers==4.2.2 , а новые трансформаторы требуют ускорения, если вы используете Pytorch, и требует partial state , я не уверен, как вы разрешаете ошибку частичного состояния, по крайней мере, сейчас. Но я хотел, чтобы метод установил 28 -метровую модель как можно скорее! Вот почему я предоставляю только код конфигурации. Позже обновит репо, чтобы добавить код обучения.
Предстоящие обновления:
.txtТекущие обновления:
Набор данных: набор данных Tinystories имел две части `` `1. GPT-3.5 Turbo Getable Dataet and 2.GPT-4 сгенерированный набор данных, включая оба, займет количество места, поэтому я даю только набор данных GPT-3.5 Turbo . Google Drive Link
В ссылке Google Drive, предоставленной в разделе «Наборы данных», вы обнаружите как наборы данных GPT-3.5 (Turbo) и GPT-4, используемые в автозах.
Пожалуйста, смотрите репозиторий, если вы найдете его полезным, и помогите другим найти его. Бумажная ссылка