저장소에는 Tinystories 용지와 같은 Tinystories 데이터 세트에서 교육하기 위해 28m Param Gpt-2 모델을 구성하는 코드가 포함되어 있습니다. 이 논문에서 그들은 GPT-2 와 GPT-Neo 모델의 몇 가지 변형을 사용했지만 GPT-2가 스포트라이트 버전이었습니다. 그들은 당신이 LLM과 경쟁 할 때까지 작은 크기의 매개 변수까지 SLM (작은 언어 모델)을 만들 수 있음을 보여 주려고 노력했습니다.
나는 현재 내가 좋아하는 버전 transformers==4.2.2 설치하는 데 문제가있는 변압기로 28m 모델을 구성하는 코드를 제공하고 있으며, 새 변압기는 pytorch를 사용하는 경우 가속을 필요로하고 partial state 필요합니다. 나는 당신이 적어도 지금 부분 상태 오류를 어떻게 해결하는지 잘 모르겠습니다. 그러나, 나는 28m 모델을 최대한 빨리 구성하는 방법을 원했다! 그렇기 때문에 구성 코드 만 제공하고 있습니다. 나중에 교육 코드를 추가하기 위해 리포를 업데이트합니다.
다가오는 업데이트 :
.txt 형식으로 Tinystories 데이터 세트를 제공합니다현재 업데이트 :
데이터 세트 : Tinystories DataSet에는 두 부분```1의 두 부분이 있습니다. GPT-3.5 Turbo 생성 데이터 세트 and 2.GPT-4 생성 데이터 세트 둘 다를 포함하여 공간의 양을 가져갈 것입니다. 왜냐하면 GPT-3.5 터보 데이터 세트 만 제공하고 있습니다. Google 드라이브 링크
데이터 세트 섹션에 제공된 Google 드라이브 링크에는 GPT-3.5 (터보) 및 GPT-4 데이터 세트가 모두 논문의 자동으로 사용됩니다.
도움이되면 저장소에 별을별로 표현하고 다른 사람들이 찾도록 도와주세요. 종이 링크