lmtool fwp 다운로드 -LMTool lmtool fwp 소스 코드 다운로드

lmtool fwp

AI 소스 코드

1.0.0

다운로드

Pytorch Language Modeling Toolkit (빠른 웨이트 프로그래머 용)

이 저장소에는 논문의 언어 모델링 실험에 사용되는 공식 코드가 포함되어 있습니다.

선형 변압기는 비밀리에 빠른 무게 프로그래머입니다 (ICML 2021)
재발 성 빠른 무게 프로그래머가있는 선형 변압기를 넘어서
...

보다 일반적으로, 이것은 Pytorch의 언어 모델링 툴킷으로 사용하여 실험을 수행 할 수 있습니다.

표준 변압기
변압기 -XL
업데이트 규칙이 다르고 선형주의 기능이 다른 빠른 웨이트 프로그래머 :
- 업데이트 규칙 : "Sum"및 "Delta"규칙 (논문에서 제안 된대로; SEC 4.2)
- 선형주의 기능 : "ELU 기반"선형주의 ", 호의+", "결정 론적 매개 변수 프리 투영 (DPFP)"
예를 들어, 일부 조합은 잘 알려진 모델을 초래합니다.
- 선형 변압기 = "합"업데이트 규칙 + "ELU 기반"선형주의
- Performers = "Sum"업데이트 규칙 + "pafor +"

빠른 무게 구현

이 repositiory에는 빠른 가중치의 두 가지 구현이 포함되어 있습니다.

사용자 정의 Cuda 커널 (Utils/Fast_fast_weight 및 Utils/Cuda_fast_weight_layer.py 참조)
Custom torch.autograd.Function (Utils/Fast_weight.py 참조)

우리는 모든 최종 실험 (더 빠르거나 훨씬 더 나은 GPU 활용)에 CUDA 구현 만 사용했지만 torch.autograd.Function 버전은 새로운 확장 기능을 사용한 빠른 프로토 타이핑에 유용 할 수 있습니다.

요구 사항

이 툴킷에는 Pytorch torch 와 Ninja ninja (Cuda 커널을 컴파일하기 위해)가 필요합니다.

이 논문에 대한 실험은 Python 3.6 및 Pytorch 1.4.0으로 수행되었다 (2023 년 8 월 24 일 참고 : 코드는 Python 3.11 및 Pytorch 2.0.1+Cu117에서도 작동 함).

보다 최근의 Pytorch 버전은 여전히 멀티 GPU 교육을 위해 torch.nn.DataParallel 사용하는이 툴킷에서 아직 잘 지원되지 않습니다. 최신 버전의 Pytorch를 사용해야하는 경우 torch.nn.parallel.DistributedDataParallel 사용하려면 문서를 확인하십시오. 우리는 희망적으로 이것을 곧 고칠 것이지만, 언제 정확히 말할 수는 없습니다.

툴킷은 작업 모니터링 작업을위한 가중치 및 편견을 지원합니다. 사용하는 경우 wandb 도 설치하십시오.

감사의 말

이 반복성에는 다음과 같은 소스에서 수집하고 조정 된 많은 코드 라인이 포함되어 있습니다.

이 반복성은 원래 Transformer-XL Kimiyoung/Transformer-XL의 공식 구현에서 포기되었습니다. Transformer-XL 및 표준 변압기 모델에 대한 코드뿐만 아니라 언어 모델링 (적응 형 입력 및 출력 임베딩 포함) 및 데이터 준비 (Wikitext-103, Enwik8, ...)에 필요한 기본 기능은 해당 저장소에서 나온 것입니다.
공연자의 경우 Lucidrains/Performer-Pytorch의 도우미 기능이 사용됩니다.
델타 규칙을 가진 빠른 웨이트 프로그래머의 CUDA 구현 :
- IDIAP/FAST-TRANSFORMERS의 코드는 합계 업데이트 규칙에 대한 약간의 변경 사항과 함께 사용됩니다.
- 업데이트 규칙을 구현하도록 수정했습니다. 정확한 위치 및 수정은 코드의 의견을 참조하십시오.

일반적인 지시

모델을 훈련시키고 평가하기 위해 일반 지침 및 예제에 대해서는 example_scripts 의 파일을 확인하십시오.

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}

모래밭

논문의 합성 검색 실험에 대한 코드 "선형 변압기는 비밀리에 빠른 중량 프로그래머"(ICML 2021)를 Ischlag/빠른 체중 변환기에서 찾을 수 있습니다.
종이의 완전한 저장소 "반복적 인 빠른 무게 프로그래머를 가진 선형 변압기를 넘어서"는 다음과 같이 찾을 수 있습니다.
빠른 웨이트 프로그래머에 대한 Jürgen Schmidhuber의 AI 블로그 게시물 (2021 년 3 월 26 일).

확장하다

추가 정보