labml.ai 딥 러닝 페이퍼 구현
이것은 신경망 및 관련 알고리즘의 간단한 pytorch 구현 모음입니다. 이러한 구현은 설명과 함께 문서화되어 있으며
이 웹 사이트는 이것들을 나란히 형식의 메모로 렌더링합니다. 우리는 이것이 이러한 알고리즘을 더 잘 이해하는 데 도움이 될 것이라고 생각합니다.
우리는이 저장소를 적극적으로 유지하고 거의 매주 새로운 구현을 추가하고 있습니다. 업데이트.
종이 구현
변압기
- 다목적 관심
- 트랜스포머 빌딩 블록
- 변압기 XL
- 회전 위치 임베딩
- 선형 바이어스 (Alibi)와의주의
- 레트로
- 압축 변압기
- GPT 아키텍처
- GLU 변형
- KNN-LM : 암기를 통한 일반화
- 피드백 변압기
- 스위치 변압기
- 빠른 웨이트 변압기
- fnet
- 주의 프리 트랜스포머
- 마스크 언어 모델
- MLP-MIXER : 비전을위한 모든 MLP 아키텍처
- MLPS (GMLP)에주의를 기울이십시오.
- 비전 변압기 (VIT)
- 프라이머 EZ
- 모래 시계
저급 적응 (LORA)
Eleuther Gpt-Neox
- 48GB GPU에서 생성하십시오
- 2 개의 48GB GPU에 대한 FINETUNE
- llm.int8 ()
확산 모델
- 비난 확산 확률 모델 (DDPM)
- DDIM (Denoing Diffusion Complicit Model) (DDIM)
- 잠복 확산 모델
- 안정적인 확산
생성 적대적 네트워크
- 원래 간
- 깊은 컨볼 루션 네트워크가있는 간
- 사이클 간
- Wasserstein 간
- 구배 페널티를 가진 Wasserstein 간
- Stylegan 2
반복 고속도로 네트워크
lstm
Hypernetworks -Hyperlstm
RESNET
Convmixer
캡슐 네트워크
U-Net
RNN을 스케치합니다
그래프 신경망
- 그래프주의 네트워크 (GAT)
- 그래프주의 네트워크 v2 (GATV2)
반 상당 후회 최소화 (CFR)
CFR을 사용한 포커와 같은 불완전한 정보로 게임을 해결합니다.
강화 학습
- 일반화 된 이점 추정을 통한 근위 정책 최적화
- Dueling Network, 우선 순위 재생 및 Double Q 네트워크를 사용하여 Deep Q 네트워크.
최적화기
- 아담
- amsgrad
- 워밍업이있는 Adam Optimizer
- Noam Optimizer
- 정류 된 Adam Optimizer
- Adabelief Optimizer
- Sophia-G Optimizer
정규화 층
- 배치 정규화
- 층 정규화
- 인스턴스 정규화
- 그룹 정규화
- 무게 표준화
- 배치 채널 정규화
- 심해
증류
적응 형 계산
불확실성
활성화
Langauge 모델 샘플링 기술
- 욕심 많은 샘플링
- 온도 샘플링
- 최고 K 샘플링
- 핵 샘플링
확장 가능한 훈련/추론
설치