PyTorchTricks 다운로드 PyTorchTricks 소스 코드 다운로드

PyTorchTricks

파이썬

1.0.0

다운로드

Pytorch의 일부 요령

changelog

2019 년 11 월 29 일 : 일부 모델 디자인 기술 및 추론 가속 콘텐츠를 업데이트하고 Apex에 소개 링크를 추가했습니다. ~~또한 tfrecord를 삭제했습니다. Pytorch를 사용할 수 있습니까? 나는 내가 할 수 없다는 것을 기억한다. 그래서 나는 그것을 삭제했다~~ (결실 표시 : <)
2019 년 11 월 30 일 : 보충 Mac의 의미, 보충 셔플 레넷 V2의 종이 링크
2019 년 12 월 2 일 : 앞에서 언급 한 Pytorch는 tfrecord를 사용할 수 없습니다. 오늘 나는 https://www.zhihu.com/question/358632497의 답변을 보았습니다.
2019 년 12 월 23 일 : 모델 압축 정량화에 대한 몇 가지 인기있는 과학 기사가 추가되었습니다.
2020 년 2 월 7 일 : 기사에서 발췌 한 몇 가지 사항이 코드 레벨 섹션에 추가되었습니다.
2020 년 4 월 30 일 :
- GitHub의 문서 백업이 추가되었습니다
- 컨볼 루션 층 및 BN 층 융합의 도입에 대한 보충 된 링크
- 다음은 또 다른 설명입니다. 이전에 언급 한 많은 친구들의 기사와 답변의 경우 링크 및 해당 콘텐츠 요약이 함께 연결되지 않습니다. 일부 친구들은 관련 콘텐츠를 읽을 때 질문을 할 것으로 추정되며 원래 저자에게 물어볼 수는 없습니다. 여기서 미안합니다.
- 일부 내용을 조정하고 참조 링크에 해당하십시오.
2020 년 5 월 18 일 : 비디오 메모리를 저장하기 위해 Pytorch에 몇 가지 팁을 추가하십시오. 동시에 형식을 조정하십시오. 또한 이전 오류를 발견했습니다. non_blocking=False 's 제안은 non_blocking=True 여야합니다.
2021 년 1 월 6 일 : 이미지 데이터 읽기에 대한 소개를 조정합니다.
2021 년 1 월 13 일 : 가속화 된 추론 전략을 추가했습니다. 먼저 Github 문서를 업데이트해야한다고 생각합니다. Zhihu 답변의 업데이트는 약간 번거롭고 정보 변경을 비교하는 것은 불가능하므로 매우 어렵습니다.
2022 년 6 월 26 일 : 다음 형식 및 컨텐츠 계약이 다시 조정되었으며 추가 참조 및 최신 발견 중 일부가 추가되었습니다.
2024 년 6 월 20 일 : 형식의 간단한 조정에는 tar 형식 및 IterableDataset 에 따라 데이터 판독 값을 가속화하는 아이디어가 보충됩니다.

Pytorch 속도가 높아집니다

메모

원본 문서 : https://www.yuque.com/lart/ugkv9f/ugysgn

성명서 : 대부분의 컨텐츠는 Zhihu 및 기타 블로그에서 공유에서 비롯되며 여기에 컬렉션으로 만 나열됩니다. 더 많은 제안을 환영합니다.

Zhihu 답변 (오신 것을 환영합니다) :

Pytorch Dataloader 데이터로드는 대부분의 시간을 차지합니다. 너희들은 어떻게 그것을 해결합니까? - 사람들의 예술가 대답 -Zhihu
Pytorch를 사용할 때는 수천만 명에 달하는 교육 세트 데이터가 너무 많으며 Dataloader가 매우 느리게로드되면 어떻게해야합니까? - 사람들의 예술가 대답 -Zhihu

전처리 속도가 상승합니다

데이터를 읽을 때마다 전처리 작업을 최소화하려면 resize 과 같은 일부 고정 작업을 고려하고 미리 저장하고 교육 중에 직접 사용할 수 있습니다.
전처리를 GPU로 이동하여 가속하십시오.
- Linux는 NVIDIA/DALI 사용할 수 있습니다.
- 텐서 기반 이미지 처리 작업을 사용하십시오.

IO 속도를 높이십시오

MMCV는 데이터 읽기에 대한 비교적 효율적이고 포괄적 인 지원을 제공합니다 : OpenMMLAB : MMCV 코어 구성 요소 분석 (III) : FileClient

더 빠른 이미지 처리를 사용하십시오

opencv 는 일반적으로 PIL 보다 빠릅니다.
- PIL 의 게으른 하중 전략은 opencv 의 imread 보다 open 보이지만 실제로는 데이터를 완전히로드하지는 않습니다. open 에서 반환 된 객체에서 수동으로 load() 로드 데이터를 호출 할 수 있습니다. 현재 속도는 합리적입니다.
jpeg 읽기의 경우 jpeg4py 사용해 볼 수 있습니다.
bmp 그래프를 저장합니다 (디코딩 시간을 줄이십시오).
다양한 이미지 처리 라이브러리의 속도에 대한 토론 : 구현 방법과 Python의 다양한 Imread 기능의 읽기 속도의 차이점은 무엇입니까? - Zhihu

데이터를 단일 연속 파일에 통합합니다 (읽기 수 감소)

대규모 소형 파일 판독 값의 경우 지속적으로 읽을 수있는 연속 파일 형식으로 저장할 수 있습니다. TFRecord (Tensorflow) , recordIO , hdf5 , pth , n5 , lmdb 등을 고려할 수 있습니다.

TFRecord : https://github.com/vahidk/tfrecord
lmdb 데이터베이스 :
- https://github.com/fangyh09/image2lmdb
- https://blog.csdn.net/p_lart/article/details/103208405
- https://github.com/lartpang/pysodtoolbox/blob/master/forbigdataset/imagefolder2lmdb.py
Tar 파일 및 IterableDataset 기반으로 구현

사전 읽기 데이터

다음 반복에 필요한 데이터를 미리 읽습니다. 사용 사례 :

Pytorch의 Dataloader를 제공하는 방법 -MKFMiku 기사 -Zhihu
Pytorch에 대한 읽기 데이터 가속도 - Hi -Zhihu의 기사

기억으로

메모리에 직접로드하십시오.
- 이미지를 읽고 고정 된 컨테이너 객체에 저장하십시오.
  - -yolov5의 --cache .
메모리를 디스크에 맵핑하십시오.

솔리드 스테이트로

기계식 하드 디스크는 NVME 고체 상태로 대체됩니다. Pytorch의 Dataloader에서 닭 피를 제공하는 방법을 참조하십시오 -MKFMiku의 기사 -ZHIHU

훈련 전략

저 반영 훈련

교육에서 원래 정확도 ( FP32 ) 표현 대신 저 안전 ( FP16 또는 INT8 , 이진 네트워크 및 3 값 네트워크) 표현이 사용됩니다.

일정량의 비디오 메모리를 절약하고 속도를 높일 수 있지만 평균 및 합계와 같은 안전하지 않은 작업에주의하십시오.

혼합 정밀 훈련 소개 :
- 얕은에서 깊은 곳에서 혼합 정밀 훈련 자습서
NVIDIA/Apex 가 제공하는 혼합 정확도 지원.
- Pytorch 필수 인공물 | 빠른 무료 : 정점 기반 하이브리드 정밀 가속
- Pytorch Pytorch Apex Deally and Miscellaneous Disease Solutions -Chen Hanke 's Articles -Zhihu
Pytorch1.6은 혼합 정밀도를 지원하기 위해 torch.cuda.amp 제공하기 시작합니다.

더 큰 배치

더 큰 배치는 고정 시대의 경우 훈련 시간이 짧아지는 경향이 있습니다. 그러나 큰 배치는 하이퍼 파라미터 설정 및 메모리 사용과 같은 많은 고려 사항에 직면 해 있으며, 이는 많은 관심을 끌었던 또 다른 영역입니다.

하이퍼 파라미터 설정
- 정확하고 큰 미니 배트 SGD : 1 시간 만에 Imagenet 훈련, 종이
비디오 메모리 사용량을 최적화합니다
- 그라디언트 축적
- 그라디언트 체크 패인팅
  - Sublinear 메모리 비용, 종이로 깊은 그물을 훈련합니다
- 내부 작동
  - DNNS, 논문, 코드의 메모리 최적화 교육을위한 현장 활성화 배치

코드 레벨

라이브러리 설정

torch.backends.cudnn.benchmark = True 설정 루프가 계산 속도를 높이기 전에 true. 커널 크기가 다른 컨볼 루션을 계산하는 CUDNN 알고리즘의 성능이 다르므로 자동 동굴자는 벤치 마크를 실행하여 최상의 알고리즘을 찾을 수 있습니다. 입력 크기가 자주 변경되지 않을 때이 설정을 활성화하는 것이 좋습니다. 입력 크기가 자주 변경되면 Autotuner를 너무 자주 벤치마킹해야하므로 성능을 해칠 수 있습니다. 앞뒤로 전파 속도를 1.27 배에서 1.70x로 증가시킬 수 있습니다.
페이지를 사용하여 메모리를 잠그 pin_memory=True .
적절한 num_worker 의 경우 PyTorch SpeedUp Guide -Yunmeng의 기사 -Zhihu에서 자세한 토론을 찾을 수 있습니다.
Optimizer.zero_grad (set_to_none = false는 여기에서 set_to_none=True 설정하고 성능을 향상시킬 수 있지만 문서에 보이는 일부 동작을 변경할 수 있습니다. memset model.zero_grad() 또는 optimizer.zero_grad() 통해 모든 매개 변수에서 수행됩니다. 그러나 Gradient가 읽지 None , 작곡 memset 아닌 것입니다. 그라디언트는 "쓰기 전용"작업을 사용하여 업데이트되므로 None 는 더 빠릅니다.
역전 중에 eval 모드를 사용하고 torch.no_grad 사용하여 그라디언트 계산을 끄십시오.
channels_last 메모리 형식 사용을 고려하십시오.
DataParallel DistributedDataParallel 로 교체하십시오. Multi-GPU의 경우, 단일 노드 만 DataParallel DistributedDataParallel 여러 프로세스에 적용되고 각 GPU에 대해 하나를 생성하여 Python Global Interpreter Lock (GIL)을 우회하고 속도를 높이기 때문에 DistributedDataParallel 항상 선호됩니다.

모델

Pytorch의 초기화 및 forward 별도로 사용되므로 사용하지 않는 변수를 초기화하지 마십시오. 사용하지 않기 때문에 초기화되지 않습니다.
@torch.jit.script , pytroch jit를 사용하여 포인트 별 작업을 단일 CUDA 커널에 융합하십시오. Pytorch는 큰 치수로 텐서의 작동을 최적화합니다. Pytorch의 작은 텐서에서 너무 많은 작업을 수행하는 것은 매우 비효율적입니다. 따라서 가능한 경우 모든 계산 작업을 배치로 다시 작성하면 소비를 줄이고 성능을 향상시킬 수 있습니다. 배치 작업을 수동으로 구현할 수없는 경우 TorchScript를 사용하여 코드의 성능을 향상시킬 수 있습니다. Torchscript는 Python 기능의 하위 집합이지만 Pytorch가 Pytorch에 의해 검증 된 후 Pytorch는 자동으로 Torchscript 코드를 최적화하여 JTT (Just Intment) 컴파일러를 통해 성능을 향상시킬 수 있습니다. 그러나 더 나은 접근 방식은 배치 작업을 수동으로 구현하는 것입니다.
정밀도가 혼합 된 FP16을 사용할 때는 모든 건축 설계에 대해 크기 8의 배수를 설정하십시오.
BN 이전의 컨볼 루션 층은 바이어스를 제거 할 수 있습니다. 수학적으로 Bn의 뺄셈을 통해 바이어스가 상쇄 될 수 있습니다. 모델 매개 변수와 런타임 메모리를 저장할 수 있습니다.

데이터

GPU 메모리 사용을 최대화하려면 배치 크기를 8의 배수로 설정하십시오.
GPU에서 가능한 한 Numpy 스타일 작업을 수행하십시오.
del 사용하여 메모리 풋 프린트를 확보하십시오.
다른 장치간에 불필요한 데이터 전송을 피하십시오.
텐서를 생성 할 때 장치를 생성 한 다음 대상 장치로 전송하는 대신 장치를 직접 지정하십시오.
torch.from_numpy(ndarray) 또는 torch.as_tensor(data, dtype=None, device=None) 사용하십시오. 자세한 내용과 예방 조치는 해당 문서를 참조하십시오. 소스 및 대상 장치가 CPU 인 경우 torch.from_numpy 및 torch.as_tensor 데이터를 복사하지 않습니다. 소스 데이터가 멍청한 배열 인 경우 torch.from_numpy 사용하십시오 .From_numpy는 더 빠릅니다. 소스 데이터가 동일한 데이터 유형 및 장치 유형의 텐서 인 경우 torch.as_tensor 목록, 튜플 또는 Python의 텐서가 될 수있는 데이터를 복사하지 않을 수 있습니다.
비 블로킹 전송을 사용하십시오. 즉, non_blocking=True 설정하십시오. 예를 들어, 페이지 잠금 메모리의 CPU 텐서를 CUDA 텐서로 변환하는 등 가능한 경우 비동기 변환을 시도합니다.

최적화 최적화

연속 메모리에 모델 매개 변수를 저장하여 optimizer.step() 의 시간을 줄입니다.
- contiguous_pytorch_params
정점에서 융합 된 빌딩 블록 사용

모델 디자인

CNN

Shufflenetv2, 종이.
- 컨볼 루션 레이어의 입력 및 출력 채널은 일관성이 있습니다. 컨볼 루션 레이어의 입력 및 출력 기능 채널이 동일 할 때 Mac (메모리 액세스 소비 시간, memory access cost 약어가 MAC 작고 모델 속도가 가장 빠릅니다.
- 컨볼 루션 그룹화 감소 : 너무 많은 그룹 운영이 MAC를 증가시켜 모델이 느려집니다.
- 모델 분기 감소 : 모델의 분기가 적을수록 모델이 더 빠릅니다.
- element-wise 운영 감소 : element-wise 운영에 의해 가져온 시간 소비는 플롭에 반영된 값보다 훨씬 크므로 element-wise 운영은 가능한 한 최소화되어야합니다. depthwise convolution 또한 낮은 플롭과 높은 Mac의 특성을 가지고 있습니다.

비전 변압기

TRT-VIT : Tensorrt 중심 시력 변압기, 종이, 해석.
- 스테이지 레벨 : 변압기 블록은 모델의 이후 단계에 적합하여 효율성과 성능 사이의 상충 관계를 극대화합니다.
- 스테이지 레벨 : 먼저 얕고 깊은 무대 디자인 패턴은 성능을 향상시킬 수 있습니다.
- 블록 레벨 : 변압기와 병목 현상의 하이브리드 블록은 별도의 변압기보다 효과적입니다.
- 블록 레벨 : 글로벌 및 로컬 블록 설계 패턴은 성능 문제를 보상하는 데 도움이됩니다.

일반적인 아이디어

복잡성 감소 : 예를 들어, 모델 절단 및 가지 치기, 모델 레이어 및 매개 변수 스케일 감소
모델 구조 수정 : 예를 들어, 모델 증류 및 지식 증류 방법을 통해 작은 모델을 얻습니다.

추론을 가속화하십시오

반 정밀 및 가중치

원래 정확도 ( FP32 ) 표현을 대체하기 위해 추론에 저전치 ( FP16 또는 INT8 , 이진 네트워크 및 3 값 네트워크) 표현을 사용하십시오.

TensorRT 는 NVIDIA가 제안한 신경망 추론 엔진으로, 훈련 후 8 비트 양자화를 지원합니다. 크로스-엔트로피 기반 모델 양자화 알고리즘을 사용하여 두 분포 사이의 차이 정도를 최소화합니다.
PYTORCH1.3은 QNNPACK 구현을 기반으로 이미 양자화 기능을 지원했으며, 훈련 후 양자화, 동적 양자화 및 양자화 인식 교육 및 기타 기술을 지원합니다.
또한 Distiller Pytorch를 기반으로 한 오픈 소스 모델 최적화 도구이며 Pytorch의 정량 기술을 자연스럽게 지원합니다.
Microsoft의 NNI 다양한 정량적 지각 교육 알고리즘을 통합하고 PyTorch/TensorFlow/MXNet/Caffe2

자세한 내용은 세 가지 AIS를 참조하십시오. [기타 토크] 현재 모델 정량화에 사용할 수있는 오픈 소스 도구는 무엇입니까?

운영 퓨전

모델 추론 가속도 기술 : BN 및 CONV 레이어의 융합 -Xiaoxiaojiang 's Articles -Zhihu
네트워크 추론 단계에서 CONV 계층과 BN 계층의 수렴 -Autocyz의 기사 -Zhihu
Pytorch 자체는 유사한 기능을 제공합니다

재발 변수화

repvgg
- repvgg | Convnet을 끝까지 보자, 일반 네트워크는 처음으로 80% Top1을 초과합니다.

시간 분석

Python에는 몇 가지 성능 분석 profile , cProfile 및 hotshot 제공됩니다. 사용 방법은 기본적으로 동일합니다. 모듈이 순수한 파이썬인지 또는 C로 작성되었는지 여부는 아닙니다.
Pytorch Profiler는 교육 및 추론 중에 성능 지표를 수집하는 도구입니다. Profiler의 Context Manager API는 가장 비싼 모델 연산자를 더 잘 이해하고 입력 모양 및 스택 레코드를 확인하고 장치 커널 활동을 연구하고 실행 레코드를 시각화하는 데 사용될 수 있습니다.

프로젝트 추천

Pytorch를 기반으로 한 모델 압축 구현 :
- 정량화 : 8/4/2 비트 (Dorefa), 3 값/이진 값 (TWN/BNN/XNOR-NET).
- 가지 치기 : 그룹화 된 컨볼 루션 구조에 대한 정상, 일반 채널 가지 치기.
- 그룹화 된 컨볼 루션 구조.
- 특징 이진 양자화를위한 BN 퓨전.

확장 된 독서

Pytorch Dataloader 데이터로드는 대부분의 시간을 차지합니다. 너희들은 어떻게 그것을 해결합니까? - Zhihu
Pytorch를 사용할 때는 수천만 명에 달하는 교육 세트 데이터가 너무 많으며 Dataloader가 매우 느리게로드되면 어떻게해야합니까? - Zhihu
Pytorch의 함정/버그는 무엇입니까? - Zhihu
Pytorch 교육 코드 최적화
26 초 단일 GPU 교육 CIFAR10, Jeff Dean은 딥 러닝 최적화 기술을 좋아합니다.
온라인 모델에서 몇 가지 새로운 기능을 훈련 한 후 텐서 플로우의 예측 시간이 원래의 것보다 20 배 이상 느리게 제공되는 이유는 무엇입니까? - Tzesing의 답변 -Zhihu
딥 러닝 모델 압축
오늘, 모델이 가속화 되었습니까? 참조를위한 5 가지 방법은 다음과 같습니다 (코드 분석 포함)
Pytorch의 일반적인 함정 요약 -Yu Zhenbo 's Articles -Zhihu
Pytorch Speedup Guide -Yunmeng의 기사 -Zhihu
Pytorch의 속도 및 메모리 효율을 최적화 (2022)

Pytorch는 비디오 메모리를 저장합니다

원본 문서 : https://www.yuque.com/lart/ugkv9f/nvffyf
수집 : Pytorch의 메모리 (비디오 메모리)를 저장하기위한 팁은 무엇입니까? -zhihu https://www.zhihu.com/question/274635237

장소를 사용하십시오

기본적으로 inplace 지원하는 작업을 활성화하십시오. 예를 들어, relu inplace=True 사용할 수 있습니다.
batchnorm 및 일부 특정 활성화 기능은 inplace_abn 에 포장 될 수 있습니다.

손실 기능

각 루프의 끝에서 손실을 삭제하면 비디오 메모리가 거의 저장 될 수 있지만 아무것도 아닌 것보다 낫습니다. 가변 및 메모리 무료 모범 사례에 대한 텐서

믹싱 정확도

일정량의 비디오 메모리를 절약하고 속도를 높일 수 있지만 평균 및 합계와 같은 안전하지 않은 작업에주의하십시오.

혼합 정밀 훈련 소개 :
- 얕은에서 깊은 곳에서 혼합 정밀 훈련 자습서
NVIDIA/Apex 가 제공하는 혼합 정확도 지원.
- Pytorch 필수 인공물 | 빠른 무료 : 정점 기반 하이브리드 정밀 가속
- Pytorch Pytorch Apex Deally and Miscellaneous Disease Solutions -Chen Hanke 's Articles -Zhihu
Pytorch1.6은 혼합 정밀도를 지원하기 위해 torch.cuda.amp 제공하기 시작합니다.

역전이 필요하지 않은 작업을 관리합니다

검증 및 추론 기간과 같은 역전이 필요하지 않은 순방향 단계의 경우 torch.no_grad 사용하여 코드를 포장하십시오.
- model.eval() torch.no_grad() 와 같지 않습니다. 'Model.eval ()'vs with torch.no_grad () '.
불필요한 그라디언트의 메모리 사용량을 줄이기 위해 변수가 그라디언트의 역전 전파에 참여하지 않도록 Gradient를 False 로 계산할 필요가없는 변수의 requires_grad 설정하십시오.
계산할 필요가없는 그라디언트 경로를 제거하십시오.
- 확률 적 역전 : 비디오 모델을위한 메모리 효율적인 전략, 해석을 볼 수 있습니다.
  - https://www.yuque.com/lart/papers/xu5t00
  - https://blog.csdn.net/p_lart/article/details/124978961

비디오 메모리 청소

torch.cuda.empty_cache() 는 del 의 고급 버전입니다. nvidia-smi 사용하면 비디오 메모리에 명백한 변경 사항이 있습니다. 그러나 교육 중 최대 비디오 메모리 사용은 변하지 않는 것 같습니다. 시도 할 수 있습니다 : GPU 메모리 캐시를 어떻게 해제 할 수 있습니까?
del 사용하여 불필요한 중간 변수를 삭제하거나 replacing variables 형태를 사용하여 점유를 줄일 수 있습니다.

그라디언트 축적

batchsize=64 32의 두 배치로 나누고 두 개의 전달 후 한 번 뒤로 나눕니다. 그러나 batchnorm 및 batchsize 와 관련된 다른 층에 영향을 미칩니다.

Pytorch의 문서에서, 그라디언트 축적 및 혼합 정밀도를 사용하는 예가 언급된다.

그라디언트 축적 기술을 사용하여 분산 교육을 가속화하는데 다음을 참조 할 수 있습니다.

그라디언트 체크 패인팅

torch.utils.checkpoint 는 Pytorch에서 제공됩니다. 이는 역전 동안 각 체크 포인트 위치에서 전방 전파를 다시 실행하여 달성됩니다.

Sublinear 메모리 비용을 가진 종이 훈련은 Gradient Checkpoint 기술을 기반으로하여 O (n)에서 O (SQRT (N))로 비디오 메모리를 줄입니다. 더 깊은 모델의 경우이 방법이 더 많은 메모리가 저장되고 크게 속도가 느려지지 않습니다.

Pytorch의 체크 포인트 메커니즘 분석
Torch.util.Checkpoint 소개 및 사용하기 쉬운
참조 : Pytorch의 메모리 저장 (비디오 메모리)을위한 팁은 무엇입니까? -Lyken의 대답 -Zhihu

참조

Pytorch에서 메모리 (비디오 메모리)를 저장하기위한 팁은 무엇입니까? - Zheng Zhedong의 대답 -Zhihu
딥 러닝에 대한 간단한 토론 : 모델 및 중간 변수의 메모리 발자국을 계산하는 방법
Pytorch에서 비디오 메모리를 미세하게 활용하는 방법
Pytorch에서 비디오 메모리를 저장하기위한 팁은 무엇입니까? -CHEN HANKE의 대답 -ZHIHU
Pytorch 비디오 메모리 메커니즘 분석 -Connolly의 기사 -Zhihu

다른 팁

낳다

문서의 관련 장을 팔로우 할 수 있습니다.

필수 결정 론적 운영

비 결정적 알고리즘을 사용하지 마십시오.

pytorch에서, torch.use_deterministic_algorithms() 비 결정적 알고리즘 대신 결정 론적 알고리즘의 사용을 강요 할 수 있으며, 작업이 비 결정적 (및 결정적인 대안이 없음)으로 알려진 경우 오류가 발생합니다.

임의 숫자 씨앗을 설정하십시오

 def seed_torch ( seed = 1029 ):
    random . seed ( seed )
    os . environ [ 'PYTHONHASHSEED' ] = str ( seed )
    np . random . seed ( seed )
    torch . manual_seed ( seed )
    torch . cuda . manual_seed ( seed )
    torch . cuda . manual_seed_all ( seed ) # if you are using multi-GPU.
    torch . backends . cudnn . benchmark = False
    torch . backends . cudnn . deterministic = True

seed_torch ()

https://www.zdaiot.com/mlframeworks/pytorch/pytorch%E9%9A%8F%E6%9C%BA%E7%A7%8D%E5%AD%90/의 참조.

Pytorch 버전 1.9 이전의 Dataloader의 숨겨진 버그

구체적인 세부 사항은 95%의 사람들이 여전히 Pytorch 실수를하고 있음을 보여줍니다. -Serendipity Articles -Zhihu

솔루션은 문서를 참조하십시오.

 def seed_worker ( worker_id ):
    worker_seed = torch . initial_seed () % 2 ** 32
    numpy . random . seed ( worker_seed )
    random . seed ( worker_seed )

DataLoader (..., worker_init_fn = seed_worker )