본문 바로가기
코딩 라이프/에러log

ERROR:torch.distributed.elastic.multiprocessing.api:failed 해결법

by min0114 2024. 12. 10.

yolo v5 학습 중 만난  오류 

ERROR:torch.distributed.elastic.multiprocessing.api:failed

 

 

train.py 
python -m torch.distributed.run  --nproc_per_node=2  train.py \
--device 0,1 \
--epochs 150 \
--imgsz 5120 \
--batch-size 2 \
--optimizer SGD \
--seed 42 \
--multi-scale \
--cos-lr \
--exist-ok



WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 3094519 closing signal SIGTERM
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0

 

발생원인 

- gpu,ran,cpu등등 한계보다  더 큰 모델 들어오거나 데이터가 한번에 들어온 경우 

 

추측 

- 이미지 데이터셋 5120*5120 사이즈, 정보소실 우려로 인한 사이즈 줄이지 않고 그냥 진행

rtx3090ti 2개로 yolov5-s모델 학습하려했는데 모델 크기보단 아무래도 데이터셋때문에 그런다 생각함

배치사이즈는 2도했음 

만약, 1 로 변경하는 경우 batch-size크기가 맞지 않다고 오류뜸.

 

해결방법 

 

1. batch-size줄이기

2. python -m torch.distributed.run --nproc_per_node 1 train.py 사용

3. img_size줄이기 (기본적으로 큰사이즈라면 줄이는것 비추천)

 

 

tip : yolov5 는 코드 읽으면 보이지만 자동으로 amp쓸수 있도록 설계됨 

반응형

댓글