yolo v5 학습 중 만난 오류
ERROR:torch.distributed.elastic.multiprocessing.api:failed
train.py
python -m torch.distributed.run --nproc_per_node=2 train.py \
--device 0,1 \
--epochs 150 \
--imgsz 5120 \
--batch-size 2 \
--optimizer SGD \
--seed 42 \
--multi-scale \
--cos-lr \
--exist-ok
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 3094519 closing signal SIGTERM
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0
발생원인
- gpu,ran,cpu등등 한계보다 더 큰 모델 들어오거나 데이터가 한번에 들어온 경우
추측
- 이미지 데이터셋 5120*5120 사이즈, 정보소실 우려로 인한 사이즈 줄이지 않고 그냥 진행
rtx3090ti 2개로 yolov5-s모델 학습하려했는데 모델 크기보단 아무래도 데이터셋때문에 그런다 생각함
배치사이즈는 2도했음
만약, 1 로 변경하는 경우 batch-size크기가 맞지 않다고 오류뜸.
해결방법
1. batch-size줄이기
2. python -m torch.distributed.run --nproc_per_node 1 train.py 사용
3. img_size줄이기 (기본적으로 큰사이즈라면 줄이는것 비추천)
tip : yolov5 는 코드 읽으면 보이지만 자동으로 amp쓸수 있도록 설계됨
'코딩 라이프 > 에러log' 카테고리의 다른 글
window | 윈도우 pycocotools 설치 에러 (1) | 2023.01.11 |
---|---|
텐서플로우 | Could not load library cudnn_cnn_infer64_8.dll. Error code 1455 (0) | 2022.12.07 |
[pytorch]Caught RuntimeError in DataLoader worker process 0. (0) | 2022.08.06 |
[파이토치] Cannot import name ‘PILLOW_VERSION’ from ‘PIL’ 에러 해결 (0) | 2022.07.25 |
[openCV]ImportError: libGL.so.1: cannot open shared object file: No such file or directory (0) | 2022.06.30 |
댓글