multi-gpu (1) 썸네일형 리스트형 [wandb] multi-gpu log tracking 1. 문제 확인 - 단일 gpu에서 학습하면서 wandb를 이용하는 경우, 아무런 문제 없이 loss trcking이 가능했음. - 다중 gpu를 사용하여 DistributedDataParallel(DDP) 분산 처리를 하는 경우, 1) wandb 오류가 발생하거나, 2) 중복되어 tracking이 됨 2. 해결 방법 - wandb 공식 도큐먼트를 보면, 이를 해결할 수 있는 두가지 방법을 제안하고 있고, 그 중 비교적 단순한 One Process 방식을 채택하여 문제를 해결함. https://docs.wandb.ai/guides/track/advanced/distributed-training - 각 epoch을 돌면서 학습을 진행할 때, acc와 loss를 계산하고 이를 wandb로 logging하는 .. 이전 1 다음