Deep Learning (2) 썸네일형 리스트형 [wandb] multi-gpu log tracking 1. 문제 확인 - 단일 gpu에서 학습하면서 wandb를 이용하는 경우, 아무런 문제 없이 loss trcking이 가능했음. - 다중 gpu를 사용하여 DistributedDataParallel(DDP) 분산 처리를 하는 경우, 1) wandb 오류가 발생하거나, 2) 중복되어 tracking이 됨 2. 해결 방법 - wandb 공식 도큐먼트를 보면, 이를 해결할 수 있는 두가지 방법을 제안하고 있고, 그 중 비교적 단순한 One Process 방식을 채택하여 문제를 해결함. https://docs.wandb.ai/guides/track/advanced/distributed-training - 각 epoch을 돌면서 학습을 진행할 때, acc와 loss를 계산하고 이를 wandb로 logging하는 .. [tensorboard] 외부에서 tensorboard 접속 외부에서 학습 상태를 확인하는 방법은 여러가지가 있겠지만, 가장 많이 쓰이는 방법 중 하나인 ssh -NfL 을 이용하는 방법에 대해 설명 1. 접속 방법 학습 진행 중, 학습이 진행되는 머신(딥러닝 서버 등)에서 tensorboard 0.0.0.0:6006 서버 열어둠 필자는 tmux를 주로 활용하여, 새로운 tmux 열고 tensorboard 웹서버를 띄움 접속하고자 하는 PC(로컬)에서 ssh -NfL을 이용하여 위 0.0.0.0:6006에 연결 아래 명령어는 해석해보면, ssh를 이용해 Sever로 접속하고, Server Side의 0.0.0.0:6006 주소(tensorboard 웹서버)와 Local의 localhost:8898 주소를 연결한다. ssh -NfL localhost:8898:0.0.. 이전 1 다음