'timeout' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록timeout (1)

DopeorNope 개발일지

Multi-GPU 훈련시 Timeout 문제 해결법

torch는 분산학습 가지고 훈련하는데 매우 최적화가 잘되어 있다. 특히 보통 이제 torch.distributed를 활용하여 분산학습을 시작하게 되는데, 가끔 훈련시 이러한 문제점을 발생하는 경우가 있다. Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1808499 milliseconds before timing out. 이 에러는 정말 단순하지만 보면 볼 수록 이해가 안가는 에러메세지이다. 왜 에러메세지가 생기는가? 그것은 바로, 기본적으로 분산학습을 활용하는 프레임워크로 accelerate를 활용하는데 여기에서 기본적으로 세팅되어 있는 시간이 30분이다. 즉 한작업..

에러 노트 2024. 1. 15. 07:56

이전 Prev 1 Next 다음

목록timeout (1)

DopeorNope 개발일지

티스토리툴바