일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 파인튜닝
- 대학원준비
- timeout
- 에러
- 대학원합격
- fine_tuning
- 사전학습
- Axotl
- 포스텍인공지능
- DeepSpeed
- learning_rate
- postech
- RuntimeError
- 러닝레이트
- 포항공대인공지능
- trainer
- llm
- github
- 파이썬
- Torch
- 포항공대인공지능대학원
- torch.distributed
- loss
- postech 인공지능대학원
- 에러노트
- postech인공지능
- 포스텍 인공지능 대학원
- 포스텍 ai
- llm파인튜닝
- torch_size
- Today
- Total
목록DeepSpeed (3)
DopeorNope 개발일지

이놈의 Multi-GPU 훈련은 진짜 사람을 돌게 만든다. 도대체 어디서 문제가 나는지 감도 안오는 경우가 많기 때문이다. 하지만 결국 사람은 그렇게 찾아낸다. 이 에러가 나는 근본적인 이유를 알아보자. 깃허브 이슈에 나와있던 글이다. 내용인 즉슨, 보통 llm full-finetuning시 레이어 얼리는데 있어서, 옵티마이저 최적화 할만한 레이어가 없다는 것이라는것과 같다는 것이다. 근데 솔직히 이것보다 더 근본적인 문제가 있는게, 지금 내가 fine_tuning하려는 하이퍼 파라미터들(트레이닝 옵션 혹은 모델 dtype)과 deepspeed의 config가 호환이 되지 않아서 그런거다. 그러면 어떻게 해결할 것인가? 방법은 은근히 간단하다. 우선 불러오는 모델 type이 bfloat16이라면, dee..

자 오늘 오전에는 이 미친 라이브러리 deepspeed가 axotl에 미치는 영향을 알아보고, 이를 해결하는 방법을 공유하였다. 그런데, 이제 더 미친 문제가 하나 남겨져있었다. 훈련시키는 도중 나는 다음과같은 모습을 볼 수 있었다. 내 wandb프로젝트에 다음과 같은 모습을 발견했는데, 여기서 주의할점이 step이 올라갈수록 loss값이 폭등하는 것이다. 이 문제를 해결하기 위해서 정말 별의별 document를 확인하였다. 그러자 다음과 같이 문서를 찾을 수 있었다. 우선 나는 lr_scheduler로 learning rate를 조금씩 낮춰가는 형상으로 훈련을 하고 있었는데, 음 비슷한 문제를 가진 내용이, lr와 loss와의 관계가 있다는 것이다. 값자기 exploding을 한다는 글이었고, 물론 나..
진짜 그냥 이걸 해결했긴 했는데, 진짜 머리가 찡하다. 그냥 화가 무척 난다. 왜 화가나느냐? 마이크로 소프트 이놈들은 deepspeed를 윈도우처럼 만들어놨다. 업데이트도 느리고 github 레포에서 세달전에 올라온 버그 리포트도 아직까지 반영이 안되어있다. 자 그럼 이번에 어떤주제냐면, LLM full-finetuning할때, 내가 몇개의 레이어는 얼리고 몇개는 풀고싶고 이렇게 튜닝하고 싶은 경우가 정말 많다. 그럴때 자주 쓰이는 것은 아래와 같다. param.requires_grad = False 혹은 param.requires_grad = True 위의 두개가 무엇이냐 하면은, 그 가중치에 gradient update를 할지 안할지 결정해주는 것이다. 그런데 이제 Axotl라이브러리 활용하셔 LL..