Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- timeout
- 러닝레이트
- 파인튜닝
- loss
- llm파인튜닝
- 대학원합격
- 포스텍인공지능
- llm
- postech
- 포항공대인공지능대학원
- 포항공대인공지능
- 에러노트
- DeepSpeed
- 파이썬
- fine_tuning
- github
- 대학원준비
- Axotl
- postech 인공지능대학원
- 에러
- RuntimeError
- torch.distributed
- learning_rate
- Torch
- 사전학습
- torch_size
- 포스텍 인공지능 대학원
- postech인공지능
- 포스텍 ai
- trainer
Archives
- Today
- Total
목록사전학습 (1)
DopeorNope 개발일지

자 오늘 오전에는 이 미친 라이브러리 deepspeed가 axotl에 미치는 영향을 알아보고, 이를 해결하는 방법을 공유하였다. 그런데, 이제 더 미친 문제가 하나 남겨져있었다. 훈련시키는 도중 나는 다음과같은 모습을 볼 수 있었다. 내 wandb프로젝트에 다음과 같은 모습을 발견했는데, 여기서 주의할점이 step이 올라갈수록 loss값이 폭등하는 것이다. 이 문제를 해결하기 위해서 정말 별의별 document를 확인하였다. 그러자 다음과 같이 문서를 찾을 수 있었다. 우선 나는 lr_scheduler로 learning rate를 조금씩 낮춰가는 형상으로 훈련을 하고 있었는데, 음 비슷한 문제를 가진 내용이, lr와 loss와의 관계가 있다는 것이다. 값자기 exploding을 한다는 글이었고, 물론 나..
에러 노트
2024. 1. 13. 17:57