Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 포스텍 인공지능 대학원
- RuntimeError
- 파인튜닝
- 에러
- 대학원합격
- 포항공대인공지능
- torch_size
- torch.distributed
- 사전학습
- llm
- loss
- 포스텍인공지능
- trainer
- llm파인튜닝
- timeout
- Axotl
- fine_tuning
- 러닝레이트
- learning_rate
- Torch
- DeepSpeed
- 대학원준비
- 파이썬
- postech 인공지능대학원
- 포항공대인공지능대학원
- github
- 에러노트
- postech인공지능
- 포스텍 ai
- postech
Archives
- Today
- Total
목록torch_size (1)
DopeorNope 개발일지
Axotl & deepspeed zero3: 모델 레이어 불러올때 torch.Size([0]) 해결법
진짜 그냥 이걸 해결했긴 했는데, 진짜 머리가 찡하다. 그냥 화가 무척 난다. 왜 화가나느냐? 마이크로 소프트 이놈들은 deepspeed를 윈도우처럼 만들어놨다. 업데이트도 느리고 github 레포에서 세달전에 올라온 버그 리포트도 아직까지 반영이 안되어있다. 자 그럼 이번에 어떤주제냐면, LLM full-finetuning할때, 내가 몇개의 레이어는 얼리고 몇개는 풀고싶고 이렇게 튜닝하고 싶은 경우가 정말 많다. 그럴때 자주 쓰이는 것은 아래와 같다. param.requires_grad = False 혹은 param.requires_grad = True 위의 두개가 무엇이냐 하면은, 그 가중치에 gradient update를 할지 안할지 결정해주는 것이다. 그런데 이제 Axotl라이브러리 활용하셔 LL..
에러 노트
2024. 1. 13. 11:13