한국어 LLM 개발일지1

잡다한 것들

한국어 LLM 개발일지1

DopeorNope 2024. 1. 16. 06:51

우선 영어로 훈련된 모델들에 대해서, 새로운 언어에 대해 new adaption을 시키는건 많이 시도되었지만, 명확한 방법이 나오지 않아, 이렇게 시도 해보며 남겨본다.

우선 기존의 Upstage의 solar나, 다른 technical report를 보면, mistral base의 모델의 파라미터를 증가 시켜서 훈련시키는 것은 성능향상을 보여주었다.

물론 SOLAR같은 경우는, 너무 리더보드용으로 최적화 되어 있다.

그래서 나는 그렇게 달갑지는 않은데, 나는 좀더 실제적으로 활용도가 높은 모델을 개발하고 싶은 마음이 정말 크다.

그래서 Makr AI의 새로운 한국어 모델을 처음부터 끝까지 빌딩하는 개발일지를 남겨본다.

우선 나는 Mistral AI의 모델인 Mistral instruct v1 7B (32k짜리) 모델의 레이어 하나하나를 병합하여 10.7B로 만들었다.

https://arxiv.org/abs/2305.07759

TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

Language models (LMs) are powerful tools for natural language processing, but they often struggle to produce coherent and fluent text when they are small. Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can rarely generate coher

arxiv.org

위 링크는, Tiny Stories라는 논문으로, 여기서 흥미로운 점은, 모델의 앞쪽 레이어는 언어본능에 가까운 능력과 연관이 되어 있고, 중간 레이어는 추론능력, 마지막 레이어는, 구체적 사실에 대한 연관성이 높은걸로 보인다는 점이다.

우선 나는 이런점에서 미스트랄 모델의 추론력은 . 더 키우고, 언어를 받아들이는 것은 새로 해야 하기에, 앞쪽의 레이어들을 초기화 하였으며 동시에 이 레이어들을 하나씩 쌓아 올라 10.7B로 키워주었다. (다 생각을 가지고 근거있이 한 행동임...)

또 다음에 한것이, 바로 토크나이저의 Vocab확장.

https://zenn.dev/tokyotech_lm/articles/d6cb3a8fdfc907

Swallow: LLaMA-2 日本語継続事前学習モデル

藤井一喜 Tokyo Institute of Technology B4 情報理工学院情報工学系横田研究室 High-Performance Computing, 分散並列学習

zenn.dev

위의 글을 테크니컬 리포트중, 일본어 new adaption시키는 것에 대한 글이다.

https://arxiv.org/abs/2401.01055

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-d

arxiv.org

또 다른 논문으로, 다른 언어에 대한 데이터는 기존의 학습 데이터의 1%만 투자해도 금방올라오고, 엠베딩이 바뀌게 되면, 기존의 능력을 잃는다는 내용이다.

즉 토큰 확장은 필요가 없다 라는 내용이긴 하지만, 나는 이것보다 더 중요한 것이 한국어에 대한 더 효율적인 이해도를 지속적으로 높이기 위해서는, 한국어에 대한 new adaption을 위한 토크나이저의 어휘 확장을 해주어야 한다는 생각 이었다.

물론 논문과 보고서의 내용과는 반대되지만, 한국어에 대한 확장이 되게 함으로써, 학습되는 토큰수를 확줄일 수있고, 이게 점점 누적되면 누적될 수록 더 향상된 모델이 될것이라는 기대치가 있었다.

실질적으로 현재 한국어 리더보드를 보면, 보캡 확장한 모델들이 꽤 상위권을 휩쓸고 있다.

그래서 이렇게 기본이 되는 세팅을 준비해놓고.. 사전학습에 들어가게 된다...