Hugging Face에 대해 알아보자 (5) LLM 모델 선정 시 고려 사항 및 비용

서론

예전에 LLM 모델의 성능을 측정하는 사이트에 대해서 포스팅한 적이 있다. 그런데 여기서 나온 리더보드로는 어떻게 모델을 선정할것인지 난감할 수 있다. 그래서 이번 포스팅에서는 어떤 매카니즘을 바탕으로 모델 선정을 하는지에 대해 알아보고자 한다. 특히 고려서항과 비용에 대해 알아보겠다. LLM 모델 성능을 비교하는 포스팅은 아래로 가면 된다.

LLM 모델별(gpt, gemini, claude 등) 성능 비교하는 법

서론LLM 사용에 있어서 성능의 차이가 수치적으로 궁금할 수 있다. 아무래도 체감하는 것과 객관적인 지표는 다를 수 있으니까 말이다. 그런 의미에서 이번 포스팅에서는 LLM 모델을 모델별 성능

quiseol.com

고려해야 할 다섯가지

가장 우선적으로 판단해야 되는 것은 Open source 여부이다. 두번째는 Knowledge cut-off 날짜다. 보통 Release 날짜에 따라 Knowledge cut-off가 정해지기 때문에 Release Date로 정해도 되지만 최근에 release 했더라도 knowledge cut-off가 비교적 구식일 수 있으니 knowledge cut off 날짜라고 말했다. 세번째는 변수의 개수다. 파라미터들의 개수가 곧 모델의 센스 정도를 의미하기 때문이다. 이 파라미터의 개수들은 곧 사이즈와 비례할 것이고, 사이즈는 곧 가격과 비례할 것이다. 네번째는 training에 사용된 토큰의 개수다. 그러니까 Training dataset의 크기다. 이 역시 파라미터의 개수만큼 모델의 전문성, 레벨과 같은 sense의 정도를 정해준다. 마지막은 context length다. Context window 사이즈고, context winow가 중요한 이유는 위에 llm 성능 비교 포스팅에서도 말했으니 생략하겠다.

비용에 대하여 (1) Inference Cost

비용과 관련된 것들이 많이 있다. Inference Cost, Training Cost, Build Cost 이렇게 크게 3가지다. 우선 Inference Cost는 모델을 돌릴때마다의 비용이다. 여기에는 우선 호출할때마다 가격이 부과되는 API charge가 들어간다. 만약에 고급 user interface를 사용해서 chat UI를 구독형 형식으로 사용한다면 이 비용 역시 Inference Cost에 들어간다. 만약에 혼자서 open-source model을 사용한다면 colab을 구동하는 것도 포함될 수도 있고 deploy, cloud 서비스 등 비용도 들어갈 것이다. 그렇기에 API 비용이 없이 직접 training한 open-source모델을 사용한다면 inference cost가 줄어들 것이다. 물론 이게 정답이라는 건 아님. API를 사용해서 더 좋은 결과가 나온다면 그게 정답일수도 있기 때문이다.

비용에 대하여 (2) Training Cost, Build Cost

파인튜닝과 같이 따로 설정을 하지 않고 프론티어 모델을 그대로 사용한다면 Training cost는 발생하지 않을것이다. 오픈 소스 모델을 사용해서 도메인 특화 모델을 만들려면 training이 필요하고 이때 생기는게 training cost다. 바로 위에서, open-source 모델을 사용한 뒤 직접 training을 하면 inference 비용이 줄어든다고 했다. inference cost는 줄어들긴 하지만 대신 training cost가 올라간다. Build Cost는 솔루션을 내기까지 얼마나 많은 일을 해야되는지를 의미한다. 또 다른 비용중 하나인 Time to market(=시장에 나오기까지 얼마나 걸리는가)과 연관되어 있다. 프론티어 모델의 셀링 포인트는 타임 투 마켓이 짧다는 것이다. 이와 연관된 build cost도 낮다고 할 수 있음.

비용에 대하여 (3) Speed & Latency

그 외 Speed, Latency는 요청에 대한 응답 시간과 관련이 있다. '새 토큰(=응답)을 만드는 걸 얼마나 빠르게 할 수 있는가? 얼마나 느린가?'에 대한 것이기 때문이다. 둘의 차이가 있다면 speed는 response를 딱 시작하는 시점이 얼마나 빠른가를 의미하고, latency는 응답을 시작하고 나서 generate response까지 얼마나 시간이 걸리는 지를 의미한다는 것이다.

끝으로

가장 비용과 관련 없지만 동시에 가장 중요한것은 License다. 라이센스마다 restriction이 있는데 이걸 잘 알아야 된다. 오픈소스 모델 같은 경우는 오픈 마인드인 경우가 많다. 근데 일부는 세부 조건(=fine print)들이 있는 경우가 있다. 예를들어 뭐 처음엔 무료였다가 나중에 어느정도 규모커지면 돈을 더내라는 게 있다든지 하는 것이다. 이번 포스팅은 다양한 비용들을 바탕으로 어떻게 모델을 정해야 되는지 알아봤다. 다음에는 RAG에 대해서 포스팅할 것 같은데, 사실 이미 RAG관련 포스팅한 시리즈들이 있다. 해당 내용이 궁금하다면 아래 포스팅을 참고 바란다.

Retrieval Augmented Generation(RAG) 복습 (1) RAG의 개념

RAG란?Retrival : (언어 모델이 갖고 있지 않은 정보) 데이터를 가져오는 것.Augmented : AR/VR에서의 A도 Augmented임. 마치 있는 것처럼.Generation : 컴퓨터가 생성하는거 llm이 알아서 하는부분이다.여기서 R,A

quiseol.com

'IT, Digital' 카테고리의 다른 글

티스토리 하위 도메인으로 애드센스 승인 (2) 하위 도메인 블로그 에드센스 연결 및 주의사항 (1)	2025.05.27
티스토리 하위 도메인으로 애드센스 승인 (1) 티스토리 새 블로그 및 하위(3차) 도메인 개설 방법 (0)	2025.05.26
티스토리 블로그 애드센스 수익 여정 포스팅 (9) 애드센스 승인 (1)	2025.05.21
Hugging Face에 대해 알아보자 (4) Quantization (0)	2025.05.20
Hugging Face에 대해 알아보자 (3) text generator, image generator, Audio generator (0)	2025.05.19

서론

고려해야 할 다섯가지

비용에 대하여 (1) Inference Cost

비용에 대하여 (2) Training Cost, Build Cost

비용에 대하여 (3) Speed & Latency

끝으로

'IT, Digital' 카테고리의 다른 글

티스토리툴바