LLM 모델별(gpt, gemini, claude 등) 성능 비교하는 법

2025. 5. 1. 17:27·IT, Computer

썸네일

서론

LLM 사용에 있어서 성능의 차이가 수치적으로 궁금할 수 있다. 아무래도 체감하는 것과 객관적인 지표는 다를 수 있으니까 말이다. 그런 의미에서 이번 포스팅에서는 LLM 모델을 모델별 성능 비교한 사이트에 들어가고 그 의미를 알아보도록 하겠다. 아래 사이트를 참고하여, 하나하나 그 의미를 알아보자. 

 

LLM Leaderboard 2025

This AI leaderboard shows comparison of capabilities, price and context window for leading commercial and open-source LLMs, based on the benchmark data provided in technical reports in 2025.

www.vellum.ai

 


Reasoning이 먼가요

위에 링크를 들어가면, Top models per tasks라고 하면서 그래프가 보인다. 그리고 어느면에서 좋은지 순위별로 시각화되어 나타나있다. 아무래도 용도에 따라 성능이 다르기에 이렇게 분리하는 건 당연한 것이기도 하다. Reasoning, 고등학교 수학, agentic coding 이렇게 나누어져 있다. 각 테스크마다 모델별 역량이 다르다는 뜻임. Reasoning이란 추론 능력이다. 원래 LLM 모델은 추론 능력이 없었다. 단순히 정보 제공이 아니라 답을 위해서는 추론이나, 논리적 사고가 필요할 때 쓰는 것이다. 예를 들어, "a가 사과를 3개 사서 2개 먹었다면 남은 사과는?"이라고 물었다. reasoning model들은 1이라고 답하겠지만 기존 모델들은 1개라고 답하지 못할 확률이 크다(1이라고 대답 못한다는 건 아님). 단순 정보를 가져오는 것이 아닌 논리적 사고가 가능한 모델이기에, 가격도 더 비싸고 실용화 된 것도 비교적 최근이다. AI 산업 특성상 이제 곧 옛날일이 되겠지만 말이다...


Context window가 먼가요?

그리고 죽죽 내려가다보면 설명이 불필요할 정도로 직관적으로 되어있기에 해당 내용은 생략하기로 하겠다. 대신에 중간에 나오는 context window에 대해 언급하고자 한다. context window란 모델이 대화 내용을 얼마나 기억하고 이를 바탕으로 대답을 하는지에 관한 것이다. 이 얼마나 기억하는지에 대한 정량적인 수치가 토큰(토큰을 설명하자니 설명이 너무 길어지기에 생략하겠다.)수다. 최대 토큰이 몇이니? == context window 크기는 어떻게 되니?라고 보면 된다. 예시를 들어 설명하자면 셰익스피어 햄릿은 (영어 원문 기준으로) 약 3만 단어고 이는 약 5만 토큰을 사용한다고 한다. context window 사이즈가 5만이면, 셰익스피어 햄릿정도 기억한다고 보면 되겠다. tmi) 몇개월 전 까진 Gemini1.5 Flash의 context window가 1,000,000으로 압도적 1등이었는데.. 그새 3위로 내려왔고 백만도 흔해졌다. 참고로 백만이면 셰익스피어 작품 중 햄릿 뿐 아니라 모든 작품을 하나의 프롬프트에 넣을 수 있는 수준이다.


그 옆에 Cost는 뭔가요

"10$? 8$? 헉 어떤건 75$네 ㄷㄷ 너무 비싼거 아님?" 싶겠지만, 이건 1M 토큰이 기준이다. 한 번 쓸 때마다 지갑에서 돈이 줄줄세는 것이 아니라, 입력 프롬프트에 셰익스피어 전집을 넣었을때의 가격인 것이다. 근데 아마 이 글을 보는 대다수는 API를 통해 호출하기 보다 구독을 하면서 사용하는 사람일 것이기에, 이 돈은 신경 쓰지 않아도 된다.

 

아니 근데 왜 cost가 두개임

이라고 역시 생각할 수 있다. input cost/1M tokens는 질문하는 비용이다. output cost/ 1M tokens는? 답변하는 비용이다. "아놔 그럼 질문비 따로 받고 답변 비 따로 받는거임?" 맞다. 비례하나요? 아니다. 대답하는 것이 짧다면 짧을 것이고 길다면 많이 쓸 것이다. 유명 의사나 상담사, 동물 트레이너 등 상담할때 시간별로 돈 받지 않나요? 물론 상담시 30분, 1시간 같은 타임 리밋이 있겠지만 그것이 없다는 걸로 전제로 깔면, 그 때 내가 말하는 내용이 input cost라고 보면 되고, 그 사람이 대답할 때 쓰는 시간이 output cost라고 보면 됩니다. 즉, 내가 내는 비용은 input cost + output cost라고 보면 됨. 만약 내 상황을 30분간 말하지만 "선생님 대답은 가능한 짧게 말해주세요."라고 한다면 output cost는 줄일수도 있다는 점을 끝으로 이 포스팅을 줄이겠다.

'IT, Computer' 카테고리의 다른 글

[GCP] GCP 튜토리얼을 무료로 제공하는 사이트가 있다? (1)  (0) 2025.05.06
[프로그래머스] 옹알이 (1)  (0) 2025.05.04
파이썬 제너레이터(generator), yield Python  (0) 2025.04.30
티스토리 hELLO 스킨 적용 방법  (0) 2025.04.10
OSError: [WinError 10014] 호출에 대한 포인터 인수를 사용하려는 동안 시스템에서 잘못된 포인터 주소를 감지했습니다. 해결법  (0) 2025.03.01
'IT, Computer' 카테고리의 다른 글
  • [GCP] GCP 튜토리얼을 무료로 제공하는 사이트가 있다? (1)
  • [프로그래머스] 옹알이 (1)
  • 파이썬 제너레이터(generator), yield Python
  • 티스토리 hELLO 스킨 적용 방법
QUISEOL
QUISEOL
제품 사용기, 프로그래밍 언어 공부 블로그 입니다.
  • QUISEOL
    QUISEOL
    QUISEOL
    • 분류 전체보기 (99)
      • IT, Computer (50)
      • 그 외 경험기 (49)
  • 블로그 메뉴

    • 링크

      • insta
    • 공지사항

    • 인기 글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    QUISEOL
    LLM 모델별(gpt, gemini, claude 등) 성능 비교하는 법
    상단으로

    티스토리툴바