서론
지난 포스팅에서는 생성형 AI에 대해 어떻게 vertex AI를 활용하여 MLOps를 적용하는 지 알아보았다. 이번 포스팅에서는 특히 생성형 AI에 대해 모델 평가를 어떻게 진행하는지에 대해 알아보도록 하겠다. GCP 컨텐츠라 이번에도 역시 vertex AI의 내용이 난사된다.
모델 평가란?
품질 검사와도 같다. 모델의 acuracy, correct predictions, reliable, consistent performance, Business aligned를 측정하는 것임. 모델 평가가 중요한 이유는 뭘까? 성능이다. 모델의 성능을 알 수 있기 때문이다. 두번째는 일반화다. 모델이 학습된 데이터 뿐 아니라 실제 시나리오에서도 쓰일 수 있는지 아는 것이다. 세번째는 모델 선택이다. 평가를 통해 무엇이 가장 좋은 모델인지 파악하고 이를 통해 개선할 수 있다. 네번째는 향상이다. 배포 후 성능을 추적하여 문제의 재학습 시기를 판단하는 것이다. 마지막으로 decision-making이다. 모델 배포, 업데이트, 조정 등을 판단할 수 있다. ML Lifecycle 중 모델 평가가 매우 중요한 이유는 모델에 대한 결과를 보장하기 때문이다.
모델 평가 단계
모델평가는 두가지 단계가 있다고 볼 수 있는데, 첫번째가 after training이고 두번째가 After deployment 다. 전자의 경우 평가 항목을 검토해 모델 배포 여부를 결정한다. 여러 모델 중 가장 좋은 모델을 선택하는 것이다. 후자의 경우 새로운 데이터를 사용해 지속적으로 성능을 평가하고 잠재적인 효율성 저하를 파악한다. 이 때 성능 저하가 판단된다면 모델을 재학습 시켜야 할수도 있다. 이렇게 지속적으로 평가하는 걸 continuous evaluation이라 하며, 모델이 실제 상황에서 정확성과 적응성을 보장하게 한다.
모델 평가 후에는?
모델 평가가 된 후에는 1. model evaluation techniques 2. evaluation metrics가 있는데, 측정 방법을 선택하기 전 분류, 회귀, 순위(ranking) 등 사용되는 모델의 유형을 이해해야 된다. 1번의 경우 모델 성능을 평가하는 데 사용되는 가장 중요한 프로세스로 training과 testing을 각 부분으로 나눈 다음 모델이 새로운 데이터에 얼마나 잘 일반화하는지 평가하는 게 포함된다. 홀드아웃 검증, k-fold 교차검증, leave-one-out 교차 검증이 이에 해당된다. 2번의 경우 모델의 성능을 정량화 하는데 사용된다. 점수 산출 시스템 처럼 작동하여 모델 예측을 얼마나 잘 수행하는 지 알려주는 값으로 사용된다. classification task로 accuracy, precision, recall, f1-score가 있고, Regression task로는 Mean Squared error, R-squared가 있으며, NLP 경우 BLEU, ROUGE가 있다.
케이크를 예로 들면 Model evaluation Technique 경우 1. 전처리 과정이 있는가 2. 모델이 어떻게 train됐는가 3. 어떻게 테스트되고 vaild되었는 지 전반적인 과정을 본다. evaluation metrics의 경우 케이크 품질을 보는것이다. 맛이 어떤지? 텍스쳐가 어떤지? 어떻게 보이는지? 보는것이다.
평가 기법과 측정 항목 선택
1. 모델 타입을 봐야된다. 1) 분류인지 2)회귀인지 3) 랭킹인지 4) 그 외 다른 유형인지 보는 것이다.
2. 프로젝트 목표다. 성능 중 가장 중요한 요소가 무엇인지?
3. 데이터셋 크기다. 작은지?( 작다면 hold out 방법 ) 큰지?( 크다면 k-fold 교차)
4. computational 비용이다. 과정이 복잡하면 리소스를 많이 사용할 수 있다. 계산 비용과 정확성은 trade off 관계인 것이다.
5. bias-variance tradeoff다. 편향과 분산은 trade off관계로, 부트스트랩과 같은 기술은 모델 편향과 분산을 평가하고 잠재적 과적합 또는 과소적합 문제에 대한 인사이트를 제공하는 데 도움될 수 있다.
6. 그 외 오류 비용, 데이터 균형, 여러 측정 항목 사용 등이 있다. 오류비용은 오류시 얼마나 해가 되는지 그 비용을 의미한다.
7. multiple complementary metrics다. 정밀도 재현율 f1-score 같은 여러가지 보완 항목을 선택하는 것이다.
'IT, Computer' 카테고리의 다른 글
[GCP] 생성형 AI: 뉘앙스 이해 및 MLOps 적용 (3) (0) | 2025.05.09 |
---|---|
[GCP] MLOps framework for 생성형 AI (2) (0) | 2025.05.07 |
[GCP] GCP 튜토리얼을 무료로 제공하는 사이트가 있다? (1) (0) | 2025.05.06 |
[프로그래머스] 옹알이 (1) (0) | 2025.05.04 |
LLM 모델별(gpt, gemini, claude 등) 성능 비교하는 법 (0) | 2025.05.01 |