Fine-tuning LLM (1) Data Curation과 데이터 수집 및 로드
·
IT, Digital
서론이번 포스팅에서는 Fine-tuning을 위한 과정에 대해서 서술하고자 한다. 모델 성능 개선 방법에는 크게 세가지가 있다. 1. Prompting 2. RAG 3. Fine-tuning. 이 중 파인튜닝은 모델 자체를 학습시키는 것인데, 이 과정의 첫번째 단계가 Data curation이다. 이번 포스팅에서는 데이터 큐레이션 및 데이터 수집하는 방법에 대해서 알아보도록 하겠다.Data Curation이란?Data curation은 데이터를 수집, 정제, 가공, 저장, 관리하는 작업을 의미한다. LLM을 Fine-tuning할 때 학습 데이터를 만드는 과정이기도 하다. LLM을 학습시킬 때 수집한 데이터를 냅다 집어넣으면 안 된다. 주어진 정보가 너무 많아도, 정보가 너무 적어도 학습에 문제가 생기기..