서론
이번 포스팅에서는 Fine-tuning을 위한 과정에 대해서 서술하고자 한다. 모델 성능 개선 방법에는 크게 세가지가 있다. 1. Prompting 2. RAG 3. Fine-tuning. 이 중 파인튜닝은 모델 자체를 학습시키는 것인데, 이 과정의 첫번째 단계가 Data curation이다. 이번 포스팅에서는 데이터 큐레이션 및 데이터 수집하는 방법에 대해서 알아보도록 하겠다.
Data Curation이란?
Data curation은 데이터를 수집, 정제, 가공, 저장, 관리하는 작업을 의미한다. LLM을 Fine-tuning할 때 학습 데이터를 만드는 과정이기도 하다. LLM을 학습시킬 때 수집한 데이터를 냅다 집어넣으면 안 된다. 주어진 정보가 너무 많아도, 정보가 너무 적어도 학습에 문제가 생기기 때문이다. 그렇기에 최대한 콤팩트한 정보를 LLM에 넘겨줌으로써 학습하게 만드는 것이다. 그렇기에 수집을 한 뒤 재가공하는 과정이 필요하다.
학습할 데이터 수집
학습 데이터를 만들어야 되는 만큼, Data Curation에서 첫번째로 해야될 것은 데이터의 수집이다. 데이터 수집은 직접 크롤링을 할 수도 있고, kaggle 같은 대형 사이트에서 할 수도 있고, Hugging Face에서 데이터셋을 찾을수도 있다. 또 한국 같은 경우는 AI-hub라고 데이터셋 사이트도 있다. 한국어 자료가 필요하다면 아마 여기가 가장 의미있지 않을까 싶다. 이번 포스팅에서는 Hugging Face에서 적당한 자료를 찾아보겠다. Hugging face data set 링크는 여기로 가면 된다.
Hugging Face에서 학습할 데이터 로드하기
Hugging Face에서 데이터를 찾았다면, 데이터셋을 로드해야 된다. 데이터를 제공하는 사람에 따라 다른데 data set으로 로드할 수도 있고, csv나 다양한 형식으로 다운받을 수 있다. 그리고 다운받는 방법 역시 다르니까 데이터 카드 부분을 참고하면 되겠다. 이번 포스팅에서는 데이터셋을 로드하는 방식을 보여주고자 한다. 그 전에 만약에 Hugging Face API 설정 및 로그인을 해야되는데 이 과정이 궁금하다면 이 포스팅을 참고하면 된다. 내가 하려는 데이터는 2023년 아마존 리뷰 데이터다. 위에서 말했듯 데이터 카드 섹션을 보면 아래와 같이 설명이 되어있다. 이걸 복사해서 아래 코드블록처럼 붙여넣기 하면 된다. 참고로 위에 적은것들은 로그인 및 API 인증 과정이다.
import os
from dotenv import load_dotenv
from huggingface_hub import login
from datasets import load_dataset
load_dotenv(override=True)
os.environ['HF_TOKEN'] = os.getenv('HF_TOKEN')
hf_token = os.environ['HF_TOKEN']
login(hf_token, add_to_git_credential=True)
dataset = load_dataset("McAuley-Lab/Amazon-Reviews-2023", "raw_review_All_Beauty", trust_remote_code=True)
끝으로
이번 포스팅에서는 Data Curation 과정과 데이터 수집 방법에 대해서 알아보았다. 다음 포스팅에서는 이걸 어떻게 가공할 것인지에 대해 작성할 예정이다. Hugging Face 관련 포스팅이 궁금하다면 아래 링크를 참고하길 바란다.
Hugging Face에 대해 알아보자 (1) API 등록, 감정 분석, 고유명사 식별 분석
서론이번에는 hugging face를 사용하는 방법에 대해 간단히 알아보고자 한다. 포스팅에 앞서 https://huggingface.co/ 에 회원가입 및 로그인을 해야된다. API를 사용하기 때문이다. API 넣는 방법은 포스팅
quiseol.com
'IT, Digital' 카테고리의 다른 글
Fine-tuning LLM (2) Dataset investigation (0) | 2025.06.05 |
---|---|
[RAG] Chroma와 FAISS 차이, 장단점 간단 정리 (0) | 2025.05.28 |
티스토리 하위 도메인으로 애드센스 승인 (2) 하위 도메인 블로그 에드센스 연결 및 주의사항 (1) | 2025.05.27 |
티스토리 하위 도메인으로 애드센스 승인 (1) 티스토리 새 블로그 및 하위(3차) 도메인 개설 방법 (0) | 2025.05.26 |
Hugging Face에 대해 알아보자 (5) LLM 모델 선정 시 고려 사항 및 비용 (0) | 2025.05.25 |