Fine-tuning LLM (4) Load & Download data
·
IT, Digital
서론지난 포스팅에서는 데이터를 정제하는 코드를 작성했다. 이번 포스팅에서는 데이터를 로드하고 로드된 데이터를 저장하는 방법에 대해서 적도록 하겠다. 이전 포스팅을 보려면 아래 포스팅을 참고하길 바란다. 여기서 만든 클래스를 활용해서 정제된 데이터를 로딩하는 것이기에 꼭 필요한 과정이다. Fine-tuning LLM (3) Item Parsing Class서론지난 포스팅에서는 데이터셋을 어떻게 수집하고, 데이터를 어떻게 분석하는 지 그 과정에 대해서 알아보았다. 이번 포스팅에서는 이렇게 분석한 데이터를 어떻게 프롬프트에 반영하는지에quiseol.cominit 함수와 load 함수우선 init함수를 통해 name과 dataset을 초기화한다. name은 카테고리명을, dataset은 데이터셋을 나중에 로드..
Fine-tuning LLM (3) Item Parsing Class
·
IT, Digital
서론지난 포스팅에서는 데이터셋을 어떻게 수집하고, 데이터를 어떻게 분석하는 지 그 과정에 대해서 알아보았다. 이번 포스팅에서는 이렇게 분석한 데이터를 어떻게 프롬프트에 반영하는지에 대해서 알아보고자 한다. 이렇게 만든 프롬프트를 기반으로 prompt를 만든 다음 나중에 Fine-tuning에 사용할 예정이다.생성자 설정 __init__()우선 초기 상태 설정인 init 함수를 적어준다. 받는 값들은 미리 넣어줄 것이고, 나중에 판단하거나 값을 새로 할당해야되는 것들은 None, 0 내지 False로 지정해줬다. detail을 바로 data['detail']로 받지 않은 이유는 디테일에 불필요한 요소가 너무 많기에 따로 받아서 정제를 해줘야되기 때문이다. 우선 데이터를 받으면 파싱하는 함수를 만들겠다.d..
Fine-tuning LLM (2) Dataset investigation
·
IT, Digital
서론앞선 포스팅에서는 Data Curation을 위해 데이터 로드하는 것 까지 진행했다. 이번에는 데이터 로딩 이후에 가공하는 과정을 진행하고자 한다. 참고로 가공에는 무조건적인게 없다. 데이터를 살펴보고 데이터에 따라 어떻게 가공해야될지 판단하는것은 본인의 몫이다. 그리고 시작에 앞서 이번 파인 튜닝의 목적은 제품 가격을 예측하는 LLM을 만드는 것임을 알리고자 한다. 물론 직접 데이터 분석해서 모델링할 수도 있지만 LLM도 Regression 기반이기 때문에 가능하기 때문이다. 다만 다른게 있다면 데이터 분석은 어떤한 변수를 주면 예측한다는건데 LLM은 query를 주면 그에 맞는 예측 답변을 말할 것이다.데이터 셋 살펴보기데이터 셋을 로드 하면 무엇이 들어있는 지 알아야 된다. 이는 다운받는 과정에..
빅데이터를 위한 타오바오 배송 타임라인 (1)
·
쇼핑
서론최근에 타오바오 제품을 주문했다. 이번 포스팅에서는 타오바오 제품을 배송하고 받기 까지의 과정에 대해서 설명하고자 한다. 알리익스프레스 처럼 타오바오 역시 빅데이터용으로 따로 빅데이터 포스팅을 할 예정이다. 그 전까진 하나하나 포스팅 시리즈를 만들 계획이고 이것이 그 시리즈의 첫 포스팅이다. 혹시 알리익스프레스 배송 기간 과정이나 배송 추적 방법이 궁금하다면 아래 링크로 가면 되겠다. Aliexpress 택배 위치 추적 방법 (운송장 번호가 HRBC로 시작)서론알리익스프레스(Aliexpress)를 이용하다보면 내 택배가 어디에 있는 지 궁금한데 별다른 정보를 제공하지 않는 경우가 있다. 이번 포스팅에서는 어떻게 추적하는지에 대해서 알아보고자 한다.quiseol.com Aliexpress 알리익스프레..
Fine-tuning LLM (1) Data Curation과 데이터 수집 및 로드
·
IT, Digital
서론이번 포스팅에서는 Fine-tuning을 위한 과정에 대해서 서술하고자 한다. 모델 성능 개선 방법에는 크게 세가지가 있다. 1. Prompting 2. RAG 3. Fine-tuning. 이 중 파인튜닝은 모델 자체를 학습시키는 것인데, 이 과정의 첫번째 단계가 Data curation이다. 이번 포스팅에서는 데이터 큐레이션 및 데이터 수집하는 방법에 대해서 알아보도록 하겠다.Data Curation이란?Data curation은 데이터를 수집, 정제, 가공, 저장, 관리하는 작업을 의미한다. LLM을 Fine-tuning할 때 학습 데이터를 만드는 과정이기도 하다. LLM을 학습시킬 때 수집한 데이터를 냅다 집어넣으면 안 된다. 주어진 정보가 너무 많아도, 정보가 너무 적어도 학습에 문제가 생기기..