Fine-tuning LLM (2) Dataset investigation
·
IT, Digital
서론앞선 포스팅에서는 Data Curation을 위해 데이터 로드하는 것 까지 진행했다. 이번에는 데이터 로딩 이후에 가공하는 과정을 진행하고자 한다. 참고로 가공에는 무조건적인게 없다. 데이터를 살펴보고 데이터에 따라 어떻게 가공해야될지 판단하는것은 본인의 몫이다. 그리고 시작에 앞서 이번 파인 튜닝의 목적은 제품 가격을 예측하는 LLM을 만드는 것임을 알리고자 한다. 물론 직접 데이터 분석해서 모델링할 수도 있지만 LLM도 Regression 기반이기 때문에 가능하기 때문이다. 다만 다른게 있다면 데이터 분석은 어떤한 변수를 주면 예측한다는건데 LLM은 query를 주면 그에 맞는 예측 답변을 말할 것이다.데이터 셋 살펴보기데이터 셋을 로드 하면 무엇이 들어있는 지 알아야 된다. 이는 다운받는 과정에..
빅데이터를 위한 타오바오 배송 타임라인 (1)
·
쇼핑
서론최근에 타오바오 제품을 주문했다. 이번 포스팅에서는 타오바오 제품을 배송하고 받기 까지의 과정에 대해서 설명하고자 한다. 알리익스프레스 처럼 타오바오 역시 빅데이터용으로 따로 빅데이터 포스팅을 할 예정이다. 그 전까진 하나하나 포스팅 시리즈를 만들 계획이고 이것이 그 시리즈의 첫 포스팅이다. 혹시 알리익스프레스 배송 기간 과정이나 배송 추적 방법이 궁금하다면 아래 링크로 가면 되겠다. Aliexpress 택배 위치 추적 방법 (운송장 번호가 HRBC로 시작)서론알리익스프레스(Aliexpress)를 이용하다보면 내 택배가 어디에 있는 지 궁금한데 별다른 정보를 제공하지 않는 경우가 있다. 이번 포스팅에서는 어떻게 추적하는지에 대해서 알아보고자 한다.quiseol.com Aliexpress 알리익스프레..
Fine-tuning LLM (1) Data Curation과 데이터 수집 및 로드
·
IT, Digital
서론이번 포스팅에서는 Fine-tuning을 위한 과정에 대해서 서술하고자 한다. 모델 성능 개선 방법에는 크게 세가지가 있다. 1. Prompting 2. RAG 3. Fine-tuning. 이 중 파인튜닝은 모델 자체를 학습시키는 것인데, 이 과정의 첫번째 단계가 Data curation이다. 이번 포스팅에서는 데이터 큐레이션 및 데이터 수집하는 방법에 대해서 알아보도록 하겠다.Data Curation이란?Data curation은 데이터를 수집, 정제, 가공, 저장, 관리하는 작업을 의미한다. LLM을 Fine-tuning할 때 학습 데이터를 만드는 과정이기도 하다. LLM을 학습시킬 때 수집한 데이터를 냅다 집어넣으면 안 된다. 주어진 정보가 너무 많아도, 정보가 너무 적어도 학습에 문제가 생기기..
Aliexpress 알리익스프레스 배송 기간
·
쇼핑
서론Aliexpress에서 몇번 구매를 하면서 느낀 점은 예상 배송일과 실제 배송일의 차이가 크다는 것이다. 그래서 이번 포스팅에서는 예상 배송일은 언제였고 과정은 어땠는지에 대해서 기록하고자 한다. 추후 몇개의 데이터가 더 쌓이면 하나로 묶어놓은 포스팅을 쓰고자 한다.Aliexpress 물품 구매일 및 예상 배송 기간제품은 5월 19일 08:10(GMT+9)에 구매를 했다. 예상 배송일은 사진에 적힌 대로 7월 25일이었다. 무려 두달이나 뒤인데 구매를 했던 이유는 1. 어처피 사야 됐고, 2. 상품평이 있는데 배송에 대한 울부짖음이 보이지 않았기 때문이다. 판매자가 배송 준비를 하고 있습니다. 라는 문구는 주문 3분 뒤인 5월 19일 08:12(GMT+9)에 떳다. 그러나 여기선 아무 동요가 되지 않..
웨스코 킥 마스터 쥬니어 12L (180312-02) 구매기
·
쇼핑
서론쓰레기통에 20만원을 태울 수가 있을까. 내가 그걸 해냈다. 이쁜 쓰레기는 봤어도 이쁜 쓰레기통이라니. 그런데 유튜브에서 이 제품을 본 순간부터 잊혀지지가 않았고, 가격 때문에 다른 비슷한 종류의 무언가가 있을 것이라 생각해서 미국 아마존, 독일 아마존(웨스코가 독일꺼임) 일본 아마존, 다양한 유튜브 등을 참고해가며 다른 차선책에 대해서 알아봤지만 내 마음에 드는건 오직 웨스코의 쓰레기통이었다. 아무튼 이런 연유로 쓰레기통을 구매하기로 결심했고 본 포스팅은 1. 가격 2. 장점 3. 단점으로 사용기를 써내려가겠다. 참고로 3월초에 구매해서 2개월간 킥마스터 쥬니어와 함께한 뒤 적는 사용기다.웨스코 킥 마스터 쥬니어 가격우선 가격은 쿠폰할인을 받아 222,720원에 17,516원 적립을 영끌 가격은 2..
[RAG] Chroma와 FAISS 차이, 장단점 간단 정리
·
IT, Digital
서론RAG를 할 때 마주하는 것은 '어떤 DB를 써야되는가?'이다. 가장 많이 쓰이는 것이 Chroma와 FAISS인데 이번 포스팅에서는 이 두 벡터 데이터 베이스의 차이점에 대해 알아보도록 하겠다. 다른 RAG 시리즈 포스팅이 궁금하다면 아래 링크로 들어가길 바란다. Retrieval Augmented Generation(RAG) 복습 (1) RAG의 개념RAG란?Retrival : (언어 모델이 갖고 있지 않은 정보) 데이터를 가져오는 것.Augmented : AR/VR에서의 A도 Augmented임. 마치 있는 것처럼.Generation : 컴퓨터가 생성하는거 llm이 알아서 하는부분이다.여기서 R,Aquiseol.com FAISS란?FAISS는 엄밀히 말하면 vector data store가 아..
티스토리 하위 도메인으로 애드센스 승인 (2) 하위 도메인 블로그 에드센스 연결 및 주의사항
·
IT, Digital
서론지난 포스팅에서는 하위 도메인을 새 블로그에 입히는 방법에 대해서 알아보았다. 이번 포스팅에서는 하위 도메인 주소를 에드센스에 어떻게 등록(연동)하며, 연결할 때 주의사항은 뭔지에 대해서 알아보도록 하겠다. 주의 사항은 크게 에드센스 정책, 블로그 설정, 컨텐츠 개수에 대해서 언급할 계획이다.에드센스 연동 방법연동 방법은 이미 첫번째 블로그에서 한거랑 똑같다. 1. 스킨편집에 들어가서 2. html 편집을 누른 뒤, 항목 바로 아래에 3. 에드센스 광고 코드를 넣느 것이다. 참고로 관리 -> 수익 탭으로 들어가 adsense를 연동하기를 누르면 된다.하위 도메인 광고 설정에 대한 주의 사항 1) 애드센스 정책 관련낮은 퀄리티를 가진 사이트는 저품질 콘텐츠로 분류될 수 있다. 그래서 단순히 복붙을 해..