
Hugging Face에 대해 알아보자 (4) Quantization
·
IT, Digital
서론지난 포스팅에서는 Hugging Face를 활용한 generator에 대해 알아보았다. 이번 포스팅에서는 Quantizaion에 대해서 알아보겠다. Quantization의 역할이 뭐고, 어떻게 구현하는지에 대해서 차근차근 서술할 계획이다. 그리고 이번 포스팅을 위해서는 Llama 3.1에 접근할 수 있어야 되는데, 이를 위해서는 https://huggingface.co/meta-llama/Meta-Llama-3.1-8B에 들어가서 로그인하고 access를 요청해야된다. 신청하면 몇분만에 바로 되지는 않고, 두시간 정도 뒤에 될 것이다. 최소 나는 그랬음.Quantization이란?Quantizaion은 메모리 로드 시 32-bit에서 8-bit 내지 4-bit으로 가중치의 precision을 낮추는..