Quantization

Quantization (lượng tử hóa) là kỹ thuật giảm độ chính xác của trọng số mô hình, thường từ số thực 32 bit xuống số nguyên 8 bit, giảm 75% dung lượng cần dùng. Điều này cho phép chạy mô hình với ít VRAM hơn. Ví dụ, thay vì lưu trọng số 3.12923293820198230809809809, ta chỉ lưu số 3. Cách lưu này tốn ít dung lượng hơn nhưng không chính xác bằng. Với lượng tử hóa, bạn có thể chạy LLM 7B trên CPU hoặc GPU chỉ với 4-8GB VRAM. Khóa học cũng đề cập đến LLM Quantization, kỹ thuật áp dụng quantization cho LLM.

Các thuật ngữ liên quan

Facebook Messenger

fb.com/toidicodedao

Email Support

[email protected]

Telegram

t.me/hoccodeai