Quantization
Quantization (lượng tử hóa) là kỹ thuật giảm độ chính xác của trọng số mô hình, thường từ số thực 32 bit xuống số nguyên 8 bit, giảm 75% dung lượng cần dùng. Điều này cho phép chạy mô hình với ít VRAM hơn. Ví dụ, thay vì lưu trọng số 3.12923293820198230809809809, ta chỉ lưu số 3. Cách lưu này tốn ít dung lượng hơn nhưng không chính xác bằng. Với lượng tử hóa, bạn có thể chạy LLM 7B trên CPU hoặc GPU chỉ với 4-8GB VRAM. Khóa học cũng đề cập đến LLM Quantization, kỹ thuật áp dụng quantization cho LLM.
Các thuật ngữ liên quan
Chào mừng bạn đến với HocCodeAI 👋
Bài viết này là một phần của Danh sách thuật ngữ HocCodeAI.
Hãy ghé thăm trang chủ hoccodeai.com để khám phá thêm nhiều bài viết hữu ích.
Nhớ xem thử khóa học Generative AI của bọn mình để nâng cao kỹ năng của bạn nhé!
Hãy ghé thăm trang chủ hoccodeai.com để khám phá thêm nhiều bài viết hữu ích.
Nhớ xem thử khóa học Generative AI của bọn mình để nâng cao kỹ năng của bạn nhé!