LLM Quantization
LLM Quantization (lượng tử hóa LLM) là một kỹ thuật được sử dụng để giảm kích thước của mô hình ngôn ngữ lớn (LLM) và tăng tốc độ xử lý. Nó hoạt động bằng cách giảm độ chính xác của trọng số mô hình, thường là từ số thực 32-bit xuống số nguyên 8-bit. Điều này giúp bạn có thể chạy mô hình với ít VRAM hơn, cho phép chạy LLM trên các thiết bị có tài nguyên hạn chế. Trong khóa học này, bạn sẽ tìm hiểu thêm về LLM Quantization và các kỹ thuật tối ưu hóa khác cho LLM. Với lượng tử hóa, bạn có thể chạy LLM 7B trên CPU hoặc GPU chỉ với 4-8GB VRAM.
Các thuật ngữ liên quan
Chào mừng bạn đến với HocCodeAI 👋
Bài viết này là một phần của Danh sách thuật ngữ HocCodeAI.
Hãy ghé thăm trang chủ hoccodeai.com để khám phá thêm nhiều bài viết hữu ích.
Nhớ xem thử khóa học Generative AI của bọn mình để nâng cao kỹ năng của bạn nhé!
Hãy ghé thăm trang chủ hoccodeai.com để khám phá thêm nhiều bài viết hữu ích.
Nhớ xem thử khóa học Generative AI của bọn mình để nâng cao kỹ năng của bạn nhé!