GPTQ

GPTQ là một định dạng checkpoint lượng tử hóa (quantized), khá phổ biến trước khi GGML ra đời. Nó cần tải toàn bộ mô hình vào GPU trước khi chạy. Ưu điểm của GPTQ là nhanh hơn GGML/GGUF một chút vì chạy 100% trên GPU. Tuy nhiên, nhược điểm là không có nhiều lựa chọn về kích thước và không chạy được trên CPU. AWQ cũng là một định dạng lượng tử hóa mới, tương tự như GPTQ.

Các thuật ngữ liên quan

Facebook Messenger

fb.com/toidicodedao

Email Support

[email protected]

Telegram

t.me/hoccodeai