06.10.2025 Выпуск 617 (06.10.2025 - 12.10.2025) Статьи

GGUF: квантизация с калибровкой (imatrix)

Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp в частности, поскольку придерживаюсь мнения, что 1-2% потери в точности и отсутствие некоторых плюшек - не так важно, по сравнению с удобством деплоя, спекулятивным декодингом, многократным приростом скорости, динамическим оффлодом в память системы и возможностью запускать модели на любом "ведре", навроде древних зионов, андройдофонов, малинок или, скажем, макбуков.

IT-новости про Python, которые стоит знать

GGUF: квантизация с калибровкой (imatrix)