โครงการ Ollama รองรับ MLX ทำงานเร็วขึ้นเท่าตัว ใช้ NVFP4 ได้ด้วย
Blognone [Unofficial]
April 1, 2026
โครงการ Ollama รองรับ MLX ทำงานเร็วขึ้นเท่าตัว ใช้ NVFP4 ได้ด้วย
Body
Ollama โครงการซอฟต์แวร์รัน LLM บนพีซียอดนิยมออกเวอร์ชั่น 0.19 มีความเปลี่ยนแปลงสำคัญคือรองรับเฟรมเวิร์ค MLX ที่ใช้สำหรับการรันปัญญาประดิษฐ์บนชิป Apple Silicon อย่างเป็นทางการ ทำให้ความเร็วในการรันสูงขึ้นมาก นอกจากนี้ยังรองรับโมเดลที่ quantize แบบ NVFP4 ที่เร่งความเร็วโดยเสียความแม่นยำน้อยลงด้วย
ทางโครงการทดสอบ Qwen3.5-35B-A3B แบบ NVFP4 บนชิป M5 พบว่ารัน prefill (ประมวลผลพรอมพ์) ได้ 1810 โทเค็นต่อวินาที เร็วขึ้น 57% ขณะที่การรัน decode ได้ 112 โทเค็นต่อวินาทีเร็วขึ้น 93% หรือเกือบเท่าตัว ทีมงานระบุว่าหากรันแบบ INT4 จะเร็วกว่านี้ขึ้นอีก
NVFP4 เป็นฟอร์แมตเลขทศนิยมแบบ 4-bit ของ NVIDIA โดยออกแบบให้ใช้เลขเพียง 4 บิตแต่มีเลข FP8 อีกหนึ่งค่าเพื่อ scale ค่าออกมาให้ตัวเลข 4-bit ใช้แสดงค่าได้ตรงมากขึ้น
ที่มา - Ollama
lew Wed, 01/04/2026 - 12:01
Discussion in the ATmosphere