richardyoung
/

kat-dev-72b

 **Format:** GGUF | **Runtime:** Ollama / llama.cpp | **Created:** October 2025
 </div>
+## Hardware Requirements
+KAT-Dev 72B is a large coding model. Choose your quantization based on available VRAM/RAM:
+| Quantization | Model Size | VRAM Required | Quality |
+|:------------:|:----------:|:-------------:|:--------|
+| **Q2_K** | ~27 GB | 32 GB | Acceptable |
+| **Q3_K_M** | ~34 GB | 40 GB | Good |
+| **Q4_K_M** | ~42 GB | 48 GB | Very Good - recommended |
+| **Q5_K_M** | ~50 GB | 56 GB | Excellent |
+| **Q6_K** | ~58 GB | 64 GB | Near original |
+| **Q8_0** | ~77 GB | 80 GB | Original quality |
+### Recommended Setups
+| Hardware | Recommended Quantization |
+|:---------|:-------------------------|
+| RTX 4090 (24GB) | Q2_K with offloading |
+| 2x RTX 4090 (48GB) | Q4_K_M |
+| A100 (80GB) | Q8_0 |
+| Mac Studio M2 Ultra (192GB) | Q8_0 via llama.cpp |