Lab · Arena LLM local
¿Qué modelo local gana en qué?
Mismos prompts, misma máquina, juez local. Sin APIs en la nube. Cada modelo en Ollama pasa por 178 tests en 16 categorías.
Clic en columnas para ordenar · Clic en un modelo para el desglose
| Model | Global | agentic | audio | code | frontend | instruction | long-context | math | multilingual | Tests | tok/s | Time |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| gemma4:31b VisionToolsThinking | 9.5 | 9.9 | — | 9.1 | 10.0 | 9.7 | 10.0 | 10.0 | 9.5 | 170/178 | 9.3 | 2 h 5 min |
| qwen3.6:latest VisionToolsThinking | 9.1 | 9.9 | — | 8.9 | 10.0 | 8.7 | 10.0 | 10.0 | 9.1 | 170/178 | 44.2 | 54 min 47 s |
| gemma4:e4b VisionToolsThinking | 8.7 | 9.5 | 8.2 | 8.2 | 8.7 | 9.1 | 9.2 | 9.0 | 8.8 | 178/178 | 44.4 | 54 min 27 s |
| mistral-small3.2:latest VisionTools | 8.5 | 9.8 | — | 8.6 | 8.8 | 8.8 | 9.1 | 8.0 | 8.5 | 152/160 | 14.7 | 1 h 1 min |
| gemma3:12b Vision | 8.4 | 9.4 | — | 7.9 | 7.0 | 9.4 | 9.4 | 7.5 | 8.2 | 152/160 | 24.2 | 43 min 54 s |
| jobautomation/OpenEuroLLM-Spanish:latest Vision | 8.3 | 9.3 | — | 7.8 | 7.4 | 8.6 | 9.4 | 7.9 | 8.1 | 152/160 | 9.6 | 1 h 48 min |
| milkey/Seed-OSS-36B-Instruct:q4_K_M ToolsThinking | 8.3 | 9.7 | — | 8.8 | 8.4 | 9.1 | 8.0 | 10.0 | 8.0 | 144/160 | 9.6 | 2 h 9 min |
| qwen3.6:latest · Lemonade VisionTools | 8.3 | — | — | — | — | — | — | — | — | 18/18 | 42.6 | 6 min 52 s |
| qwen3-coder-next:latest Tools | 8.2 | 9.1 | — | 8.9 | 9.1 | 8.7 | 7.3 | 9.0 | 7.4 | 144/160 | 35.0 | 56 min 48 s |
| deepseek-r1:32b Thinking | 8.1 | 9.4 | — | 8.4 | 7.8 | 8.7 | 9.9 | 8.0 | 7.9 | 144/160 | 10.9 | 1 h 13 min |
| gemma4:31b · Lemonade VisionTools | 8.1 | — | — | — | — | — | — | — | — | 18/18 | 8.1 | 49 min 20 s |
| gpt-oss:20b ToolsThinking | 7.6 | 9.3 | — | 9.0 | 7.2 | 8.0 | 9.9 | 8.2 | 6.4 | 144/160 | 48.2 | 55 min 13 s |
| qwen2.5:7b Tools | 7.4 | 9.0 | — | 7.5 | 6.9 | 8.6 | 8.4 | 7.2 | 8.0 | 144/160 | 44.0 | 16 min 5 s |
| mistral-nemo:12b Tools | 7.2 | 9.2 | — | 7.1 | 7.0 | 8.4 | 9.0 | 4.6 | 7.7 | 144/160 | 27.7 | 26 min 31 s |
| qwen2.5vl:7b Vision | 7.1 | 8.9 | — | 7.0 | 6.3 | 8.7 | 9.3 | 9.8 | 7.5 | 152/160 | 37.8 | 34 min 21 s |
| aya-expanse:8b Tools | 7.0 | 8.9 | — | 6.5 | 6.2 | 8.8 | 7.8 | 4.3 | 7.5 | 144/160 | 38.1 | 19 min 32 s |
| gemma4:e4b · Lemonade VisionTools | 7.0 | — | — | — | — | — | — | — | — | 18/18 | 11.4 | 2 min 20 s |
FAQ — Benchmarks LLM locales
- ¿Qué es la Arena LLM local de NCN?
- Un benchmark reproducible: los mismos prompts en cada modelo Ollama con hardware fijo (AMD Strix Halo, 96 GB), evaluado por un juez local en 16 categorías.
- ¿Qué LLM local es mejor en global?
- El ranking cambia al añadir modelos. Usa la tabla superior para ver el líder global y los ganadores por categoría.
- ¿Cómo se calculan las puntuaciones?
- Cada modelo ejecuta los mismos tests automáticos más un juez local. Puntuación 0–10 por categoría y media global ponderada. Transcripts completos en Murray's Lab.
- ¿Puedo reproducir estos benchmarks?
- Sí. Mismos modelos Ollama, misma batería de tests, inferencia solo local. Publicamos metodología y enlaces a ejecuciones en murrayslab.com/lab/llms/.
Equipo de benchmark
- CPU AMD Ryzen AI Max+ 395 · 16C/32T · Zen 5
- GPU Radeon 8060S · 40 CUs · 96 GB unified VRAM
- Stack Ollama 0.23 · Ubuntu 24.04 · ROCm
- Método Auto-checks + juez local · logs completos de prompts/respuestas
Catálogo completo y datos en bruto también en Murray's Lab ↗