Escribe para buscar · Enter para resultados completos

Lab · Arena LLM local

¿Qué modelo local gana en qué?

Mismos prompts, misma máquina, juez local. Sin APIs en la nube. Cada modelo en Ollama pasa por 178 tests en 16 categorías.

17 models · 178 tests · AMD Strix Halo · 96 GB VRAM · Ollama 0.23

#1 9.5 gemma4:31b 31.3B · 262K ctx #2 9.1 qwen3.6:latest 36.0B · 262K ctx #3 8.7 gemma4:e4b 8.0B · 131K ctx

Clic en columnas para ordenar · Clic en un modelo para el desglose

Model Global agenticaudiocodefrontendinstructionlong-contextmathmultilingual Tests tok/s Time
gemma4:31b 31.3B · Q4_K_M · 18.5 GB VisionToolsThinking 9.5 9.9 9.1 10.0 9.7 10.0 10.0 9.5 170/178 9.3 2 h 5 min
qwen3.6:latest 36.0B · Q4_K_M · 22.3 GB VisionToolsThinking 9.1 9.9 8.9 10.0 8.7 10.0 10.0 9.1 170/178 44.2 54 min 47 s
gemma4:e4b 8.0B · Q4_K_M · 8.9 GB VisionToolsThinking 8.7 9.5 8.2 8.2 8.7 9.1 9.2 9.0 8.8 178/178 44.4 54 min 27 s
mistral-small3.2:latest 24.0B · Q4_K_M · 14.1 GB VisionTools 8.5 9.8 8.6 8.8 8.8 9.1 8.0 8.5 152/160 14.7 1 h 1 min
gemma3:12b 12.2B · Q4_K_M · 7.6 GB Vision 8.4 9.4 7.9 7.0 9.4 9.4 7.5 8.2 152/160 24.2 43 min 54 s
jobautomation/OpenEuroLLM-Spanish:latest 12.2B · Q4_K_M · 7.6 GB Vision 8.3 9.3 7.8 7.4 8.6 9.4 7.9 8.1 152/160 9.6 1 h 48 min
milkey/Seed-OSS-36B-Instruct:q4_K_M 36.2B · Q4_K_M · 20.3 GB ToolsThinking 8.3 9.7 8.8 8.4 9.1 8.0 10.0 8.0 144/160 9.6 2 h 9 min
qwen3.6:latest · Lemonade · GGUF · 20.1 GB VisionTools 8.3 18/18 42.6 6 min 52 s
qwen3-coder-next:latest 79.7B · Q4_K_M · 48.2 GB Tools 8.2 9.1 8.9 9.1 8.7 7.3 9.0 7.4 144/160 35.0 56 min 48 s
deepseek-r1:32b 32.8B · Q4_K_M · 18.5 GB Thinking 8.1 9.4 8.4 7.8 8.7 9.9 8.0 7.9 144/160 10.9 1 h 13 min
gemma4:31b · Lemonade · GGUF · 17.0 GB VisionTools 8.1 18/18 8.1 49 min 20 s
gpt-oss:20b 20.9B · MXFP4 · 12.8 GB ToolsThinking 7.6 9.3 9.0 7.2 8.0 9.9 8.2 6.4 144/160 48.2 55 min 13 s
qwen2.5:7b 7.6B · Q4_K_M · 4.4 GB Tools 7.4 9.0 7.5 6.9 8.6 8.4 7.2 8.0 144/160 44.0 16 min 5 s
mistral-nemo:12b 12.2B · Q4_0 · 6.6 GB Tools 7.2 9.2 7.1 7.0 8.4 9.0 4.6 7.7 144/160 27.7 26 min 31 s
qwen2.5vl:7b 8.3B · Q4_K_M · 5.6 GB Vision 7.1 8.9 7.0 6.3 8.7 9.3 9.8 7.5 152/160 37.8 34 min 21 s
aya-expanse:8b 8.0B · Q4_K_M · 4.7 GB Tools 7.0 8.9 6.5 6.2 8.8 7.8 4.3 7.5 144/160 38.1 19 min 32 s
gemma4:e4b · Lemonade · GGUF · 5.2 GB VisionTools 7.0 18/18 11.4 2 min 20 s

FAQ — Benchmarks LLM locales

¿Qué es la Arena LLM local de NCN?
Un benchmark reproducible: los mismos prompts en cada modelo Ollama con hardware fijo (AMD Strix Halo, 96 GB), evaluado por un juez local en 16 categorías.
¿Qué LLM local es mejor en global?
El ranking cambia al añadir modelos. Usa la tabla superior para ver el líder global y los ganadores por categoría.
¿Cómo se calculan las puntuaciones?
Cada modelo ejecuta los mismos tests automáticos más un juez local. Puntuación 0–10 por categoría y media global ponderada. Transcripts completos en Murray's Lab.
¿Puedo reproducir estos benchmarks?
Sí. Mismos modelos Ollama, misma batería de tests, inferencia solo local. Publicamos metodología y enlaces a ejecuciones en murrayslab.com/lab/llms/.

Equipo de benchmark

  • CPU AMD Ryzen AI Max+ 395 · 16C/32T · Zen 5
  • GPU Radeon 8060S · 40 CUs · 96 GB unified VRAM
  • Stack Ollama 0.23 · Ubuntu 24.04 · ROCm
  • Método Auto-checks + juez local · logs completos de prompts/respuestas