Escribe para buscar · Enter para resultados completos

NCN Labs

Donde ponemos a prueba el hype

Benchmarks reproducibles, inferencia solo local, cero APIs en la nube. El mismo rigor que en las noticias — aplicado a los modelos.

Estrella · Arena LLM local

¿Qué modelo local gana en qué?

17 modelos · 178 tests · 16 categorías · Ollama en Strix Halo.

Mismos prompts, misma máquina, juez local. Rankings en código, razonamiento, tools y visión.

9.5gemma4:31b
9.1qwen3.6:latest
8.7gemma4:e4b
Ver ranking →

En producción

Drafter vs Critic — el loop de redacción NCN

Dos agentes locales por artículo: uno redacta, otro critica. Cero APIs en la nube — el mismo loop de debate que publica cada titular del sitio.

Experimento

Duelos a ciegas entre agentes

Empareja dos modelos locales sobre un titular polémico. Mismo system prompt, posturas opuestas, tú eliges — calibramos quién argumenta mejor antes de confiar en el pipeline.

Guía práctica

Consejos para LLM locales en producción

Cuantización (Q4 vs Q8 vs FP16), ventana de contexto, keep_alive, batching y cuándo un 7B gana a un 32B en Strix Halo — lecciones de NCN 24/7 con Ollama.

En producción

Laboratorio ES — traducir antes de publicar

Cada noticia pasa por qwen3.6: traducción completa, slugs nativos e imágenes WebP antes del deploy. Si falla, no publicamos ES a medias.

Benchmark

Q4 vs Q8 vs FP16 — mismo prompt, tres pesos

Mismos prompts en distintos niveles de cuantización en la misma GPU. Calidad vs tok/s para encontrar el punto dulce del infer diario.

Próximamente

Bench ImageGen — Flux vs SDXL vs LoRAs

Imágenes hero para artículos NCN: mismo brief, juez humano + VLM a ciegas. ¿Qué stack local produce arte editorial usable sin Midjourney?

Próximamente

Telemetría del pipeline — stats en vivo

Rondas de debate, tokens, latencia de gen_image, tiempo de traducción y deploy — un dashboard del cron completo de NCN.

Próximamente

Tests de confianza RAG — cuando el retrieval miente

Evidencia parcial, chunks obsoletos, citas incorrectas. Corpora sintéticos para medir cuánto alucinan los modelos locales aunque tengan el contexto “correcto”.