¿Recordáis cuando teníais que conformaros con el zumbido robótico de los primeros TTS de código abierto, donde la única forma de conseguir “emoción” era ajustar manualmente los controles de tono hasta que la voz sonara como un microondas averiado?
Una arquitectura de 8B de parámetros para un modelo TTS es una elección extraña. La mayoría de las opciones de TTS local intentan mantenerse ligeras para evitar competir por VRAM con el LLM que impulsa la conversación. En fp16, estamos hablando de unos 16 GB de VRAM solo para cargar los pesos. Si usas una 3090 o 4090, tienes margen de sobra, pero si intentas encadenar esto con un Llama 3.3 70B (cuantizado), las cosas se ponen ajustadas muy rápido.
La verdadera pregunta es qué de prisa llega la cuantización. Si conseguimos una versión GGUF o EXL2 que reduzca la huella a 5-8 GB, esto se convierte en un compañero viable para casi cualquier equipo moderno. Sin ello, es un lujo para quienes tengan configuraciones con doble GPU o Mac M3/M4 Ultra con memoria unificada. (Y seamos honestos, la latencia en una primera pasada probablemente será irritante). Para agosto, veremos los primeros fine-tunes de alta calidad para voces de personajes específicos llegar a Hugging Face.
El dominio de los pesos abiertos para audio ha estado controlado durante un tiempo por modelos como XTTSv2 y Fish Speech. Esos modelos son geniales para clonar, pero a menudo luchan con una verdadera variación emotiva: suenan como una persona leyendo un guion, no como una persona sintiendo algo. MisoTTS apunta a solucionar esto condicionando tanto el texto como el contexto de audio.
Es la diferencia entre un teclado MIDI y un piano de cola real; uno marca las notas, el otro tiene dinámica. Si Miso Labs cumple realmente con la afirmación de “emotivo”, se han saltado la fila. Sin embargo, el tamaño de 8B sugiere que están tirando parámetros al problema en lugar de encontrar un truco arquitectónico más eficiente. Si ese peso extra se traduce en una diferencia notable en el “alma” o solo en una pronunciación ligeramente mejor de palabras complejas, ya veremos.
Según el lanzamiento de Miso Labs, el modelo utiliza Cuantización de Vector Residual (RVQ) para escalar su rango sonoro sin hacer explotar aún más el número de parámetros. Para los devs que leen esto, RVQ básicamente permite al modelo representar señales de audio complejas de una forma más comprimida y jerárquica. Empareja una columna vertebral de 7.7B con una profundidad de 300M, lo cual es una distribución extraña.
¿Por qué irse tan grande? Porque el habla emotiva no es solo cuestión de tono; se trata de las microfluctuaciones en la respiración, el ritmo y el matiz que suelen suavizarse en modelos más pequeños. Al usar RVQ, están intentando capturar esa matización de alta fidelidad sin necesitar un modelo de 30B que requiriera una A100 solo para decir “hola”.
“Pesos abiertos” es un término que se ha convertido últimamente en un juego de manos. Algunos labs dicen “pesos abiertos” pero luego le pegan una licencia que prohíbe el uso comercial o exige un pago de regalías una vez que superas un cierto techo de ingresos. Necesitamos estar claros sobre si MisoTTS es realmente permisivo o solo “abierto para aficionados”.
Si la licencia es una personalizada y restrictiva, la comunidad profesional la ignorará. Los devs quieren Apache 2.0 o MIT. No quieren pasar tres semanas integrando un modelo en un pipeline solo para descubrir que deben a Miso Labs un porcentaje de su ARR. Si esto es de acceso restringido o es restrictivo, es solo una demostración vistosa. Si es realmente abierto, es una herramienta.
El juego del TTS local acaba de volverse mucho más interesante.