¿Realmente necesitamos que nuestro text-to-speech funcione de forma local? Sí, pero solo si no convierte nuestros portátiles en calefactores mientras intentamos usarlos de verdad. Durante demasiado tiempo, la industria ha tratado el «on-device» como un buzzword de marketing en lugar de un requisito técnico. Nos han dado una dieta de modelos masivos en la nube que suenan genial en una demo curada, pero se sienten como una carga en producción debido a la latencia de ida y vuelta. En el momento en que introduces un salto de red en una interacción por voz, ya has perdido la batalla por la conversación natural. La mayoría de las soluciones «locales» que hemos visto últimamente no hacen más que envolver una API de la nube en un envoltorio bonito, o requieren una GPU que cuesta más que el primer coche de un desarrollador medio.
Por eso la publicación de supertonic es interesante. No intenta superar en parámetros a los gigantes; en su lugar, se centra en el trabajo aburrido y difícil de hacer que el TTS multilingüe funcione de forma nativa mediante ONNX. Para los que hemos pasado tiempo en las trincheras del despliegue, ONNX es la única forma sensata de gestionar el caos fragmentado del hardware local. Permite que un modelo se mueva realmente entre diferentes runtimes sin obligar al desarrollador a reescribir todo el motor de inferencia cada vez que sale un chip nuevo (o eso sugiere la documentación). Al apuntar a un runtime que sea realmente portable, están atacando el mayor punto de fricción en la IA local: el proceso de instalación.
Por supuesto, «ultrarrápido» es un término relativo. La fricción en el mundo real siempre se reduce al entorno de ejecución y a la versión específica de ONNX con la que estás luchando en un SO dado. Hay un tipo de infierno específico reservado para los desarrolladores que intentan alinear runtimes de C++ entre Windows y Linux mientras mantienen el uso de VRAM por debajo de un techo que no haga fallar el resto del sistema. Incluso con un modelo optimizado, sigues a merced del hardware del usuario. Si los pesos son demasiado pesados para un portátil de gama media o si el ancho de banda de memoria está limitado, las ganancias de velocidad son puramente académicas. O quizás no: si la cuantificación es lo suficientemente ajustada, podría ser realmente usable.
Aun así, el movimiento estratégico aquí es el giro lejos de la nube. La obsesión con los modelos masivos y centralizados ha creado un cuello de botella que hace que los agentes en tiempo real se sientan torpes y robóticos. Usar un TTS basado en la nube para un agente local es como intentar mantener una conversación a través de una mala llamada de larga distancia de 1994: pasas la mitad del tiempo esperando a que la otra persona se dé cuenta de que has terminado tu frase. ¿A quién le gusta esperar tres segundos por una respuesta de voz en un bucle en tiempo real? Mata la UX y hace que todo el concepto de «asistente de IA» se sienta más como un juguete que como una herramienta.
La industria necesita dejar de perseguir el MOS (Mean Opinion Score) más alto posible en el vacío y empezar a priorizar la «última milla» de la ejecución. Un modelo que suene un 5 % menos humano pero que responda en 50 milisegundos es infinitamente más útil que una voz perfecta que tenga lag. Hemos llegado a un punto de rendimientos decrecientes en la fidelidad de audio; la verdadera frontera ahora es la brecha temporal entre la entrada y la salida. Si no puedes interrumpir a la IA porque el servidor sigue procesando el token anterior, no tienes una conversación: tienes una serie de monólogos.
Para el cuarto trimestre, veremos una oleada de agentes de IA locales que abandonarán por completo el TTS en la nube para evitar este impuesto de latencia, avanzando hacia un estándar donde la voz sea una parte integrada del binario local en lugar de una llamada a API. Este cambio obligará a un ajuste de cuentas para los proveedores de API que han estado cobrando por carácter por algo que ahora se puede hacer en un MacBook decente. El valor se está desplazando de los pesos del modelo a la optimización del runtime. Quien haga que la voz se sienta más «instantánea» gana, independientemente de si tiene más parámetros.
Es una victoria para el edge, siempre que los pesos realmente quepan.