Midjourney está jugando un juego peligroso al intentar pasar del arte a la anatomía. Durante años, el equipo ha perfeccionado el arte del “vibe” —imágenes que lucen impresionantes incluso si las manos tienen siete dedos o la física es solo una sugerencia. Pero en un entorno clínico, una “vibe” no diagnostica un tumor. El salto del arte generativo a la imagen médica no es un paso; es un salto a través de un cañón sin red de seguridad, y el equipo parece pensar que puede simplemente deslizarse sobre él apoyándose en unos pesos sofisticados.
Según el anuncio de Midjourney Medical, el cambio incluye:
La tensión fundamental aquí es la diferencia entre la plausibilidad estética y la precisión clínica. El éxito de Midjourney siempre se ha basado en el hecho de que no nos importa si una ciudad cyberpunk es físicamente posible mientras la iluminación sea atmosférica. La imagen médica es lo opuesto. Es esencialmente como un set de cine: parece una casa real desde la calle, pero no puedes vivir en ella porque no hay tuberías y las paredes son de cartón. Si un modelo genera una radiografía sintética que parece “realista” pero pasa por alto una fisura capilar o añade un nódulo fantasma, no es arte; es una responsabilidad legal. (Sospecho que están apostando por los datos sintéticos para evitar la pesadilla de privacidad de HIPAA). ¿Quién cree realmente que se puede confiar un informe de radiología a un modelo de difusión?
Luego está el muro regulatorio. Midjourney ha operado en el salvaje oeste de internet, raspando todo a la vista e iterando en público. Eso no funciona cuando necesitas la aprobación de la FDA. No puedes simplemente hacer un “vibe check” a una herramienta de diagnóstico. El anuncio lo hace sonar sin fisuras, pero la fricción de la validación clínica es inmensa. Es como pedirle a un ilustrador de moda de clase mundial que dibuje un mapa para que lo siga un cirujano; las líneas pueden ser hermosas, pero las coordenadas deben ser exactas. Si el modelo “alucina” un vaso sanguíneo en un lugar donde no debería estar, el resultado no es una pieza de arte extraña; es un error quirúrgico.
Si esto se trata realmente de crear datos sintéticos para que otros modelos aprendan de ellos, es una jugada más inteligente. Entrenar un clasificador con imágenes sintéticas es un camino conocido, aunque a menudo conduce al colapso del modelo si los datos sintéticos comienzan a retroalimentar el bucle de entrenamiento. Sin embargo, la marca sugiere algo más directo. Si apuntan a la asistencia diagnóstica, están caminando directamente hacia una sierra de responsabilidad legal. Apuesto a que veremos un giro silencioso hacia la “visualización educativa” en lugar de “diagnóstico clínico” para el cuarto trimestre de este año. Se darán cuenta de que la distancia entre un render anatómico genial y un dispositivo médico es un foso regulatorio que no pueden saltar.
También tenemos que hablar de la fricción real del cómputo. Generar un render anatómico de alta resolución no es barato, y la latencia es un problema (lo cual es una pesadilla para cualquiera que haya intentado usar un portal hospitalario). Si están empujando estos modelos a un flujo de trabajo clínico, el costo por imagen será un punto de fricción para cualquier administrador hospitalario que ya esté peleando con el departamento de TI por un sistema de EHR lento. Los requisitos de hardware para la salida de alta fidelidad por la que es conocido Midjourney no encajan exactamente con la infraestructura austera y envejecida de una clínica estándar. Están intentando poner un motor de Fórmula 1 en un Honda Civic de 1998.
La belleza no es un sustituto de una biopsia.