Microsoft y Amazon ya lanzaron sus chatbots “médicos”: ¿tenemos un doctor digital en casa?
A principios de este mes de 2024, Microsoft soltó Copilot Health, una función dentro de su app Copilot que te permite enlazar tus historiales médicos y preguntarle a la IA cualquier cosa sobre tu salud, desde síntomas raros hasta dudas sobre tratamientos. No contentos con eso, Amazon anunció un par de días antes que su Health AI, hasta ahora exclusivo para usuarios de One Medical, estaría disponible para todo el público. Ojo, que esto no es el único jugador: OpenAI ya tenía operativa desde enero su ChatGPT Health y Anthropic ofrece a Claude, otro chatbot que puede tirar de registros médicos si le das permiso.
La movida está clara: la industria tecnológica se ha dado cuenta que los chatbots de salud están de moda (y de necesidad). Según datos de Microsoft, reciben 50 millones de preguntas al día sobre salud. Ni Spotify ni Netflix, el tema más popular en Copilot es la salud. Está todo dicho: hay demanda brutal. La gente quiere hacer consultas rápidas, fáciles, y sin tener que enfrentarse a las largas filas y burocracia del sistema tradicional.
Pero, ¿alguien se ha parado a pensar en qué tan fiables son estos asistentes virtuales? ¿Estamos poniéndonos la vida en manos de algoritmos que, más allá del marketing, no han sido revisados por ojos expertos? La respuesta no es sencilla, ni mucho menos. Porque si la confianza se da antes de comprobar que funcionan, podríamos estar caminando sobre un riesgo enorme.
¿Por qué salen ahora estos “doctores” digitales? No solo por IA
¿Llegó la inteligencia artificial a un punto de inflexión que la hace útil para salud? Sí, pero no es la única historia aquí.
Dominic King, vicepresidente de salud en Microsoft AI y ex cirujano, dice que el salto en tecnología generativa permite que estas IAs respondan preguntas médicas de forma decente. Pero ojo, que no es solo la tecnología: la demanda ha explotado. Si Microsoft ya recibía 50 millones de consultas diarias sobre salud en Copilot, OpenAI también reportaba un aumento en preguntas médicas en ChatGPT incluso antes de lanzar productos específicos para salud.
¿La explicación? El sistema sanitario tradicional está jodido. Para muchas personas, acceder a un doctor es imposible por tiempo, costo o ubicación. La IA aparece como la tabla de salvación instantánea, imparcial y disponible las 24 horas.
Girish Nadkarni, jefe de IA en Mount Sinai Health System, apunta al problema de acceso: “la gente está usando estas herramientas porque no tiene otro remedio”. El sueño de la IA en salud sería aliviar el cuello de botella en hospitales, ayudando en el triage: decidir quién necesita ir urgente y quién puede manejarse en casa con consejos digitales. Pero ojo que esto solo funciona si la IA acierta.
¿Pero funcionan bien? Cuando ChatGPT dice «pide ayuda urgente» o «tranqui, es un resfriado»
Aquí es donde la cosa se pone peliaguda. Un estudio de Mount Sinai reveló que ChatGPT Health a veces recomienda demasiado cuidado para gentuza con problemas leves (o sea, llenar emergencias por nada) y, más grave aún, pasa por alto casos realmente urgentes. El historial de esos chatbots con la salud no es para tirar cohetes.
Los desarrolladores han tratado de quitar peso al asunto: dicen que ChatGPT Health tiene un aviso clarito, dice que no sirve para diagnóstico ni tratamiento, y que es casi un “uso bajo tu propia responsabilidad”. Pero, vamos, que cualquier humano que confía en sus síntomas, cuando viene con el texto dorado del “consulta médica no profesional”, pasa ese banner como si nada.
Los riesgos son evidentes: desde dar diagnósticos fallidos, hasta planes de tratamiento que podrían empeorar la cosa. Para gente sin entendimiento médico, interpretar lo que le dice la IA puede ser un salto al vacío.
¿Qué están haciendo las empresas para evitar que la IA nos mande al hospital o a la tumba?
Las compañías no andan dormidas y están “probando” sus chatbots. OpenAI creó HealthBench, un conjunto de tests hechos con conversaciones generadas por IA para evaluar cuán bien responden los chatbots en temas médicos. Cuando lanzaron GPT-5, el modelo que mueve ChatGPT Health y Copilot Health, mostraron mejoras frente a generaciones anteriores, pero ni por asomo perfecto.
Pero hay una trampa terrible: evaluar con conversaciones generadas por IAs es un círculo vicioso con pinta de ilusión óptica. Los humanos no somos bots: si un usuario sin experiencia pregunta mal o no da datos correctos, el sistema puede responder basura. Un estudio en Oxford detectó que, aunque la IA reconozca un escenario escrito, los usuarios sin formación solo adivinan correctamente un tercio de las veces cuando usan la IA como ayudante.
Además, las versiones más recientes del modelo no siempre mejoran en pedir más contexto al usuario, algo crucial para un diagnóstico certero. GPT-5.4, el último en la línea, es peor en eso que GPT-5.2, una ironía tecnológica.
Andrew Bean, el responsable del estudio en Oxford, defiende que estos chatbots deberían tener ensayos clínicos con personas reales antes de salir a la calle. Pero esto choca con la velocidad vertiginosa del mundo AI, que no espera ni a que los humanos terminemos de probar cosas. Google, que trabaja con sistemas similares, lanzó un chatbot llamado AMIE y corrió un estudio en el que pacientes charlaban con la IA antes de ver al médico. Resultado: AMIE acertó tan bien como los doctores y no hubo problemas graves de seguridad. Más curioso aún, Google NO tiene planes de sacar AMIE al público ahora mismo. Por algo será.
La falta de control externo: ¿Quién verifica a los que nos quieren “ayudar” digitalmente?
Aquí el meollo del tema. Si las mismas empresas evalúan sus productos, sabiendo que un fallo les puede costar caro en imagen o regulatorio, y no ponen esa información para revisión externa, ¿a quién le creemos?
Adam Rodman, médico e investigador en inteligencia médica, lo dice claro: hacen falta evaluaciones de terceros independientes. Y no solo una, sino varias, para evitar sesgos y fallos de perspectiva.
Karan Singhal, líder salud en OpenAI, apoya esta idea. OpenAI lanzó HealthBench para que otros lo usen — “una especie de ejemplo para la comunidad”. Pero reconoce que producir evaluaciones serias cuesta muchísimo, y no espera que ningún laboratorio individual construya “la evaluación definitiva”.
Stanford tiene un proyecto llamado MedHELM que prueba chatbots en múltiples tareas médicas. GPT-5 ostenta el mejor resultado ahí, pero el sistema mide solo respuestas individuales, no conversaciones extensas, que es donde el riesgo real aparece.
Stanford y colaboradores están currando en mejorar esto, pero avanzan lento y sin mucho presupuesto, porque nadie pone la pasta. Nigam Shah, líder del proyecto, lo resume brutalmente: “Nosotros no podemos parar a estas empresas de salir a vender sus cosas, así que a lo que podemos aspirar es a montar evaluaciones que midan lo que hacen”.
¿Es aceptable tener “doctores imperfectos” en las apps?
Nadie pide que la IA sea infalible. Los médicos humanos se equivocan todo el tiempo. Para alguien que solo ve un doctor un par de veces al año, tener un chatbot disponible cada día, que pueda fallar de vez en cuando, pero que en general ayude a aclarar dudas básicas o reconocer emergencias, podría ser una mejora.
Pero que no se confunda nadie: el problema es que hoy no tenemos datos claros de si estos chatbots mejoran o empeoran la situación en la vida real, porque no están siendo evaluados bajo condiciones reales y con usuarios cotidianos.
¿Vale la pena arriesgar que un caso de emergencia pase desapercibido solo para que una IA sugiera hacer ejercicio o beber más agua a quienes tienen malestares leves? ¿Estamos jugando con fuego para saciar una demanda insatisfecha del sistema médico? Aquí no hay respuestas simples.
¿Estamos listos para el médico digital 24/7, o es solo hype con bata de laboratorio?
Mucha gente ya está haciéndole preguntas sobre salud a chatbots. Eso no se va a parar. Pero mientras las empresas sigan involucrándose en evaluar y lanzar sus productos sin el escrutinio riguroso de terceros, el peligro sigue ahí latente.
Que mejore la IA en formular preguntas es un avance, pero falta la pieza clave: pruebas humanas, reales, con diversidad de usuarios y condiciones, que nos digan si estas herramientas no nos están jugando una mala pasada.
¿Alguien cree sinceramente que un médico humano tendería a ignorar una emergencia por querer “no saturar” el sistema? La IA hoy lo hace. Y eso debería poner los pelos de punta.
Por ahora, tenemos un vaso medio lleno (nuevas herramientas) con un vaso medio vacío (falta de confianza y evaluaciones serias). ¿Seguimos apostando al “todo feliz” solo porque es cómodo, o exigimos más pruebas antes de entregarle nuestra salud a algoritmos? La pelota está en el campo del público, reguladores y comunidad investigadora. ¿Vamos a quedarnos de brazos cruzados mientras la IA “cura” o “mata” en piloto automático?
¿Eres de los que ya le preguntan al chatbot si están griposos, o prefieres aguantar la espera real en la consulta?
