Inteligencia artificial en salud: ¿qué pasa cuando el ChatGPT hace de médico?

Nacionales 11/03/2026

Inteligencia artificial en salud: ¿qué pasa cuando el ChatGPT hace de médico?

Los desafíos de los chatbots aplicados a la medicina

FOTOS

Es una gran verdad que sobrevuela internet: no hay que buscar síntomas de enfermedades en Google. El resultado, justifica el mandamiento implícito, será siempre más grave de lo que verdaderamente es. Sin embargo, este imperativo está cambiando debido al avance de la inteligencia artificial y, sobre todo, de los Grandes Modelos de Lenguaje (LLM), que responden al instante sobre prácticamente cualquier tema impostando la autoridad de los expertos.

Esto explica por qué grandes empresas como OpenAI, la firma detrás del ChatGPT, se focalizaron particularmente en este nicho. En el caso de esta empresa, conducida por Sam Altman, el producto fue denominado ChatGPT Health, lanzado a comienzos del 2026 y supuestamente especializado para responder consultas de salud y proteger los datos de los usuarios con más intensidad.

Si bien OpenAI aclara explícitamente que su aplicación "no está destinada al diagnóstico ni al tratamiento" médico, un estudio realizado por investigadores de The Mount Sinai Hospital, en Nueva York, puso a prueba al bot de inteligencia artificial y determinó que deja mucho que desear sobre el correcto diagnóstico de pacientes

Un examen reprobado

Según la investigación, donde se le dieron a médicos y a la IA 60 casos con leves modificaciones superficiales, el chat hizo en un 51.6% de los casos un "bajo triaje", es decir, en casos de emergencia recomendó esperar de 24 a 48 horas; y en un 64.8% de los escenarios, un "sobre-triaje", recomendando ver a un médico innecesariamente.

En los casos límite, el 96% de las veces la IA recomendó algo que los médicos consideran seguro. Es decir, no recomendó esperar cuando era urgente la atención médica. Sin embargo, la IA tendió a elegir la opción menos urgente: aunque su respuesta era "segura", el chatbot demostró un sesgo de tranquilidad. El 60,8% de las veces eligió la opción más lenta entre las dos que eran aceptables.

ChatGPT Health performance in a structured test of triage recommendations (captura)

En el cuadro publicado en la versión anticipada del estudio, al que pudo acceder Página|12, se muestra la comparación entre las recomendaciones de triaje de la IA y el estándar clínico. Por ejemplo, si se ve la columna A, donde la recomendación correcta es permanecer en el hogar, ChatGPT recomendó bien un 35% de las veces, pero 54% recomendó estudios de rutina y en un 10% una atención urgente.

Además, el estudio informa que usó historias médicas escritas por especialistas, cuando en la realidad los pacientes suelen olvidarse de contar síntomas importantes o no entienden bien las instrucciones del bot.

Si la IA ya falló en el 51,6% de las emergencias con información limpia y clara, aseguran, es casi seguro que fallará mucho más con la información incompleta o confusa que da una persona real.

El impacto, en números

Los datos que da a conocer el estudio cobran una relevancia mayor si se analiza la cantidad de usuarios que utilizan este sistema todos los días. Según datos de la propia empresa, se trata de 40 millones de personas que diariamente consultan el chatbot sobre temas vinculados a salud, esto es un 5% de todos los mensajes globales en la plataforma.

Algunos datos extra justifican estos indicadores: 7 de cada 10 conversaciones sobre salud en ChatGPT ocurren fuera del horario normal de las clínicas. Y en su gran mayoría (55%) de los casos se usa para "explorar síntomas", mientras que el 48% la usa para "entender términos médicos" y el 44% para "aprender sobre opciones de tratamiento".

El autor líder del estudio, el médico Ashwin Ramaswamy, agregó una explicación a NBC News, y dijo que una gran diferencia es que con la IA el paciente "puede revisar cada pregunta, cada detalle, de cada documento que quiera subir". Y añadió: "Y satisface esa necesidad. La gente realmente quiere no solo consejo médico, sino también un compañero, como un terapeuta médico".

De médicos a burócratas

El cardiólogo y genetista estadounidense Eric Topol advierte en su libro Deep Medicine que el tiempo real que los médicos dedican a cada paciente se ha reducido a niveles mínimos. En los Estados Unidos, la visita promedio dura apenas siete minutos para pacientes habituales y doce para nuevos, mientras que en otros sistemas la situación puede ser aún más extrema: en el Centro Médico Samsung de Corea del Sur, relata el autor, las consultas promedian solo dos minutos.

Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again (Gentileza -)

El problema no es solo la brevedad de la consulta. Topol sostiene que los historiales médicos electrónicos cambiaron la dinámica dentro del consultorio, desplazando la atención del paciente hacia la pantalla. Algo que, en Argentina, también ocurre, según explica a Página|12 Juan Eduardo San Román, expresidente de la Sociedad Argentina de Terapia Intensiva y exjefe de Terapia Intensiva del Hospital Italiano: "Pedís una ecografía y tenés que justificar la medida. Si no, el seguro no la paga. Entonces lo que se pensaba que iba a facilitar al médico porque iba a dejar de escribir, lo transformó en alguien que está permanentemente haciendo expedientes".

Por eso, explica que la IA dentro de los consultorios debería tener otra lógica, como grabar una charla "e inmediatamente volcarla en la historia clínica como un resumen de lo que hablamos". "Ahí el médico dejaría de darse vuelta a escribir. El primer paso de una IA debería ser sacarle la carga administrativa, para que pueda volver a tener tiempo con el paciente", plantea.

Una relación desigual

En la medicina, explica San Román, hay un aforismo que dice que quien no sabe lo que busca, no comprende lo que encuentra. Esto explica por qué la relación paciente-inteligencia artificial, como demuestran los datos, está mediada por errores, alucinaciones y encierra riesgos palpables. Es un vínculo desigual en el que el paciente no termina de ver este complejo escenario.

Entonces, ¿qué deben tener en cuenta los usuarios que usen un chatbot para volcar preguntas acerca de su salud?

"¿Qué pasa con la gente que usa ChatGPT? ¿Vamos a combatirlo? No, porque la gente lo va a utilizar igual aunque vos le digas que no. Si tenés un hijo y salís de una consulta donde te dicen que tiene un cáncer, ¿no vas a buscar una segunda opinión? Por supuesto. En un médico. Pero ahora también podés encontrarla en internet, en páginas de hospitales grandes que tienen secciones para pacientes", dice San Román en su oficina en el Instituto de Medicina Traslacional del Conicet y el Hospital Italiano.

Y agrega: "El médico debe acompañarlo, no enojarse porque el familiar quiere consultar. Pero la autonomía total no es buena; lo que se necesita es supervisión médica. Lo mejor sería que el paciente tuviera una entrevista con un médico y que el médico le recomiende una aplicación para que él pueda hacer seguimiento de su enfermedad. Las aplicaciones son muy útiles no para ser autónomas y reemplazar al médico, sino para ser herramientas de ayuda en el control".

- Vos antes decías que es inevitable, que los pacientes lo van a usar de todas formas. ¿Qué consejo se le puede dar a alguien que igual va a usarlo?

- El consejo es que nadie te puede decir cuánto de eso es falible o infalible, salvo para aplicaciones muy específicas que hayan pasado las pruebas de concepto, exactamente lo que hicieron en este estudio: estresaron el sistema, fabricaron un paciente, le cambiaron cosas y vieron cómo patinaba. Entonces, si quiere usarlo, puede. Además lo va a usar independientemente de que yo lo aconseje o no. Primero: pregúntele a su médico cuáles son las mejores opciones disponibles, qué páginas debería abrir y cuáles no. Y luego, cuando empiece a usarlo, que no deje de chequearlo periódicamente con supervisión médica. Que no piense que la aplicación le va a evitar la consulta, porque lo más probable es que en algún momento se equivoque y ya sea tarde.

Los LLM no son toda la inteligencia artificial

En su libro AI Snake Oil, el informático y profesor en la Universidad de Princeton Arvind Narayanan, propone un recorrido inicial didáctico: pide imaginar un mundo donde las personas no tienen diferentes palabras para los distintos modos de transporte. En su lugar, sólo pueden usar la palabra "vehículo". Lo usan, dice, para todo: colectivos, autos, bicicletas, aviones. En este mundo no hay consenso sobre si los vehículos son ecológicos, porque unos hablan de bicicletas y otros de camiones. Y cuando los medios hablan de un cohete más rápido, los consumidores llaman a las concesionarias de autos para pedir el nuevo modelo del que hablan en los noticieros.

A2-101656458.jpg

Luego, Narayanan pide cambiar la palabra "vehículo" por "inteligencia artificial". Esta confusión, dice, es la que se vive en la actualidad. Y con la IA en la medicina pasa algo parecido: no es lo mismo hablar de un LLM, un chatbot como ChatGPT Health que un modelo de lenguaje entrenado y pensado exclusivamente para un centro médico; no es lo mismo una IA generalista que un sistema entrenado para leer radiografías de tórax y detectar pequeñas marcas, imperceptibles para el ojo humano, que permitan prever diagnósticos de cáncer de pulmón.

"La inteligencia artificial vino para quedarse. Es una revolución impresionante, como nunca ha habido en los últimos años, comparable a la revolución industrial. Topol, que es una autoridad en todo esto, dice que el médico que pueda ser reemplazado por inteligencia artificial es porque debería ser reemplazado. Es una crítica a lo que hay, una bienvenida a lo que viene, pero con sus límites", sintetiza San Román.

Por lo tanto, comprender la inteligencia artificial implica no verla como un sustituto de la esencia médica, sino más bien como un asistente técnico diseñado para absorber tareas específicas como asistentes de médicos. Al delegar la "medicina superficial" a los algoritmos, el profesional puede restaurar la conexión humana y la empatía, elementos que el sistema actual dejó de lado.

Por qué fallan los chatbot de IA

Los modelos generalistas, que prometen responder a cualquier tipo de consulta como un profesional del rubro, suelen fallar en consultas médicas por varios motivos.

En primer lugar, los modelos de lenguaje no tienen "sentido común" ni un entendimiento real de los contextos. Son máquinas predictoras de texto. Así lo explican en The AI Con las científicas Alex Hanna y Emily M. Bender que llaman a la IA, con ironía y perspicacia, "SALAMI": Systemic Approaches to Learning Algorithms and Machine Inferences. O, en sus propias palabras, "loros estocásticos". Máquinas que escupen texto según probabilidades, pero no máquinas particularmente inteligentes, o no en el sentido humano.

Un segundo factor tiene que ver con la dependencia del prompt, es decir, de la indicación inicial que se le de al chat. "Trabajos previos han demostrado que los LLM de propósito general modifican sus recomendaciones cuando los pacientes son identificados por raza o género, y que el encuadre engañoso -como la tranquilización por parte de familiares o amigos- puede anclar las respuestas hacia una atención menos urgente", explican los autores del estudio publicado en Nature.

Finalmente, entre otros, un tercer factor que explica el fracaso de estos modelos, tiene que ver con los datos de entrenamiento. No todo modelo funciona en todo espacio. Un gran principio de la computación tiene que ver con el "garbage in, garbage out" (GIGO). Si entran datos basura al modelo, el resultado será basura. Y esto no quiere decir que los datos sean en sí malos, sino que, en medicina, esto puede deberse a datos fuera de contexto. Si un modelo está entrenado con datos de pacientes sanos, posiblemente las respuestas no verán adecuadamente los riesgos, o a la inversa.

Noticias relacionadas

Nacionales