Un estudio de Oxford advierte sobre los riesgos de usar ChatGPT para buscar consejos médicos

0
9

La inteligencia artificial atraviesa toda nuestra vida, pero parecería que no es buena consejera en todos los ámbitos. Uno de estos espacios es el de la salud, lugar donde está despertando polémica, luego de que un estudio realizado por la Universidad de Oxford y publicado en la revista científica Nature Medicine develara lo que todos sospechábamos: la IA no está lista para suplantar el trabajo del médico.

La apuesta en el país de un gigante de los celulares. 6 smartphones, un reloj inteligente, un parlante conectado y mucho más

El estudio revela una importante brecha entre la promesa de los grandes modelos lingüísticos (LLM) y su utilidad para quienes buscan consejo médico. Dirigido por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, y realizado en colaboración con MLCommons y otras instituciones, explica que si bien los modelos de IA hoy destacan a la hora de hacer pruebas estandarizadas de conocimiento médicos, pueden generar riesgos en usuarios reales que consultan por sus propios síntomas médicos; en otras palabras, es posible que brinden diagnósticos erróneos y que no sepan reconocer cuándo se necesita ayuda urgente.

En el estudio, los participantes utilizaron una inteligencia artificial para identificar posibles problemas de salud y decidir qué hacer a partir de eso (desde consultar a un médico de cabecera, ir al hospital, entre otros). ¿El resultado? “Quienes utilizaban LLM no tomaban mejores decisiones que los participantes que recurrían a métodos tradicionales, como búsquedas en línea o su propio criterio”, explican desde la Universidad de Oxford.

Las inteligencias artificiales pueden generar riesgos en usuarios reales que consultan por sus propios síntomas médicos

Para llevar adelante la investigación, hicieron un ensayo aleatorio con casi 1300 participantes en línea, todos médicos. Luego de brindarles distintos escenarios, se les pidió que hicieran diagnósticos de posibles afecciones de salud y que sugirieran medidas de acción. Los casos iban desde un joven con un fuerte dolor de cabeza después de una noche de fiesta con amigos hasta una madre primeriza que se sentía constantemente sin aliento y agotada.

Un grupo de voluntarios consultó a una IA para decidir qué hacer con los síntomas, mientras que otro grupo usó otras fuentes de información tradicionales. Los investigadores midieron qué tan bien lograba cada grupo identificar su problema y si elegían correctamente la solución. Además, compararon estos resultados con los de las estrategias estándar de evaluación de LLM, que no involucran a usuarios humanos reales. ¿El resultado? Las inteligencia artificiales tuvieron buenas calificaciones en las pruebas de referencia, pero fallaron al interactuar con personas.

Avisos contextuales. ChatGPT comienza a mostrar publicidad en cuentas gratis y en su plan más barato

“A pesar de todo el revuelo, la IA aún no está lista para asumir el rol del médico. Los pacientes deben ser conscientes de que preguntar a un modelo de lenguaje extenso sobre sus síntomas puede ser peligroso, ya que puede dar diagnósticos erróneos y no reconocer cuándo se necesita ayuda urgente”, aseguró la Dra. Rebecca Payne, del departamento de Ciencias de la Salud de Atención Primaria de Nuffield, médica de cabecera y médica principal del estudio.

Otros resultados

Los hallazgos no se limitan a este descubrimiento: el estudio también detectó una falla en la comunicación bidireccional. Por un lado, se dieron cuenta que los participantes desconocían muchas veces qué información necesitaban darle a los LLM para brindar una respuesta precisa; esto, a su vez, generaba respuestas de las IA con una combinación de recomendaciones buenas y malas, que dificultaban identificar la mejor forma de proceder.

En muchos casos, los usuarios no saben cuál es la mejor forma de hacerle preguntas a la inteligencia artificial

“Diseñar pruebas robustas para modelos lingüísticos extensos es fundamental para comprender cómo podemos aprovechar esta nueva tecnología. En este estudio, demostramos que interactuar con humanos supone un desafío incluso para los estudiantes de máster en Derecho más destacados. Esperamos que este trabajo contribuya al desarrollo de sistemas de IA más seguros y útiles”, agregó el autor principal, Andrew Bean, estudiante de doctorado en el Oxford Internet Institute.

Se viralizó en redes. ¿Cómo podés crear tu caricatura con ChatGPT?

Por último, la investigación explica que los métodos de evaluación actuales para las inteligencias artificiales no reflejan la complejidad de interactuar con humanos. Sugieren que, al igual que los ensayos clínicos para nuevos medicamentos, los sistemas LLM deben probarse en el mundo real antes de su implementación.

Otro de los autores principales, el profesor asociado Adam Mahdi del Oxford Internet Institute, concluyó: “No podemos basarnos únicamente en pruebas estandarizadas para determinar si estos sistemas son seguros para el uso público. Al igual que exigimos ensayos clínicos para nuevos medicamentos, los sistemas de IA necesitan pruebas rigurosas con usuarios reales y diversos para comprender sus verdaderas capacidades en entornos de alto riesgo como la atención médica”.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí