ChatGPT crea tratamientos de cáncer repletos de errores, según un estudio

Tom Carter
| Traducido por: 
El chatbot de inteligencia artificial, ChatGPT ha sido una de las tecnologías del año.
El chatbot de inteligencia artificial, ChatGPT ha sido una de las tecnologías del año.Jakub Porzycki/NurPhoto via Getty Images
  • Cada vez se experimentan más posibles aplicaciones de ChatGPT en el ámbito sanitario, aunque tiende a mezclar información. 
  • Los problemas de precisión de esta inteligencia artificial generativa hacen poco probable que sustituya este tipo de funciones.

Puede que ChatGPT esté arrasando en todo el mundo, pero cuidado, porque un nuevo estudio sugiere que hay un área clave en la que es poco probable que se utilice a corto plazo. 

Investigadores del Brigham and Women's Hospital —un hospital universitario de la Facultad de Medicina de Harvard en Boston— descubrieron que los planes de tratamiento del cáncer generados por el revolucionario chatbot de OpenAI estaban repletos de errores. Esta solo es una de las aplicaciones que se está probando del bot en el ámbito sanitario.

Según el estudio, publicado en la revista JAMA Oncology, cuando se pidió que generara planes de tratamiento para diversos casos de cáncer, un tercio de las respuestas del modelo de lenguaje amplio contenían información incorrecta

También se observó que el chatbot tenía tendencia a mezclar información correcta e incorrecta, de forma que resultaba difícil identificar cuál era la buena. De un total de 104 consultas, alrededor del 98% de las respuestas de ChatGPT incluían al menos una recomendación de tratamiento que cumplía las directrices de la National Comprehensive Cancer Network, según el informe.

A los autores les "sorprendió el grado en que la información incorrecta se mezclaba con la correcta, lo que dificultaba la detección de errores, incluso para los expertos", declaró a Business Insider la doctora Danielle Bitterman, coautora del estudio.

"Los grandes modelos lingüísticos están entrenados para ofrecer respuestas que suenan muy convincentes, pero no están diseñados para proporcionar consejos médicos precisos", añadió. "La tasa de error y la inestabilidad de las respuestas son cuestiones de seguridad críticas que habrá que abordar para el ámbito clínico".

ChatGPT se convirtió en una sensación de la noche a la mañana cuando se lanzó en noviembre de 2022, alcanzando los 100 millones de usuarios activos tan solo dos meses después. 

El chatbot provocó una avalancha de inversiones en empresas de IA y un intenso debate sobre el impacto a largo plazo de la inteligencia artificial; según un estudio de Goldman Sachs, podría afectar a 300 millones de puestos de trabajo en todo el mundo

A pesar del éxito de ChatGPT, los modelos generativos de IA siguen siendo propensos a los engaños, presentando con confianza información dudosa o incorrecta. El rival de Google en ChatGPT, Bard, hizo que la empresa perdiera 120.000 millones de dólares cuando dio una respuesta inexacta a una pregunta sobre el telescopio espacial James Webb.

 

Ya se están realizando esfuerzos para integrar la IA en la atención sanitaria, principalmente para agilizar las tareas administrativas. A principios de este mes, un importante estudio concluyó que el uso de la IA para detectar el cáncer de mama era seguro y sugirió que podría reducir casi a la mitad la carga de trabajo de los radiólogos. 

Un informático de Harvard descubrió recientemente que GPT-4, la última versión del modelo, podía aprobar con éxito el examen para obtener la licencia médica en Estados Unidos, y sugirió que tenía mejor juicio clínico que algunos médicos.

A pesar de ello, los problemas de precisión de modelos generativos como ChatGPT hacen que sea poco probable que sustituyan a los médicos en un futuro próximo.

El estudio de JAMA descubrió que el 12,5% de las respuestas de ChatGPT eran dudosas, y que el chatbot era más propenso a presentar información incorrecta cuando se le preguntaba por el tratamiento localizado de enfermedades avanzadas o la inmunoterapia.   

OpenAI ha reconocido que ChatGPT puede ser poco fiable. Los términos de uso de la compañía advierten que sus modelos no están diseñados para proporcionar información médica, y no deben utilizarse para "proporcionar servicios de diagnóstico o tratamiento de afecciones médicas graves."

Conoce cómo trabajamos en Business Insider.