Los dermatólogos pediátricos superan a la IA, pero ChatGPT muestra comparabilidad

Comparación entre dermatólogos pediátricos e IA

En una comparación entre dermatólogos pediátricos y herramientas de inteligencia artificial (IA), los dermatólogos demostraron un rendimiento superior en general.

Las herramientas basadas en IA, como el Chat Generative Pre-trained Transformer (ChatGPT) de OpenAI, están ganando importancia en aplicaciones médicas. Estas herramientas han demostrado ser capaces de predecir resultados de pacientes y eventos adversos asociados con tratamientos, así como interpretar imágenes o resultados de laboratorio. Conscientes de estas capacidades y del creciente papel de las herramientas de IA en el campo médico, investigadores como Huang et al. decidieron evaluar el conocimiento y las capacidades de diagnóstico clínico de las versiones 3.5 y 4.0 de ChatGPT en comparación con dermatólogos pediátricos.

Hallazgos del estudio

En el estudio publicado en Pediatric Dermatology, los investigadores encontraron que, en promedio, los dermatólogos pediátricos superaron predominantemente a las herramientas de IA en preguntas de opción múltiple, respuesta múltiple y preguntas basadas en casos. Sin embargo, los resultados del estudio también demostraron que ChatGPT, específicamente la versión 4.0, mostró comparabilidad en algunos aspectos, incluyendo preguntas de opción múltiple y respuesta múltiple.

Antecedentes y métodos

Los investigadores desarrollaron una prueba de 24 preguntas basadas en texto, incluyendo 16 preguntas de opción múltiple, 2 preguntas de respuesta múltiple y 6 preguntas basadas en casos; estas últimas fueron de respuesta libre.

Las preguntas se basaron en el Examen de Certificación 2021 de la Junta Americana de Dermatología y la sección «Photoquiz» de la revista Pediatric Dermatology. Todas las preguntas se procesaron a través de la interfaz web de ChatGPT en octubre de 2023.

Los investigadores utilizaron una escala de 0 a 5, común para la evaluación de herramientas de IA, para evaluar y calificar las preguntas basadas en casos. Los evaluadores de las respuestas desconocían las identidades de los participantes.

Resultados

Un total de 5 dermatólogos pediátricos completaron las preguntas planteadas por los investigadores, con un promedio de 5.6 años de experiencia clínica compartida entre ellos.

En promedio, los dermatólogos pediátricos obtuvieron un 91.4% en preguntas de opción múltiple y respuesta múltiple, mientras que ChatGPT versión 3.5 demostró un puntaje promedio de 76.2%, dando a los dermatólogos una ventaja significativa. Sin embargo, cuando se comparó con ChatGPT versión 4.0, los resultados fueron comparables, con la iteración 4.0 logrando un puntaje promedio de 90.5%, solo un 0.9% menos que los clínicos. En preguntas basadas en casos, los clínicos obtuvieron un puntaje promedio de 3.81, mientras que ChatGPT v.3.5 obtuvo un promedio de 3.53. El puntaje promedio para preguntas basadas en casos para dermatólogos pediátricos no fue significativamente mayor que ChatGPT v.4.0.

Recomendaciones para los clínicos

Basándose en estos hallazgos, Huang et al. desarrollaron una lista de mejores prácticas de «hacer y no hacer» para los clínicos:

Recomiendan que los clínicos HAGAN:

Usar ChatGPT para generar diagnósticos diferenciales.
Proporcionar información detallada y relevante mientras se mantiene la privacidad del paciente.
Verificar las respuestas de ChatGPT utilizando fuentes confiables de información médica.
Mantenerse actualizados sobre las políticas legales e institucionales relacionadas con el uso de herramientas de IA en la atención médica.

Recomiendan que los clínicos NO HAGAN:

Confiar en ChatGPT para proporcionar el diagnóstico único y mejor.
Caer en el sesgo de anclaje debido a las respuestas de ChatGPT.
Aceptar inmediatamente las respuestas de ChatGPT como hechos médicos.
Introducir información protegida por HIPAA en herramientas de IA como ChatGPT que no cumplen con HIPAA.

Conclusiones

Los investigadores recomendaron que los dermatólogos se familiaricen más con las herramientas de IA a medida que su precisión sigue avanzando y mejorando, señalando que pueden ser útiles para preguntas basadas en hechos y materiales basados en casos.

Aunque estos resultados son prometedores, señalaron que se necesita más investigación para comprender mejor el papel de ChatGPT en el conocimiento clínico y el razonamiento.

Las limitaciones del estudio incluyen la posibilidad de cambiar la reproducibilidad de los resultados y la exposición previa de los dermatólogos pediátricos a las preguntas y casos utilizados en el estudio.

«Si bien los clínicos actualmente continúan superando a las herramientas de IA, los avances incrementales en la complejidad de estos algoritmos de IA para la interpretación de texto e imágenes ofrecen a los dermatólogos pediátricos una valiosa adición a su caja de herramientas,» según Huang et al. «En la circunstancia actual, la IA generativa es una herramienta útil, pero no se debe confiar en ella para sacar conclusiones finales sobre diagnósticos o terapias sin la supervisión adecuada”.

Fuente: https://www.dermatologytimes.com/

Inteligencia Artificial

Los dermatólogos pediátricos superan a la inteligencia artificial, pero ChatGPT muestra comparabilidad en algunos aspectos