Estudio enfrenta a grupos de médicos con ChatGPT4 en 
procesamiento y razonamiento clínico. La IA superó a 
todos con una puntuación de 10 
=====================================================

Miguel Jorge  
3 de abril de 2024

Publicado en JAMA Internal Medicine, un grupo de
investigadores científicos del Centro Médico Beth Israel
Deaconess (BIDMC) compararon las capacidades de
razonamiento de un modelo de lenguaje grande (LLM)
directamente con el desempeño humano utilizando estándares
desarrollados para evaluar a los médicos. Los resultados
arrojaron pocas dudas: ChatGPT-4 superó a los residentes de
medicina interna y a los médicos tratantes de dos centros
médicos académicos en el procesamiento de datos médicos y
la demostración de razonamiento clínico.

No solo eso. El programa de inteligencia artificial
diseñado para comprender y generar texto similar al humano
lo hizo sin fallo alguno, con una puntuación de 10 sobre
10. Como explicó Adam Rodman, médico de medicina interna e
investigador en el departamento de medicina de BIDMC:

>>  Quedó claro desde el principio que los LLM pueden hacer
>>  diagnósticos, pero cualquiera que practique la medicina
>>  sabe que la medicina es mucho más que eso. Hay varios
>>  pasos detrás de un diagnóstico, por lo que queríamos
>>  evaluar si los LLM son tan buenos como los médicos a la
>>  hora de realizar ese tipo de razonamiento clínico. Es
>>  un hallazgo sorprendente que estas cosas sean capaces
>>  de mostrar un razonamiento equivalente o mejor que las
>>  personas a lo largo de la evolución del caso clínico.

Al parecer, Rodman y sus colegas utilizaron una herramienta
previamente validada desarrollada para evaluar el
razonamiento clínico de los médicos llamada r-IDEA. Luego,
reclutaron a 21 médicos tratantes y 18 residentes, cada uno
de los cuales trabajó en uno de los 20 casos clínicos
seleccionados compuestos por cuatro etapas secuenciales de
razonamiento diagnóstico. 

En la siguiente fase ordenaron a los médicos que
escribieran y justificaran sus diagnósticos diferenciales
en cada etapa. Chatbot GPT-4 recibió un mensaje con
instrucciones idénticas y ejecutó los 20 casos clínicos.
Luego, sus respuestas se calificaron según el razonamiento
clínico (puntuación r-IDEA) junto a otras medidas de
razonamiento.

Tal y como ha explicado la autora principal Stephanie
Cabral, residente de tercer año de medicina interna en
BIDMC:

>>  La primera etapa son los datos de clasificación, cuando
>>  el paciente le dice lo que le molesta y obtienes los
>>  signos vitales. La segunda etapa es la revisión del
>>  sistema, cuando se obtiene información adicional del
>>  paciente. La tercera etapa es el examen físico y la
>>  cuarta son las pruebas de diagnóstico y las imágenes.

¿Qué encontraron tras las pruebas? Sorprendentemente, o
quizás no tanto, descubrieron que el chatbot obtuvo las
puntuaciones más altas de r-IDEA, con una puntuación media
de 10 sobre 10 para el LLM, de 9 para los médicos tratantes
y de 8 para los residentes. 

Los investigadores cuentan que hubo un empate entre los
humanos y la IA en lo que respecta a la precisión del
diagnóstico (lo alto que estaba el diagnóstico correcto en
la lista de diagnósticos que proporcionaron) y el
razonamiento clínico correcto. 

Sin embargo, no todo fue perfecto para la IA. En el estudio
se encontró que el chatbot también estaba “simplemente
equivocado”: tenía más casos de razonamiento incorrecto en
sus respuestas, significativamente más a menudo que los
residentes, encontraron los investigadores. 

Dicho de otra forma, el hallazgo subraya la noción de que
la IA probablemente será más útil, al menos en el corto
plazo, como herramienta para aumentar, no reemplazar, el
proceso de razonamiento humano. 

Sea como fuere, estamos ante un momento fascinante para la
medicina con la inclusión de la IA para mejorar el trabajo.
Como recuerdan los propios autores, “se necesitan más
estudios para determinar cómo se pueden integrar mejor los
LLM en la práctica clínica, pero incluso ahora, podrían ser
útiles como punto de control, ayudándonos a asegurarnos de
que no nos perdemos nada“. Para Cabral:

>>  Mi máxima esperanza es que la IA mejore la interacción
>>  médico-paciente al reducir algunas de las ineficiencias
>>  que tenemos actualmente y nos permita centrarnos más en
>>  la conversación que tenemos con nuestros pacientes.

Con este estudio se pone de manifiesto que la IA demuestra
un razonamiento real, tal vez mejor que el de las personas
a través de múltiples pasos del proceso. Un mejor
entrenamiento en los próximos años acelerará su integración
en el “equipo” médico, lo que, en teoría, ofrecerá una
oportunidad única de mejorar la calidad y la experiencia de
la atención médica de los pacientes.

## Vía

https://ludd.es/estudio-enfrenta-a-grupos-de-medicos-con-chatgpt4-en-procesamiento-y-razonamiento-clinico-la-ia-supero-a-todos-con-una-puntuacion-de-10/