Alucinaciones de IA en la Documentación Clínica: Lo Que Todo Profesional Debe Saber

Las herramientas de IA están fabricando contenido clínico en documentación real. Aprende qué es una alucinación, por qué ocurre, qué incidentes se han reportado y cómo evaluar herramientas de IA que no pongan en riesgo tu licencia.

El problema del que nadie habla suficiente

Hay un escenario que se repite en consultorios clínicos de todo el continente y que rara vez aparece en capacitaciones de desarrollo profesional, boletines de colegios de profesionales o en la publicidad de los proveedores de software. Un terapeuta termina una sesión, abre su herramienta de documentación con IA y revisa la nota generada. La nota está bien redactada, tiene buena estructura y suena igual que sus otras notas. La firma.

Lo que quizás no detectó: una oración que describe un historial de trauma que el cliente nunca reveló. Una puntuación de severidad para síntomas que el cliente no reportó. Una conclusión clínica que el profesional nunca llegó a hacer.

Esto es una alucinación de IA, y está ocurriendo en la documentación clínica en este momento.

El objetivo de este artículo no es alejar a los profesionales de las herramientas de IA. La documentación asistida por IA es una ganancia de eficiencia legítima que puede reducir significativamente los 30 a 60 minutos diarios que muchos clínicos dedican a escribir notas. Pero usar estas herramientas sin entender sus puntos de falla es una responsabilidad profesional real. Tu firma en una nota es tu aval sobre su exactitud, sin importar cómo fue generada.

¿Qué es una alucinación de IA?

"Alucinación" es el término que usa la comunidad de investigación en IA para describir situaciones en las que un modelo generativo produce contenido factualmente incorrecto, inventado o no respaldado por sus entradas, con el mismo nivel de confianza que el contenido preciso.

El término suena dramático, pero el mecanismo es mundano. Los modelos de lenguaje de gran escala funcionan prediciendo el siguiente token (palabra, frase o carácter) más estadísticamente probable dado lo que vino antes. No "conocen" los hechos como lo hace una base de datos. Generan secuencias que suenan plausibles. La mayoría de las veces, esto produce texto coherente y preciso. A veces produce ficción con total confianza.

Para la mayoría de las aplicaciones, esto es una molestia. Si una IA escribe un correo de marketing con una estadística inventada, lo detectas en la revisión. El costo es menor.

En la documentación clínica, el costo no es menor.

Incidentes documentados en entornos clínicos

Los siguientes son casos y patrones reportados donde herramientas de IA generaron contenido clínico que no reflejaba con precisión lo ocurrido en las sesiones.

Historia de abuso fabricada

Uno de los incidentes más difundidos involucró a Upheal, una plataforma de documentación para terapeutas, que produjo notas con referencias a un historial de abuso del cliente que este nunca había revelado. El caso fue reportado por The New York Times en el contexto de preocupaciones más amplias sobre la precisión de la IA en entornos de salud mental. El clínico en cuestión no detectó la invención antes de firmar la nota, lo que significa que el expediente clínico oficial del cliente contenía información falsa sobre su historial de trauma.

Considera las consecuencias que esto puede tener: ese expediente podría acompañar al cliente a un nuevo proveedor, influir en un diagnóstico, afectar su plan de tratamiento, aparecer en una revisión de aseguradora, o surgir en un proceso legal o de custodia. Una sola oración alucinada en una nota de progreso no es un error menor.

Síntomas inventados

Varios clínicos han reportado casos en que las notas generadas por IA describían síntomas que el cliente no reportó durante la sesión. Un patrón frecuente involucra a la IA infiriendo una presentación sintomática probable basada en el diagnóstico y el contexto, para luego documentar esos síntomas inferidos como si hubieran sido observados o reportados por el cliente.

Por ejemplo: un cliente con diagnóstico de trastorno de ansiedad generalizada asiste a una sesión y habla sobre el estrés en el trabajo. La IA, basándose en sus datos de entrenamiento sobre el TAG, genera una nota que incluye "el cliente reportó dificultad para dormir y tensión física", aunque el cliente no mencionó nada sobre el sueño ni síntomas físicos en esa sesión.

Esto no es un error de documentación. Es una invención. Y porque el lenguaje suena exactamente como lenguaje clínico legítimo, es fácil pasarlo por alto en una revisión superficial.

Severidad exagerada

Un patrón relacionado involucra herramientas de IA que sobrerepresentan la gravedad clínica en la documentación. Las notas describen el malestar como más agudo de lo que el clínico observó, el riesgo como más alto del evaluado, o el deterioro funcional como más significativo de lo que el cliente reportó. Esto parece ocurrir porque el lenguaje de alta severidad es estadísticamente común en los datos de entrenamiento (los clínicos escriben notas más detalladas cuando algo es grave), por lo que el modelo asocia la documentación clínica con marcadores de severidad.

El problema: la severidad inflada en las notas puede desencadenar intervenciones clínicas innecesarias, afectar autorizaciones de seguros y crear un expediente que no corresponde al cuadro clínico real.

Declaraciones mal atribuidas

Varios clínicos han reportado notas donde las citas textuales fueron inventadas directamente o asignadas a la persona equivocada. Una declaración que hizo el terapeuta aparece atribuida al cliente. Algo que dijo el cliente queda parafraseado como una conclusión clínica que el profesional nunca formuló. Esto ocurre con mayor frecuencia en sesiones largas o complejas, donde la IA debe procesar una gran cantidad de información y mantener la atribución correcta a lo largo de múltiples turnos de diálogo.

Por qué los modelos de IA alucinan

Entender por qué ocurren las alucinaciones ayuda a los clínicos a evaluar las herramientas con mayor criterio.

El modelo predice, no recuerda

Los modelos de lenguaje no tienen acceso a "lo que ocurrió". Tienen una entrada (tus notas de sesión, una transcripción, unos pocos puntos clave) y un entrenamiento (miles de millones de documentos sobre práctica clínica, sesiones de terapia, notas médicas y comportamiento humano). Cuando la entrada es ambigua o escasa, el modelo llena los vacíos con lo que ha visto antes.

Si le das a una herramienta de IA tres puntos breves de una sesión, producirá una nota completa. La mayor parte de lo que aparece en esa nota, más allá de tus tres puntos, proviene del sentido estadístico del modelo sobre lo que normalmente contiene una nota de ese tipo de sesión. A veces esa inferencia es correcta. A veces no. El modelo no tiene forma de distinguirlo.

Las notas clínicas son contenido de patrón alto

Las notas de terapia, las notas SOAP y las notas de progreso siguen patrones predecibles. Usan terminología consistente, repiten elementos estructurales y contienen frases estándar. Esta naturaleza de patrón alto hace que las notas clínicas sean un buen objetivo para la IA generativa en un sentido (la estructura es aprendible), pero también significa que el modelo tiene expectativas fuertes sobre lo que una nota "debería" decir. Esas expectativas pueden anular el contenido real de una entrada escasa o ambigua.

La confianza no es precisión

Una de las propiedades más peligrosas de los modelos de lenguaje de gran escala es que su salida se lee con confianza constante, sin importar su precisión. Una oración alucinada sobre el historial de abuso de un cliente se ve exactamente igual que una oración documentada con precisión sobre ese mismo tema. No hay marcadores de incertidumbre, no hay matices, no hay notas al pie. El modelo no sabe lo que no sabe, y no señala dudas.

Esto es fundamentalmente diferente de los errores de documentación humana. Cuando un clínico tiene dudas, generalmente lo dice: "El cliente parecía..." o "No está claro si...". Las alucinaciones generadas por IA no son cautelosas.

Por qué la documentación clínica es especialmente de alto riesgo

Para la mayoría de las industrias, el principal riesgo de la alucinación de IA es el ridículo o el tiempo perdido. En la práctica clínica, los riesgos son cualitativamente distintos.

Responsabilidad profesional. Tu firma en una nota es una declaración profesional de su exactitud. Firmar una nota que contiene contenido clínico fabricado, aunque no lo hayas escrito tú, es un problema de cumplimiento documental con posibles consecuencias para tu licencia. La herramienta no es tu licencia. Tú lo eres.

Exposición legal. Las notas de progreso son documentos legales. Pueden ser requeridas en litigios, disputas de custodia, reclamos de incapacidad y procesos penales. Una nota que contiene contenido fabricado sobre la historia o el estado mental de un cliente es un documento falso con tu firma.

Continuidad de la atención. Cuando un cliente se transfiere a un nuevo proveedor, ese profesional lee tus notas. Si tus notas contienen contenido alucinado, el nuevo clínico puede tomar decisiones clínicas basadas en un historial que no existe, síntomas que no estaban presentes, o una severidad que no era precisa.

Daño al cliente. En casos graves, la documentación alucinada puede dañar directamente a los clientes. Registros falsos de ideación suicida podrían llevar a una hospitalización innecesaria. Revelaciones fabricadas podrían activar obligaciones de reporte obligatorio basadas en eventos que no ocurrieron. Una severidad inflada podría afectar la cobertura del seguro o la autorización del tratamiento.

Qué buscar al evaluar herramientas de documentación con IA

Si estás evaluando o usando actualmente una herramienta de documentación con IA, estas son las preguntas que deben guiar tu valoración.

¿Qué usa la herramienta como entrada?

La calidad de la salida de IA está limitada por la calidad y especificidad de la entrada. Una herramienta que genera notas a partir de una grabación de 30 segundos o un puñado de puntos breves está produciendo una proporción mucho mayor de inferencia e información de relleno que una herramienta que trabaja a partir de entradas estructuradas detalladas.

Pregúntate: ¿de dónde viene esta nota? ¿Qué proporcioné realmente y qué infirió la IA?

¿La herramienta usa generación abierta o relleno estructurado?

Existen dos arquitecturas fundamentalmente distintas para las herramientas de documentación con IA.

La generación abierta usa un modelo de lenguaje para escribir una nota completa desde cero, basada en alguna entrada. El modelo decide qué incluir, qué nivel de detalle agregar y qué lenguaje clínico usar. El riesgo de alucinación es más alto con esta arquitectura.

El relleno estructurado (a veces llamado plantilla-primero o relleno de marcadores de posición) usa una plantilla predefinida con campos específicos. La IA solo llena esos campos, usando solo lo que se proporcionó como entrada. No hay invitación para que el modelo invente contenido complementario, porque la forma de la salida está fijada.

El enfoque de plantilla-primero no elimina los errores de IA, pero restringe estructuralmente dónde pueden aparecer. Si tu plantilla tiene un campo para "evaluación de riesgo", la IA llena ese campo con lo que proporcionaste sobre el riesgo, no con una declaración de riesgo construida a partir de patrones. Si un campo está vacío porque no aportaste datos para él, permanece vacío.

¿Cómo es el flujo de revisión y edición?

Cualquier herramienta de documentación con IA responsable debe requerirte que revises y confirmes explícitamente la nota generada antes de firmarla. Las herramientas que hacen que firmar sea demasiado fácil, que ocultan las diferencias entre tu entrada y la salida, o que hacen que editar el contenido generado sea complicado, están aumentando tu exposición a alucinaciones.

La pregunta a hacerse: antes de firmar esta nota, ¿me queda claro qué escribió la IA frente a lo que yo proporcioné?

¿La herramienta cumple con la normativa de privacidad aplicable?

Para cualquier herramienta que maneje información de salud protegida, se requieren acuerdos de confidencialidad según la normativa de privacidad aplicable (HIPAA en Estados Unidos, y leyes equivalentes en cada país de América Latina). Esto es independiente de la pregunta sobre alucinación, pero importa por la misma razón subyacente: tus obligaciones legales y éticas no se transfieren al proveedor. Si el proveedor no ofrece garantías claras de privacidad, la herramienta no es adecuada para uso clínico, independientemente de sus otras funciones.

¿Existe un rastro de auditoría claro?

¿Puedes ver, en el sistema de documentación, qué entrada proporcionaste y qué generó la IA? Esto importa por dos razones: te ayuda a detectar alucinaciones durante la revisión, y te protege en caso de que tus prácticas de documentación sean cuestionadas.

El enfoque de plantilla-primero: una salvaguarda estructural

Una de las decisiones arquitectónicas más efectivas contra la alucinación de IA en la documentación es requerir que la estructura y los límites de contenido de la nota estén definidos antes de que comience la generación.

La lógica es directa. Si la IA sabe que una nota tiene exactamente estos campos, y que cada campo debe llenarse solo con lo que el clínico proporcionó, la superficie para la alucinación se reduce drásticamente. Al modelo no se le pide que construya una narrativa. Se le pide que llene marcadores de posición. Esas son tareas muy distintas.

Un sistema de plantilla-primero no significa notas rígidas y genéricas. Las plantillas pueden ser tan personalizadas como el clínico desee: secciones específicas para su disciplina, lenguaje específico para su estilo de documentación, campos específicos para los elementos que siempre captura. La personalización ocurre a nivel de plantilla. El trabajo de la IA es completar la plantilla a partir de las notas reales del clínico sobre la sesión, no componer libremente.

Este es el enfoque que sigue NotuDocs. El posicionamiento es explícito: "Tus notas, tu plantilla. La IA solo llena los espacios." La plantilla define lo que contendrá la nota. Las notas del clínico aportan el contenido. La IA llena los marcadores. No hay espacio para que la IA decida que una nota sobre ansiedad "debería" mencionar también alteraciones del sueño, porque la plantilla no tiene un campo para eso y las notas de sesión no lo mencionan.

¿Esto significa que NotuDocs no puede alucinar? Ninguna herramienta de IA puede hacer esa afirmación. Pero la arquitectura hace que la alucinación sea más difícil al acotar la tarea de generación. En lugar de "escribe una nota clínica sobre esta sesión", el modelo recibe "llena este campo específico con información de estas notas". El alcance es más estrecho. Las oportunidades para inventar contenido son menores.

Pasos prácticos para clínicos que usan cualquier herramienta de IA

Independientemente de la herramienta que uses, estas prácticas reducen tu exposición a las alucinaciones.

Trata cada nota generada por IA como un borrador, no como un producto final. El ahorro de tiempo de la documentación con IA proviene de reducir el tiempo que pasas escribiendo desde cero, no de eliminar tu obligación de revisión. Una lectura rápida de un borrador bien estructurado es significativamente más rápida que escribir desde cero, y aún así detecta la mayoría de los errores.

Sabe lo que realmente ocurrió en la sesión. Esto parece obvio, pero requiere que tengas alguna forma de captura contemporánea: anclajes de sesión, puntos clave o taquigrafía estructurada tomada durante o inmediatamente después de la sesión. Si no puedes recordar si evaluaste el riesgo en la sesión, no puedes detectar una nota que afirme que lo hiciste.

Audita tus notas periódicamente. Revisa cinco notas al azar del último mes y compáralas con tu memoria de la sesión o con los apuntes que tomaste. Busca contenido que no recuerdes específicamente haber documentado. Busca lenguaje que no suene como tus observaciones. Si encuentras patrones, investiga tu flujo de trabajo de documentación.

Lee el contenido clínico, no solo la estructura. El contenido alucinado suele aparecer en la sustancia de la nota, no en el formato. Una nota que tiene todas las secciones correctas en el orden correcto puede aun así contener material clínico fabricado dentro de esas secciones. Lee las palabras, no solo la plantilla.

Documenta tu entrada. Guarda un registro de lo que proporcionaste a la herramienta de IA: los puntos clave, el resumen de sesión, la entrada estructurada. Esto te protege si alguna nota es cuestionada, porque puedes demostrar la brecha (o ausencia de brecha) entre tu entrada y la salida.

Una nota sobre responsabilidad profesional

La adopción de la IA en la documentación clínica avanza más rápido que los marcos regulatorios y profesionales diseñados para regularla. Los colegios de profesionales están comenzando a abordar el tema, las asociaciones profesionales han empezado a publicar orientaciones, y las aseguradoras de responsabilidad civil están actualizando sus pólizas. Pero el panorama aún está tomando forma.

Mientras tanto, el principio más importante que debes llevar a cualquier práctica de documentación asistida por IA es este: la IA es una herramienta, y tú eres el profesional. La herramienta puede hacerte más eficiente. Puede reducir la carga cognitiva de convertir observaciones de sesión en documentación formal. Puede ayudarte a escribir notas más consistentes con menos esfuerzo.

No puede evaluar a tu cliente. No puede ejercer juicio clínico. Y no puede asumir la responsabilidad de lo que aparece en el expediente bajo tu firma.

Entender las alucinaciones de IA no se trata de ser escéptico de la tecnología. Se trata de usarla de una manera que proteja a tus clientes, tus obligaciones profesionales y tu licencia. Eso significa elegir herramientas con arquitecturas responsables, revisar todo antes de firmar y mantenerse informado a medida que los estándares en este campo se desarrollan.

Guías relacionadas: