Cómo elegir un AI scribe que no alucine

Framework práctico para evaluar AI scribes de documentación clínica y reducir riesgo de alucinaciones antes de producción.

La mayoría de demos oculta el punto crítico

En demo, casi cualquier AI scribe se ve bien: transcript limpio, botón, nota bonita.

La pregunta real no es "¿escribe bien?". Es:

¿Qué hace cuando el input viene incompleto, ruidoso o ambiguo?

Ahí aparecen las alucinaciones. En documentación clínica no es un detalle estético: genera riesgo legal, de facturación y de seguridad.

Define “alucinación” antes de evaluar

Para documentación clínica, considera alucinación cualquier contenido:

No soportado por el input fuente
Sobreinterpretado respecto al input
Inventado (hallazgos, intervenciones, plan, riesgo)
Mal atribuido (persona, fecha, diagnóstico)

Sin esta definición, la evaluación se vuelve subjetiva.

Framework de evaluación (5 partes)

1) Trazabilidad input → output

Necesitas poder verificar de dónde sale cada afirmación importante.

Mínimo:

Mapeo claro entre fuente y secciones generadas
Vista lado a lado de fuente y nota final
Sin reescritura oculta tras la revisión

Prueba: quita datos de evaluación de riesgo del input. Si el sistema igual genera conclusiones de riesgo con seguridad, falla grave.

2) Comportamiento ante información faltante

Herramienta segura = visibiliza incertidumbre, no rellena huecos.

Busca:

Campos vacíos o marcados cuando falta información
Prompts explícitos al clínico para completar
Modo estricto para prohibir completado especulativo

3) Arquitectura template-first vs generación libre

La arquitectura pesa más que la UI.

Generación libre: más propensa a suavizar huecos inventando texto plausible.
Template-first: limita salida a secciones definidas y reduce deriva.

Por eso muchos equipos usan plantillas para progress notes, intake y discharge.

4) Controles en secciones de alto riesgo

Aplica mayor rigidez en:

Evaluación de seguridad/riesgo
Cambios de medicación
Diagnósticos
Tiempo/duración y campos de facturación
Instrucciones de seguimiento

Un buen sistema permite bloquear esas secciones a contenido respaldado por fuente.

5) Gobernanza y revisión

Incluso con baja alucinación, necesitas controles operativos:

Firma humana obligatoria antes de exportar
Audit trail de ediciones
Historial de versiones
Permisos por rol
Muestreo QA semanal

Construye dataset real de evaluación

No uses solo casos "bonitos" del proveedor. Arma tu paquete (desidentificado):

Sesiones limpias
Sesiones con ruido e interrupciones
Casos con actualización clínica ambigua
Casos sin cambios relevantes
Casos de alto riesgo donde la precisión del lenguaje importa

Ejecuta todos los proveedores sobre el mismo set.

Rubrica de scoring útil

Puntúa 0–2 por dimensión:

Fidelidad factual
Manejo de omisiones
Integridad de secciones críticas
Cumplimiento de formato
Carga de edición clínica

Métricas finales:

Tasa de alucinación por nota
Tasa de alucinación crítica (riesgo/diagnóstico/medicación/facturación)
Tiempo medio de corrección

Un sistema un poco más lento pero con menor alucinación crítica suele ganar en producción.

Preguntas clave para proveedores

¿Cómo evitan afirmaciones no soportadas?
¿Qué pasa si faltan campos obligatorios?
¿Podemos imponer modo estricto en secciones críticas?
¿Cuánto retienen prompts y outputs?
¿Podemos auditar quién cambió cada nota y cuándo?
¿Qué benchmarks de calidad comparten?

Respuestas vagas = señal de riesgo.

Red flags

"Alta precisión" sin métricas auditables.
Sin prueba en inputs incompletos.
Sin controles por sección crítica.
Sin auditoría de ediciones.
Mucho marketing, poca evidencia operativa.

Implementación de bajo riesgo

Fase 1: Piloto controlado (2–4 semanas)

Un equipo o disciplina
Doble revisión (clínico + QA)
Medición de alucinaciones por nota

Fase 2: Configurar guardrails

Activar modo estricto
Bloquear secciones críticas
Checklist de revisión estandarizada

Fase 3: Producción con QA continuo

Auditoría semanal por muestreo
Registro de incidentes de alucinación
Revisión mensual de umbrales

Qué significa “listo para producción”

Un AI scribe es viable cuando:

La alucinación crítica está cerca de cero
La carga de corrección clínica es baja y estable
El ahorro de tiempo se mantiene tras revisión humana
Controles de compliance y auditoría están activos

No elijas por la mejor demo. Elige por el comportamiento en el peor caso.

Lectura relacionada: