
Cómo elegir un AI scribe que no alucine
Framework práctico para evaluar AI scribes de documentación clínica y reducir riesgo de alucinaciones antes de producción.
La mayoría de demos oculta el punto crítico
En demo, casi cualquier AI scribe se ve bien: transcript limpio, botón, nota bonita.
La pregunta real no es "¿escribe bien?". Es:
¿Qué hace cuando el input viene incompleto, ruidoso o ambiguo?
Ahí aparecen las alucinaciones. En documentación clínica no es un detalle estético: genera riesgo legal, de facturación y de seguridad.
Define “alucinación” antes de evaluar
Para documentación clínica, considera alucinación cualquier contenido:
- No soportado por el input fuente
- Sobreinterpretado respecto al input
- Inventado (hallazgos, intervenciones, plan, riesgo)
- Mal atribuido (persona, fecha, diagnóstico)
Sin esta definición, la evaluación se vuelve subjetiva.
Framework de evaluación (5 partes)
1) Trazabilidad input → output
Necesitas poder verificar de dónde sale cada afirmación importante.
Mínimo:
- Mapeo claro entre fuente y secciones generadas
- Vista lado a lado de fuente y nota final
- Sin reescritura oculta tras la revisión
Prueba: quita datos de evaluación de riesgo del input. Si el sistema igual genera conclusiones de riesgo con seguridad, falla grave.
2) Comportamiento ante información faltante
Herramienta segura = visibiliza incertidumbre, no rellena huecos.
Busca:
- Campos vacíos o marcados cuando falta información
- Prompts explícitos al clínico para completar
- Modo estricto para prohibir completado especulativo
3) Arquitectura template-first vs generación libre
La arquitectura pesa más que la UI.
- Generación libre: más propensa a suavizar huecos inventando texto plausible.
- Template-first: limita salida a secciones definidas y reduce deriva.
Por eso muchos equipos usan plantillas para progress notes, intake y discharge.
4) Controles en secciones de alto riesgo
Aplica mayor rigidez en:
- Evaluación de seguridad/riesgo
- Cambios de medicación
- Diagnósticos
- Tiempo/duración y campos de facturación
- Instrucciones de seguimiento
Un buen sistema permite bloquear esas secciones a contenido respaldado por fuente.
5) Gobernanza y revisión
Incluso con baja alucinación, necesitas controles operativos:
- Firma humana obligatoria antes de exportar
- Audit trail de ediciones
- Historial de versiones
- Permisos por rol
- Muestreo QA semanal
Construye dataset real de evaluación
No uses solo casos "bonitos" del proveedor. Arma tu paquete (desidentificado):
- Sesiones limpias
- Sesiones con ruido e interrupciones
- Casos con actualización clínica ambigua
- Casos sin cambios relevantes
- Casos de alto riesgo donde la precisión del lenguaje importa
Ejecuta todos los proveedores sobre el mismo set.
Rubrica de scoring útil
Puntúa 0–2 por dimensión:
- Fidelidad factual
- Manejo de omisiones
- Integridad de secciones críticas
- Cumplimiento de formato
- Carga de edición clínica
Métricas finales:
- Tasa de alucinación por nota
- Tasa de alucinación crítica (riesgo/diagnóstico/medicación/facturación)
- Tiempo medio de corrección
Un sistema un poco más lento pero con menor alucinación crítica suele ganar en producción.
Preguntas clave para proveedores
- ¿Cómo evitan afirmaciones no soportadas?
- ¿Qué pasa si faltan campos obligatorios?
- ¿Podemos imponer modo estricto en secciones críticas?
- ¿Cuánto retienen prompts y outputs?
- ¿Podemos auditar quién cambió cada nota y cuándo?
- ¿Qué benchmarks de calidad comparten?
Respuestas vagas = señal de riesgo.
Red flags
- "Alta precisión" sin métricas auditables.
- Sin prueba en inputs incompletos.
- Sin controles por sección crítica.
- Sin auditoría de ediciones.
- Mucho marketing, poca evidencia operativa.
Implementación de bajo riesgo
Fase 1: Piloto controlado (2–4 semanas)
- Un equipo o disciplina
- Doble revisión (clínico + QA)
- Medición de alucinaciones por nota
Fase 2: Configurar guardrails
- Activar modo estricto
- Bloquear secciones críticas
- Checklist de revisión estandarizada
Fase 3: Producción con QA continuo
- Auditoría semanal por muestreo
- Registro de incidentes de alucinación
- Revisión mensual de umbrales
Qué significa “listo para producción”
Un AI scribe es viable cuando:
- La alucinación crítica está cerca de cero
- La carga de corrección clínica es baja y estable
- El ahorro de tiempo se mantiene tras revisión humana
- Controles de compliance y auditoría están activos
No elijas por la mejor demo. Elige por el comportamiento en el peor caso.
Lectura relacionada:


