El otro día leí en LinkedIn sobre la implementación de un chatbot para una farmacía online y cómo se habían asegurado de que al ser consultado sobre medicamentos sin receta, las respuestas fueran robustas. Un error despachando un medicamento para el que se requiere una receta, no solo sería peligroso desde el punto de vista sanitario, sino que también pondría en riesgo legal a la farmacia e incluso a le empresa que ha implementado el chatbot.
Este caso me inspiró a reflexionar sobre algo que muchas veces se subestima (nada nuevo) en los proyectos de inteligencia artificial: El proceso de pruebas en chatbot es crítico.
Cuando nos enfrentamos a la implementación de un chatbot basado en IA, nos encontramos ante un sistema que se comporta de manera no determinista. Es decir, que a diferencia de un sistema tradicional donde 2+2 siempre es 4, un chatbot puede responder de formas diferentes a la misma pregunta dependiendo del contexto, la formulación exacta o incluso variaciones internas del modelo.
Probar un chatbot no significa simplemente que responde. Debemos asegurarnos de que:
- No da respuestas absurdas que confundan y espanten a los clientes.
- No mete a la empresa en problemas legales o reputacionales.
- No pone en riesgo la seguridad y la salud de las personas.
La complejidad del reto
El desafío principal es evidente: ¿cómo definir casos de prueba con resultados esperados cuando las respuestas pueden variar legítimamente? A esto hay que sumarle múltiples capas de complejidad:
- Tono conversacional: ¿Mantiene la voz de la marca?
- Mezcla de idiomas: ¿Responde coherentemente cuando se cambia de idioma en la misma conversación?
- Integraciones: Conexiones con APIs para incluir en las respuestas, bases de conocimiento, sistemas externos.
- Contexto y memoria: ¿Mantiene la coherencia en conversaciones largas?
- Casos límite: Preguntas ambiguas, malinterpretaciones, intentos de manipulación.
- Consultas de stock, tallas, colores, precios.
- Validaciones de formularios y datos estructurados.
- Flujos de autenticación y autorización (Por ejemplo un cliente solo puede consultar estado de sus pedidos)
- Integraciones con sistemas backend
- Límites y restricciones del negocio (como verificar recetas médicas)
- Simular distintos perfiles de usuario: Agresivos, confusos, etc.
- Preguntas ambiguas o mal formuladas: ¿Tienes lo que me llevé ayer?
- Tablas de decisión para lógica compleja: Mapear todas las posibles combinaciones de condiciones que pueden llevar a respuestas críticas.
- Pruebas de adversario: Intentos deliberados de confundir o manipular al bot
Conclusión: La Calidad No es Opcional
El caso del chatbot de la farmacia es un recordatorio de que los chatbots no son simples herramientas de FAQ. Son la cara de nuestra empresa, interactúan directamente con clientes y, en muchos casos, toman decisiones que pueden tener consecuencias reales.
Un chatbot sin un proceso de pruebas robusto es una bomba de relojería. No es una cuestión de "si" fallará, sino de "cuándo" y "cómo de grave será el fallo".


