Capta cada paso de la cadena: prompt final, funciones llamadas, top‑k en búsquedas, tamaño de contexto, conteo de tokens, caché y redacciones de PII. Incluye IDs de usuario, sesión y versión del modelo para reproducibilidad. Adjunta anotaciones humanas cuando una respuesta es útil, confusa o peligrosa. Estas trazas reducen la ceguera, aceleran depuración y permiten entrenar mejores heurísticas de enrutamiento y políticas de reintento con conocimiento real del comportamiento.
Fusiona SLOs de disponibilidad, latencia y error con indicadores de calidad como satisfacción, groundedness, citaciones válidas, cobertura de herramientas y consistencia entre ejecuciones idénticas. Añade costos por endpoint y proveedor para decisiones conscientes. Un tablero unificado evita optimizar una dimensión a costa de otra, revelando compensaciones tangibles entre rapidez, factura mensual y exactitud percibida por usuarios. Facilita conversaciones transparentes con producto, seguridad y finanzas.
Define umbrales con histéresis para latencias P95, tasas de timeouts, costos por minuto y señales de toxicidad. Usa presupuestos de tokens por feature y estrategia de corte suave antes de agotar límites. Las alertas deben incluir enlace a la traza, runbook de mitigación, fallback inmediato y responsable on‑call. Evita notificaciones ruidosas y prioriza las que dirigen a una acción clara en menos de cinco minutos, incluso de madrugada.
All Rights Reserved.