El error que cometí durante años
Durante mucho tiempo medí el éxito de mi equipo SRE con métricas técnicas: uptime del 99.9%, latencia p99 bajo 200ms, zero alerts en producción.
Los números se veían bien. El negocio no estaba contento.
¿Por qué? Porque cuando el CPO preguntaba "¿cómo estuvo el checkout ayer?", yo respondía con throughput y error rates. Él quería saber si los usuarios pudieron comprar. Son preguntas distintas.
La brecha entre infraestructura y negocio
El problema clásico del SRE es que vivimos en la capa técnica y el negocio vive en la capa de valor. Hablamos idiomas diferentes.
Un servidor caído es un síntoma. La conversión cayendo un 12% es el problema real.
Cuando conectás esas dos capas — infraestructura con outcomes de negocio — todo cambia. Las conversaciones con stakeholders cambian. Las prioridades cambian. La forma en que justificás inversión en confiabilidad cambia.
Cómo construí un dashboard de observabilidad de negocio
En mi último proyecto, implementamos tres capas de métricas:
Capa 1 — Técnica (para el equipo de ingeniería)
- Error rate por servicio
- Latencia p50 / p95 / p99
- CPU y memoria por pod
- Alertas activas
Capa 2 — Producto (para PMs y product owners)
- Tasa de conversión en tiempo real
- Usuarios activos por flujo crítico
- Abandono en checkout
- Tiempo hasta primera acción
Capa 3 — Negocio (para dirección)
- Revenue por hora vs. semana anterior
- Transacciones exitosas vs. fallidas
- Impacto estimado de incidentes en $
- SLA cumplimiento por cliente
El stack fue simple: Prometheus + Grafana para las dos primeras capas, y un dashboard personalizado en Metabase para la tercera.
Lo que cambió con este enfoque
Antes de implementar esto, cuando había un incidente tardábamos en promediar 45 minutos en entender el impacto real. Después, en menos de 5 minutos podíamos decir: "el incidente afectó X transacciones, impacto estimado $Y".
Eso cambia completamente cómo se toman decisiones en el momento de crisis.
La acción que podés tomar esta semana
Identificá el flujo más crítico de tu negocio — el que genera más revenue o el que más usan tus usuarios — y agregá una métrica de negocio a tu dashboard de monitoreo.
No necesitás rehacer toda tu observabilidad. Solo conectar un punto: ¿cuántos usuarios completaron ese flujo en la última hora?
Esa sola métrica va a cambiar la conversación con tu equipo y con el negocio.
¿Cómo medís el impacto de negocio en tu equipo? Escribime a [email protected]