Nagios es una herramienta de monitorización de sistemas de información: recoge logs de los sistema y los analiza con el fin de detectar fallos en el funcionamiento de un sistema.
El “regression testing” es una técnica para detectar errores, que consiste en comparar el funcionamiento actual de un sistema con el funcionamiento que tenía en el pasado (por ejemplo, hace una semana). Si el funcionamiento ha empeorado se pone en marcha una investigación para ver lo que está pasando. El objetivo es detectar fallos cuando comienzan a aparecer antes de que empiecen los problemas grandes de verdad.
En este video de Allison McKnight se explica cómo se ha configurado Nagios para hacer tal cosa, y cómo se ha organizado el equipo para trabajar en la solución de los problemas utilizando regression testing, y una herramienta de chat. El video comienza en el minuto 23, que es cuando Allison cuenta cómo han configurado Nagios para facilitarles la investigación del motivo del error.
¡Cuando el equipo detecta el problema y lo soluciona se hacen una foto!…. y la colocan en un enorme monitor festivo.
Discussion
Comments are closed.