No mundo moderno, a maioria das pessoas vive soterrada por uma constante avalanche de dados que precisam ser decifrados rapidamente. Como resultado, algumas decisões são tomadas subconscientemente, enquanto outros fluxos de dados exigem nossa atenção e um processo de reflexão cuidadoso. Na verdade, ao buscarmos por mais dados que nos ajudem no processo de tomada de decisão, adquirimos uma abundância (alguns podem até chamar de superabundância) de dados que precisamos avaliar para determinar o que é importante e o que não é e, por fim, isolar os dados importantes dos detritos.
Embora seja global, esse fenômeno é visível principalmente no âmbito do monitoramento de infraestrutura, onde é fundamental separar rapidamente os dados críticos dos detritos para garantir o tempo de atividade da infraestrutura, o desempenho da TI e, em última instância, o sucesso nos negócios. Lembre-se: uma simples abundância de métricas não significa um bom monitoramento de infraestrutura. Com muita frequência, o resultado são alertas ignorados e a incerteza quanto às ações necessárias para corrigir o problema.
Estes são alguns fatores que podem tornar o monitoramento mais eficaz na era da abundância de dados:
- Simplicidade
- Contexto
- Gravidade
- Correlação
Em algumas empresas, há engenheiros que se dedicam exclusivamente ao monitoramento para torná-lo mais eficaz. Em outras, no entanto, há uma constante batalha entre o tempo gasto para resolver problemas urgentes e para fazer progresso em projetos maiores, e tudo isso sem reduzir o tempo de atividade. Disponibilizar tempo para trabalhar em soluções de monitoramento complexas é um luxo que muitos simplesmente não têm. É por isso que é tão importante que os sistemas de monitoramento e emissão de alertas sejam fáceis de manter, úteis para identificar rapidamente os problemas que exigem atenção urgente e proativos para ajudar a evitar tempos de inatividade não planejados. Em suma: simplicidade.
Contexto também é fundamental para um monitoramento eficaz. Você deve entender claramente o que está monitorando. Por exemplo, não é útil receber alertas constantes informando que uma parte da infraestrutura está inoperante, mesmo quando o aplicativo (onde tudo acontece) está funcionando normalmente com desempenho ideal, pois provavelmente a história não termina aí. Você precisa saber se essa parte da infraestrutura é essencial para o aplicativo. Se for, você não deverá ignorar os alertas, mesmo que o aplicativo esteja funcionando bem, pois é possível que eles indiquem um problema que está crescendo ao longo do tempo e que provavelmente afetará o desempenho do aplicativo em algum momento. Sem contexto e entendimento, o monitoramento e os alertas não são tão úteis quanto deveriam ser.
Além disso, é bom lembrar que nem todos os aplicativos e componentes de infraestrutura são criados da mesma forma. Alguns têm prioridade mais alta com base na função e no que será afetado caso eles fiquem inoperantes. Isso deve se refletir no monitoramento e na emissão de alertas. Para isso, é necessário levar a gravidade em conta. Tem tudo a ver com prioridades.
Por fim, qualquer monitoramento e emissão de alertas deve ser capaz de ajudar você e suas equipes de infraestrutura a correlacionareventos e ocorrências para identificar a causa raiz. Afinal, a identificação da causa raiz deve ser sempre o objetivo principal; o resto são medidas paliativas. Por exemplo, ser capaz de identificar que um problema de desempenho é resultado de um switch de upstream defeituoso e não do armazenamento de back-end pode reduzir bastante o tempo médio de resolução.
No final das contas, o mais importante é alinhar o monitoramento e a emissão de alertas com as prioridades dos seus negócios. Essa ideia pode ser intimidante; então, tenha em mente que simplicidade, contexto, gravidade e correlação devem ser seus objetivos de monitoramento e emissão de alertas.
Chris Paap é gerente técnico de produtos da SolarWinds