Quando os administradores de sistema podem escolher entre ter um servidor íntegro ou com bom desempenho, eles optam pelo desempenho. O motivo é bem simples: desempenho gera lucros. Os administradores de sistema mantêm seus empregos trabalhando com recuperação, mas todos sabemos que desempenho dá lucro, e integridade sempre vem em segundo lugar.
Quando as mesmas escolhas são aplicadas a humanos, você tem uma perspectiva diferente. Eu posso ter boa saúde para correr 1,5 km em quatro minutos, mas minhas pernas jamais conseguiriam isso. E não seria difícil para você encontrar alguém que priorize o desempenho em vez da saúde do próprio corpo. A maioria de nós sabe que não é para confundir saúde com capacidade de desempenho.
Então por que não valorizamos mais a integridade em vez do desempenho do servidor?
Bem, como já mencionei, o motivo é que os profissionais de TI não são compensados pela integridade de um servidor. Mas também é porque não medimos a integridade de um servidor, exceto quando usamos métricas com base no desempenho. Como resultado, há uma infinidade de ferramentas no mercado que misturam desordenadamente métricas de desempenho e de integridade do servidor.
A verdade é que meu servidor pode ser íntegro, mas não capaz de atender às demandas de desempenho dos usuários finais. E mesmo que essas demandas sejam atendidas, o servidor poderá estar prestes a falhar sem condições de reparo.
Observando as diferenças entre os dois, podemos ver que cada um tem um propósito na hierarquia de necessidades de monitoramento. As métricas de desempenho ajudam a medir o rendimento e nos dão uma ideia de como ajustar corretamente uma carga de trabalho ou consulta. As métricas de integridade ajudam a medir a capacidade dos recursos e indicam se os componentes do hardware estão prestes a falhar.
Vamos ver um exemplo comum: uma consulta de banco de dados simples que consome 6% de toda a CPU. As métricas de desempenho nos permitem ajustar a consulta para usar menos CPU. Mas a métricas de integridade nos ajudam a entender se esse uso de 6% da CPU está causando problemas em outros processos. E ter uma linha de base do histórico de desempenho de consultas anteriores nos ajuda a saber se o uso de 6% da CPU é normal.
A combinação de todos esses fatores nos ajuda a identificar se precisamos de mais tempo para ajustar a carga de trabalho ou se o tempo é ideal para escalonamento vertical ou horizontal. Além disso, quando as métricas de desempenho e integridade são combinadas, você pode gerar alertas acionáveis com potencial para eliminar muitas horas gastas em um modo reativo, apagando incêndios.
Ao combinar essas duas métricas, você obtém os dados certos, no momento certo, para poder executar as ações adequadas aos usuários finais.
Thomas LaRock é Head Geek™ da SolarWinds