Sherlock no data center: o valor da correlação na investigação e solução de problemas de desempenho


Os constructos tecnológicos estão se tornando cada vez mais complexos e variados. Isso significa que os problemas de desempenho do data center – sejam relacionados aaplicativos, computação, rede, armazenamento, virtualização, Web, nuvem ou, mais provavelmente, a uma combinação deles – estão mais difíceis que nunca de solucionar. São verdadeiros mistérios. Para isso, você precisa se tornar um verdadeiro Sherlock Holmes® da TI. Tudo gira em torno da solução de problemas, uma das habilidades mais importantes para qualquer profissional de TI.

Raciocínio = Solução de problemas

Holmes é famoso por sua capacidade de raciocínio e pensamento lógico. Na TI, isso equivale ao processo de solução de problemas. A solução de problemas de TI é uma habilidade básica e um elemento essencial do que, na SolarWinds, denominamos monitoramento com disciplina. Ele permite que você faça drill down para descobrir a causa raiz de um problema. Sem essa habilidade, é quase impossível compreender a causa e dos efeitos subjacentes a qualquer incidente. Contudo, os problemas que envolvem várias pilhas, normalmente enfrentados pelos profissionais de TI atualmente, ultrapassam os silos funcionais na organização como um todo. Tecnologias como nuvem, virtualização, TI híbrida e infraestrutura hiperconvergente transformaram as bases da TI, tornando a solução de problemas entre esses sistemas distribuídos mais importante e complexa que nunca.

A esta altura, é importante rever as oito etapas fundamentais da solução de problemas, aplicáveis a qualquer profissional, organização ou ambiente de TI:

  1. Definir o problema
  2. Reunir e analisar as informações relevantes
  3. Construir uma hipótese ou causa provável
  4. Elaborar um plano de correção
  5. Implementar o plano
  6. Observar os resultados e recriar o plano de modo a reproduzir ou fazer a engenharia reversa dos resultados
  7. Repetir as etapas 2 a 6, conforme necessário
  8. Determinar a causa raiz e documentá-la

Embora essas etapas se mantenham consistentes, independentemente dos novos constructos tecnológicos, o volume e a velocidade da tecnologia e dos serviços mudaram, o que afeta as regras para os profissionais de TI. Nosso tempo é sempre escasso – as horas do dia nunca parecem ser suficientes e precisamos corrigir problemas o mais rápido possível.

É a correlação, meu caro Watson

Causalidade e correlação são importantes conceitos associados à solução eficaz de problemas. Entretanto, como você deve saber, correlação não equivale necessariamente a causalidade.

Causalidade é o resultado ideal na solução de problemas em qualquer ambiente; consiste em encontrar a causa exata e seu efeito, o que permite sua correção. Em outras palavras, as oito etapas da solução de problemas mencionadas acima foram projetadas para chegar à causalidade.

Por outro lado, a correlação é a exploração do contexto conectado de diversas variáveis ao longo do tempo para ver se elas conduzem à causa do problema de desempenho ou incidente, ainda que não a comprove com precisão. O ponto principal é associar e comparar uma variedade de métricas principais, como contadores de desempenho da rede e dos aplicativos, para monitorar a situação durante um período e, com o respaldo de experiência e competência, identificar a causa e corrigi-la. Por exemplo, correlacionar dados de latência da rede e largura de banda com dados específicos a computação e aplicativos de máquinas virtuais para determinar a causa raiz do problema de desempenho de um aplicativo distribuído.

Dessa forma, quando a questão é solucionar problemas de TI, embora a correlação não seja o mesmo que causalidade, a primeira deve fazer parte das etapas um a sete acima para ajudar a chegar à etapa oito.

Encontrando seu Sherlock interior

A correlação entre métricas e dados de desempenho requer que você tenha um certo nível de competência e familiaridade com seu ambiente, além de reconhecer status ativo/inativo ou verde/amarelo/vermelho. Ela também apresenta desafios em termos de habilidades pessoais. Habilidades pessoais se referem ao local de trabalho, como colaboração e comunicação. No entanto, essas habilidades pessoais, especialmente a colaboração, estão se tornando cada vez mais importantes para a devida solução de problemas de desempenho em sistemas altamente distribuídos, visto que estes apresentam uma probabilidade cada vez maior de envolver causas raiz que abrangem vários silos de tecnologias, regiões e provedores de serviços. Além disso, correlação e colaboração, embora sejam certamente dois conceitos diferentes, estão relacionadas – uma boa correlação normalmente exige colaboração, da mesma forma que a colaboração pode melhorar a correlação.

Aqui estão sugestões para ajudar você a encontrar seu Holmes interior e superar esses desafios:

  • Implemente o monitoramento com disciplina: Como já mencionei, usar a correlação para solucionar problemas de desempenho exige que você tenha um certo nível de competência e familiaridade com seu ambiente. A melhor maneira de conseguir isso é com o devido monitoramento de seu data center ao longo de toda a pilha. Isso exigirá um investimento em recursos, como um software de monitoramento e gerenciamento de TI.
  • Use seu conjunto de ferramentas de monitoramento para ajudar na correlação: Um bom conjunto de ferramentas de monitoramento deve ser capaz de ajudar você a visualizar e correlacionar dados de monitoramento da TI a fim de melhorar a solução de problemas de desempenho em todo o ambiente de TI, desde a infraestrutura até a rede e os aplicativos e desde a infraestrutura local até os provedores de serviços na nuvem. Busque a capacidade de simplesmente combinar e correlacionar métricas de séries temporais, bem como métricas de desempenho históricas de várias fontes de dados da TI híbrida, o que inclui aplicativos, computação, rede, armazenamento, virtualização, Web e nuvem, em um único painel compartilhável para visualização do relacionamento entre elementos suspeitos. Em seguida, colabore com especialistas no assunto que abranjam os silos envolvidos nesse painel.
  • Desenvolva suas habilidades pessoais: Habilidades pessoais servem para derrubar as barreiras entre os silos. No entanto, nem sempre são pontos fortes de profissionais de TI que podem ter sido atraídos para a área devido a uma inclinação para tecnologia e ciências. Dessa forma, cabe a nós desenvolver essas habilidades. As capacidades de se comunicar e de colaborar eficazmente são duas das habilidades pessoais mais importantes. Não há melhor maneira de começar a aprimorá-las do que colocando-as em prática.
  • Lembre-se das oito etapas da solução de problemas e siga-as: Embora simples e básicas, a aplicação das oito etapas da solução de problemas que mencionei aqui é quase universal. Embora as ferramentas que nos ajudam nessas etapas estejam evoluindo para lidarmos com os desafios, nunca se esqueça de que os princípios básicos da solução de problemas ainda se aplicam.

Conclusão

O processo de solução de problemas pode ser mais intricado que nunca, exigindo, com frequência, a colaboração entre muitos silos funcionais diferentes na TI e além dela, como provedores de serviços de nuvem. Entretanto, com o processo adequado e as ferramentas corretas, o uso da correlação para determinar a causalidade pode tornar a solução de problemas mais eficaz. Elementar, meus caros profissionais de TI.

Kong Yang é Head Geek™ da SolarWinds

Anterior CFM investe R$ 4 milhões em educação continuada
Próximo Magnamed abre fábrica nos Estados Unidos mirando novos mercados

Sem Comentários

Deixe uma Resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *