Uma abordagem comum ao lidar com problemas de desempenho em ambientes de TI é lançar diversas soluções potenciais como hipótese e ver qual apresenta resultados. Entretanto, os ambientes de TI estão se tornando cada vez mais complexos e variados, o que torna a estratégia de tentativa e erro ainda menos eficaz do que costumava ser. Portanto, abordarei como deve ser a solução de problemas no universo da TI híbrida em que nos encontramos e que continuará a nos rodear no futuro.
O que é a solução de problemas de TI?
A solução de problemas é uma habilidade essencial da TI. Também representa um elemento-chave do que, na SolarWinds, chamamos de monitoramento como disciplina. O objetivo da solução de problemas é fazer drill down para descobrir o problema básico que está afetando o desempenho, a entrega e o consumo de um aplicativo ou serviço. Sem um sólido domínio dessa habilidade, os profissionais de TI são incapazes de obter um entendimento aprofundado da causa e do efeito subjacentes de um incidente. No entanto, a solução de problemas de TI em várias camadas costuma transcender os silos funcionais na organização como um todo, e tecnologias de nuvem, TI híbrida, virtualização e hiperconvergência vêm transformando fundamentalmente a TI, tornando a solução de problemas mais importante e complexa que nunca.
Noções básicas da solução de problemas de TI
Para entender como será o futuro da solução de problemas e por que ela nunca foi tão importante, devemos primeiro abordar suas etapas básicas. Estas oito etapas fundamentais se aplicam a qualquer profissional, organização e ambiente de TI:
- Definir o problema
- Reunir e analisar as informações relevantes
- Construir uma hipótese ou causa provável
- Elaborar um plano de correção
- Implementar o plano
- Observar os resultados e recriar o plano de modo a reproduzir ou fazer a engenharia reversa dos resultados
- Repetir as etapas 2 a 6, conforme necessário
- Determinar a causa raiz e documentá-la
Embora simples, essas etapas se mantêm consistentes, independentemente de você estar lidando com a infraestrutura local tradicional, a TI híbrida ou até mesmo com um cenário centrado em DevOps.
O que realmente mudou, no entanto, foram o volume e a velocidade das tecnologias e dos serviços, o que afeta as regras para os profissionais de TI. Nosso tempo é sempre escasso – as horas do dia nunca parecem ser suficientes. Assim, com a velocidade e a quantidade de mudanças tecnológicas que estamos gerenciando, monitorando e corrigindo em funções normalmente baseadas em silos, é importante dar uma nova olhada nas ferramentas disponíveis para a solução de problemas.
Solução de problemas em um ambiente de TI híbrida
Como dissemos, a solução de problemas envolve basicamente a mesma sequência de etapas em quase qualquer ambiente. No entanto, já que a TI híbrida se tornou o padrão, concentrarei o restante dos meus comentários sobre solução de problemas em ambientes de TI híbrida. Na verdade, de acordo com o Relatório de tendências de TI da SolarWinds de 2016, apenas 15% das organizações brasileiras não migraram nenhuma infraestrutura ou aplicativo para a nuvem, embora 64% tenham afirmado que provavelmente nunca migrarão todos os serviços para fora do local.
Considere o seguinte exemplo:
Imagine um aplicativo em camadas com alguns recursos de computação e memória na forma de máquinas virtuais, tanto locais quanto como camadas da Web e de aplicativo na nuvem, hospedadas por um provedor, como o Amazon® Web Services (AWS®).
Quando um tíquete é aberto devido à lentidão do aplicativo, provavelmente o administrador inicial que recebe o tíquete é responsável por apenas uma parte. Dessa forma, o atendimento do tíquete deve começar pela equipe do aplicativo associado. No entanto, assim que o administrador do aplicativo começa a solucionar o problema, ele percebe, com base em logs de desempenho, tempos de resposta, ausência de anomalias na forma de eventos etc., que não se trata de um problema do aplicativo, e o tíquete é encaminhado para a equipe de rede.
Com sorte, a equipe de rede tem as ferramentas necessárias para verificar o desempenho em todos os provedores, desde o data center interno até o provedor de serviços de nuvem – neste caso, o AWS. Com essa visibilidade, eles podem examinar saltos e determinar que existe alguma latência, embora possa não ser a causa da degradação original do aplicativo descrita no tíquete.
Em seguida, o tíquete é encaminhado para a equipe de infraestrutura, que não tem tempo para solucionar a causa raiz, mas consegue ver e isolar os sintomas atuais, fornecendo uma correção temporária. Infelizmente, a causa raiz do problema não é totalmente identificada nem solucionada.
Um problema central neste exemplo, que se aplica a muitos departamentos de TI atuais, é que a organização de TI como um todo não tem a capacidade de atravessar as camadas da pilha de aplicativos e expor rapidamente um ponto único da verdade sobre os aplicativos.
Dessa forma, à medida que os constructos tecnológicos se tornam cada vez mais distribuídos, complexos e até mesmo inadvertidamente baseado em silos, enfrentamos o desafio de garantir o desempenho do aplicativo ou serviço, independentemente de sua arquitetura e entrega. As habilidades de solução de problemas devem evoluir e nos permitir proporcionar uma experiência positiva para os usuários finais ao identificar e entender a causa raiz dos problemas com mais rapidez.
No futuro da solução de problemas de TI, o monitoramento como disciplina e as ferramentas de solução de problemas estimularão a colaboração entre as equipes.
O futuro da solução de problemas de TI exige uma maneira inteiramente nova de visualizar e correlacionar dados de monitoramento a fim de melhorar a solução de problemas de desempenho em todo o ambiente de TI, desde a infraestrutura até a rede e os aplicativos e desde a infraestrutura local até os provedores de serviços na nuvem.
O futuro da solução de problemas de TI é a capacidade de combinar e correlacionar métricas de séries temporais, bem como métricas de desempenho históricas de várias fontes de dados da TI híbrida, o que inclui aplicativos, computação, rede, armazenamento, virtualização, Web e nuvem, em um único painel para visualizar o relacionamento de maneiras que até então eram impossíveis. Por exemplo, a elaboração de gráficos de dados de latência de rede e largura de banda dentro e fora do firewall da organização de TI, juntamente com métricas de computação de máquinas virtuais na nuvem, como instâncias do Amazon EC2®, para solucionar problemas de desempenho de aplicativos.
Esse é o futuro da solução de problemas de TI.
Conclusão
O processo de solução de problemas pode estar mais intricado que nunca, exigindo, com frequência, a colaboração entre muitos silos funcionais diferentes nas organizações de TI e além delas, como provedores de serviços de nuvem. Ainda que os princípios básicos da solução de problemas continuem sendo aplicáveis em nosso admirável mundo novo, as ferramentas que usamos nessas etapas devem evoluir para sermos capazes de lidar com o desafio.
Kong Yang é Head Geek™ da SolarWinds