Conheça os 5 principais casos de uso de AIOPS

 

Após conceituar e explorar inicialmente AIOPS neste artigo https://www.brlink.com.br/blog/automacao/o-que-e-aiops-e-como-ela-pode-impactar-sua-operacao-de-ti/ , nos ocuparemos nesta sequência em detalhar os principais casos de uso de tecnologias de Inteligência Artificial em operações de TI. 

Alguns dos principais desafios de profissionais de tecnologia serão abordados nestes próximos tópicos: 

 

  1. Detecção de Anomalias

Talvez o caso mais comum de uso de AIOPS seja detectar anomalias para identificar problemas e entender tendências na infraestrutura e em aplicações. A detecção normalmente permite identificar desvios de padrões que em outras palavras é um “outlier”. 

Obviamente que para detectar o que é “anormal”, é preciso antes definir o que é “normal”. Um dos maiores desafios aqui é que nem sempre é tarefa simples definir o padrão de “normalidade” de uma métrica. Muitas delas mudam drasticamente ao longo de um único dia, demandando ferramentas de AIOPS que sejam capazes de definir padrões dinâmicos, ao invés de fixos.  

Padrões dinâmicos determinam a condição de normalidade de uma métrica com base em várias circunstâncias, como horas do dia, quantidade de usuários ativos e outros. 

Vale dizer também que a detecção de anomalias pode ocorrer de modo mais simples envolvendo uma única métrica por vez. Porém, existem sistemas capazes de analisar anomalias utilizando múltiplas métricas em conjunto e fazendo as correlações necessárias, para obter resultados mais inteligentes e assertivos. 

Um exemplo simples, é o monitoramento de métricas como uso de memória, de disco e de rede correlacionadas. Apenas o aumento de uso de disco pode não inferir num alarme, mas a alteração de comportamento das 3 métricas sim, podem identificar uma anomalia (outlier), gerando um alarme. 

Enquanto a detecção baseada em métricas simples é útil para monitorações mais simples de ambientes e geração de alarmes, a detecção baseada em múltiplas métricas pode ajudar a dar mais segurança na tomada de decisões automatizadas mais complexas. 

 

  1. Análise de causa raiz

Outra aplicação muito comum de AI na operação de TI é exatamente na detecção de causa raiz. Basicamente isto se refere a rastrear o problema até a sua origem (ou origens) para resolvê-lo. 

Como os sistemas tornam-se cada vez mais complexos, com muitas interdependências, este tipo de abordagem torna-se cada mais relevante. O humano precisa de ajuda para a identificação de causa raiz, especialmente porque normalmente esta identificação está associada com problemas de disponibilidade no ambiente e impactos no negócio. 

Vamos trabalhar com o exemplo de uma aplicação web, que possua frontendbackend, banco de dados entre outros e que passe a apresentar uma lentidão. Detectar a causa raiz desta lentidão nem sempre é uma tarefa fácil. Ela pode estar em qualquer lugar: banco de dados, gargalo de rede, aumento de usuários ativos, um novo deployment de versão de código dentre outros. Ao invés de seguir na estratégia de tentativa e erro, validando cada um destes itens, uma ferramenta de AIOPS conseguiria investigar rapidamente todas as métricas da aplicação e identificar o problema com muito mais agilidade. 

Para análise de causa raiz, é fundamental ter dados suficientes e de qualidade. Além das informações objetivas do ambiente, é importante inserir informações contextuais, como por exemplo, problemas que ocorreram no passado neste ou em outros sistemas e as suas causas raiz. Isto ajuda a ferramenta a interpretar melhor o que acontece. 

 

  1. Predição identificação de tendências

Uma das utilizações comuns de Machine Learning é prever o futuro, por isso, uma das mais comuns aplicações em AIOPS é a predição e identificação de tendências. Isto ajuda em diversos desafios de um time de TI. 

Prever como será a infraestrutura no futuro e fazer a otimização de recursos (right-sizing) é uma necessidade comum para as empresas, a predição aqui pode ajudar muito a reduzir custos e melhorar a resiliência de ambiente. 

Outro aspecto interessante é identificar a evolução de métricas e possíveis gargalos de infraestrutura. Muitas vezes, esta inteligência não deve ser utilizada apenas para escalar o ambiente, mas também para projetar necessidades de mudanças de arquitetura das aplicações ou da infraestrutura. 

A predição pode ser parceira de agendas estratégicas nas companhias, identificando demandas de planejamento e reorganização, inclusive dos próprios times de TI. 

 

  1. Gerenciamento de Alarmes

Embora seja normalmente confundido com a detecção de anomalias, o gerenciamento de alarmes é um pouco diferente. Aqui, ao invés de identificar padrões e outliers, o foco é correlacionar alertas que já foram criados por outros sistemas e organizá-los de maneira que façam sentido para a resolução do problema em questão.   

Esta é uma necessidade muito comum para a resposta a incidentes de TI. Muitas vezes, quando um problema acontece, diversos alertas são gerados simultaneamente, aumentando o ruído que chega ao time de suporte, dificultando o foco na resolução do problema. Com um sistema inteligente de gerenciamento de alertas, é possível filtrar e exibir os alertas que façam sentido, ajudando o time humano a resolver aquilo que é mais importante, com mais agilidade. 

 

  1. Remediação Automatizada

Além de ajudar na identificação do problema e de causa raiz, uma importante aplicação de AI nas operações de TI é exatamente na automação da remediação dos incidentes. 

Para muitos casos, o tempo de remediação do incidente é mais importante para o time de TI do que a existência do incidente em si. Incidentes vão ocorrer, sempre, mas se o tempo de remediação cair, o impacto ao negócio é reduzido. 

Um exemplo muito comum é a remediação de incidentes de segurança. Se existe uma conformidade monitorada, que defina que uma determinada porta de firewall não deve estar aberta, em eventual abertura desta porta, um sistema poderia automaticamente fechá-la para garantir a conformidade, remediando o incidente recém-identificado. 

É possível perceber que a aplicabilidade é larga, muita coisa pode ser automatizada em operações de TI, ainda mais hoje em dia com a nuvem e a infraestrutura como código ganhando protagonismo. 

 

Considerações Finais 

A aplicação de AIOPS passa desde a construção de estruturas e ferramentas de apoio aos humanos na tomada de decisões, até a substituição dos profissionais nas tarefas manuais e repetidas que eventualmente tomem na remediação de incidentes. Sem dúvida que a combinação humano-AI é aquela que traz mais resultados para as empresas. 

A BRLink possui um time capaz de apoiar a adoção de AIOPS, seja através de ferramentas de mercado ou na construção de experimentos usando Machine Learning e Inteligência Artificial. Conte conosco para explorar os seus desafios e identificar as oportunidades de evolução da sua operação.