Monitoramento com Zabbix
O Zabbix é a plataforma de Monitoramento de Redes, Infraestrutura e Serviços (NOC) do CeTI/PMDF. A solução monitora os mais críticos componentes da rede a fim de garantir os melhores índices de tempo de atividade (Uptime).
Arquitetura de Coleta
Para suportar grandes demandas da infraestrutura corporativa:
- O painel principal do Zabbix (Server e Web Front-end) concentra as configurações visuais via acesso do Active Directory.
- Zabbix Proxies: São espalhados pelas VLANs que não deveriam ter visibilidade direta ao NOC, concentrando as medições e submetendo dados periodicamente para economizar carga no Server central.
- Zabbix Agents: Máquinas Virtuais (Linux, Windows Server), Controladores de Active Directory, e Nodes do Kubernetes utilizam a variante Ativa e Passiva destes agentes de software para injetar coletas.
NOC em TVs
Múltiplas Dashboards (Painéis Gráficos) dinâmicas do Zabbix operam permanentemente expostas nos televisores físicos da SSSI focados na operação NOC: Status Kubernetes, Links ISP Principais, Bancos de Dados MSSQL/Oracle.
Mapas e Triggers (Gatilhos)
A SSSI aplica limites chamados Triggers nas métricas enviadas pelo Agent ou SNMP:
- Discos C: com menos de 20% > Alerta Warning (Amarelo).
- Queda de Processo HTTPD em VMs Legadas > Alerta Average (Laranja).
- Latência alta nos túneis Checkpoint > Alerta Informational (Azul).
Se a avaliação de uma Trigger confirmar a queda, ações automatizadas ou aberturas de interações de incidentes rolam para a equipe de SSSI.
Guia Rápido: Resolvendo Alertas (Acknowledgment)
Público-alvo: O time de suporte Plantonista/NOC do CeTI.
O que fazer quando ocorre um alerta nos telões do Zabbix indicando interrupção de um Switch ou Máquina?
- Fazer o Login na interface da Web corporativa do Zabbix.
- Acessar a página superior
Monitoring->Problems. - Selecionar o Problema piscando e clicar em sua descrição ou sobre a coluna
Ack. - Escrever um pequeno comentário de que assumiu o chamado ("Verificando causa de reboot"). Isto marca a janela de Acknowledgment dizendo para os outros plantonistas não perderem tempo duplicando diagnóstico enquanto o problema perdura.
- Iniciar tratamentos operacionais na Máquina (via SSH ou RDP).
- Após sanar o problema as coletas automáticas removerão o problema ativo (Resolved). Se for um status temporário ou falso-positivo, discuta a adequação da Trigger com o time SSSI de projeto no comitê de Gestão de Mudanças.