Cloudflare migliora la gestione degli alert: ridurre l’alert fatigue
Il personale on-call di Cloudflare affronta spesso un ambiente stressante, illustrato dal meme ’this is fine’. Gli alert frequenti portano a una alert fatigue, stato di esaurimento derivato dalla risposta a alert non prioritari. Per combattere l’alert fatigue, i team di Cloudflare conducono periodiche analisi degli alert, migliorandone la precisione e l’azione. Singh, nel suo post, spiega l’importanza dell’osservabilità degli alert e i metodi utilizzati da Cloudflare per migliorarla con strumenti open-source e best practices. Prometheus svolge un ruolo chiave nella gestione degli alert presso Cloudflare, monitorando oltre 1100 server in più di 310 città. L’Alertmanager centralizza gli alert e, inizialmente, Cloudflare utilizzava alertmanager2es per il monitoraggio, ma questo presentava delle limitazioni. Cloudflare ha superato queste limitazioni interrogando l’API di Alertmanager e utilizzando vector.dev e ClickHouse per trasformare e analizzare i dati degli alert.