BipTalks Split: Nešto ne valja? OpsGenie je već javio!

U The Works coworkingu u srijedu se održao meetup pod nazivom “BipTalks Split: Nešto ne valja? Nema problema, OpsGenie je već javio!” u organizaciji Infobipa.

Andrija Novogradec, Staff DevOps engineer u Infobipu, pričao je o monitoringu i observabilityju, o tome zašto su isti važni u nadzoru virtualnih strojeva i data centara, kako upravljati logovima i alarmima, a otkrio nam je više i o OpsGeniu.

Monitoring i observability

Monitoring omogućuje monitoriranje sustava predefiniranih setova metrike i logova.

Observability je aktivno debugiranje sistema utemeljeno na istraživanju nedefiniranih svojstava i uzoraka.

Primjerice, monitoring je kada samo dobivamo obavijesti o tome da se hard disk puni, a observability kada provjerimo je li to bio false alarm ili ne kroz aktivno testiranje.

U ovom slučaju bismo morali pronaći ključne metrike za praćenje i provjeriti ponavljanje alarma o upotrebi resursa.

Ali kad imate mnogo poslužitelja koji pokreću tisuće usluga u više desetaka data centara, kako ih nadzirati na dosljedan i logičan način?

Four Golden Signals

Odgovor se krije u Four Golden Signals, odnosno četiri zlatna pravila:

– Request Rate (Traffic) je količina zahtjeva koje sustav trenutno obrađuje,

– Error Rate je broj zahtjeva koji nisu uspjeli ili su vratili neočekivani odgovor,

– Latency je brzina procesuiranja zahtjeva,

– Saturation je postotak raspoloživih resursa koje smo iskoristili.

Važni alati

Andrija je spomenuo važnije alate u monitoringu i observabilityju: Prometheus, Grafana, Kibana, OpsGenie, Slack, Azure Monitor, New Relic i AWS Cloudwatch.

Neke od navedenih je detaljnije opisao:

Prometheus je open-source monitoring and alerting toolikit. Skuplja metriku s virtualnih strojeva i šalje ga OpsGeniu. Između ostalog, detektira lažna pozitivna i lažna negativna upozorenja, kao i one koji su neizvršivi.

Grafana je još jedan open-source alat koji izrađuje vizualizacije uz pomoć grafova, statistike i nadzornih ploča. Ima velik broj vizualnih konfiguracija i jednostavna je za korištenje, no jedini nedostatak je što alerti nikad nisu nadograđeni, već uvijek zadržava samo prvu poruku koju dobije.

Graylog je centralizirani management log system jednostavne arhitektur,e koja se sastoji od servera, opensearcha ili elasticsearcha i MongoDB-a. Usmjerava logove, kroz sidecar ih skuplja i transformira u GELF – Graylog Extended Log Format, koji razlikuje više vrsta podataka.

OpsGenie – incident i alert management platforma

Svi spomenuti alati komuniciraju s OpsGenie, incident i alert management platformom, koja ih ujedinjuje, prima njihove prikupljene podatke i šalje ih dalje do usera sms-om, emailom, Slackom i sličnim aplikacijama.

Njegova najjača stavka jest da automatski daje upozorenja ako se oni ne potvrde odmah.

Tu su važne primary i secondary support; ako se ne javi prva, prosljeđuje se drugoj. Ako se nitko ne javi na incident, ide se na engineering management.

Vidimo se opet!

Predavanje je završilo uz nekoliko pitanja iz publike, ali i važan savjet predavača:

Nikad dovoljno alerta i metrica za pratiti!

P.S. Bacite oko na Split Tech City kalendar i vidimo se na nekom od nadolazećih meetupa!

Fotografije: Infobip

Podijeli

O autoru:

Marja Radić

Iako sam prvostupnica povijesti i povijesti umjetnosti, gledam daleko naprijed. Zato imam website o kriptovalutama, brdo ljubavi prema nećacima i roditeljima o kojima volim voditi brigu. Sve ostalo stane u famozne tri naše beside: kava, more i sunce.