Megfigyelhetőség és Monitoring
Amit nem látsz, azon nehéz javítani. Olyan monitoringot építek, ami tényleg megmutatja, mi fontos.
Mivel foglalkozom
Sok helyen a monitoring vagy túl zajos, vagy túl csendes. Az egyik esetben minden pittyeg, a másikban pont a valódi gond marad észrevétlen. Olyan megfigyelhetőségi rendszereket rakok össze, amelyek a csapatod mindennapi kérdéseire adnak választ. Nem többet, nem kevesebbet.
Metrikák és dashboardok
- Prometheus beállítás átgondolt service discoveryvel és retencióval
- Thanos vagy Cortex hosszú távú tároláshoz és több klaszter adatainak összefogásához
- Grafana dashboardok, amelyek nem csak szépek, hanem első ránézésre érthetők is
- Egyedi metrikák és instrumentációs tanácsadás
Naplózás
- ELK stack (Elasticsearch, Logstash, Kibana) vagy Loki + Grafana bevezetése
- Strukturált naplózási szabványok kialakítása és bevezetése
- Napló-aggregáció, feldolgozás és retenciós szabályok rendbetétele
- Költséghatékony naplózás: mit érdemes megtartani, mintavételezni vagy elengedni
Riasztások és SLO-k
- SLO és SLI definiálása az üzleti célokhoz igazítva
- Error budget szabályok és burn rate riasztások kialakítása
- Riasztás routing: PagerDuty, OpsGenie és Slack integráció
- Riasztásfáradtság csökkentése: kevesebb, jobb riasztás, nyugodtabb ügyelet
Nyomkövetés és profilozás
- Elosztott nyomkövetés Jaegerrel vagy Tempóval
- OpenTelemetry instrumentáció
- Teljesítményprofilozás és szűk keresztmetszetek feltárása
- Metrikák, naplók és trace-ek összekötése a gyors kiváltó ok elemzéshez
Kinek szól
- Production környezetet üzemeltető csapatoknak, akik szeretnének végre tisztán látni
- Riasztásokban elfáradt szervezeteknek, ahol túl sok jelzés mellett pont a lényeg veszik el
- SLO-kat használó cégeknek, ügyfélszerződésekhez vagy belső megbízhatósági célokhoz
- Azoknak, akiket már ért kellemetlen meglepetés egy kiesésnél, és inkább legközelebb időben szeretnének tudni róla