Datadog - Learning Zone

Datadog to komercyjna platforma SaaS do monitoringu i obserwowalności (observability), która zbiera w jednym miejscu metryki z infrastruktury, dane o wydajności aplikacji i logi. Zamiast skakać między pięcioma osobnymi narzędziami, masz jeden dashboard, na którym widzisz, czy serwer się dusi, dlaczego endpoint odpowiada w 3 sekundy i co dokładnie poszło nie tak w logach — wszystko skorelowane czasowo na tej samej osi.

Jak to działa

Na monitorowanych maszynach (serwer, kontener, maszyna wirtualna) instalujesz lekki proces zwany Datadog Agent. Agent zbiera metryki — zużycie CPU, RAM, dysku, ruch sieciowy, statystyki bazy danych — i wysyła je do chmury Datadog, gdzie są przechowywane i wizualizowane. Komunikacja idzie w jedną stronę (z Twojej infrastruktury na zewnątrz), więc nie musisz wystawiać żadnych portów do świata.

Oprócz metryk Datadog ogarnia APM (Application Performance Monitoring) — śledzenie pojedynczych requestów przez wszystkie mikroserwisy za pomocą tzw. traces, zarządzanie logami, real user monitoring w przeglądarce oraz synthetic monitoring, czyli sztuczne sprawdzanie, czy strona w ogóle żyje. Do tego dochodzą alerty: ustawiasz próg (np. „CPU powyżej 90% przez 5 minut”) i dostajesz powiadomienie na Slacka albo PagerDuty, zanim klient zdąży się wkurzyć.

Przykład z praktyki

Masz aplikację w Pythonie na serwerze z Ubuntu. Instalujesz agenta i sprawdzasz, czy działa:

sudo datadog-agent status

Dopinasz integrację z PostgreSQL i nagle na wykresie widzisz, że co noc o 2:00 liczba wolnych zapytań strzela w górę. Klikasz w ten moment na timeline, przeskakujesz do skorelowanych traces z APM i okazuje się, że to nocny cron robi SELECT bez indeksu. Diagnoza w pięć minut zamiast wieczornego grzebania w logach po grep.

Na co uważać

Największa pułapka to koszty. Datadog rozlicza się per host, per milion zdarzeń logów, per span w APM — i rachunek potrafi urosnąć szybciej, niż się spodziewasz. Klasyczny błąd juniora: wysyłanie wszystkich logów na poziomie DEBUG z każdego kontenera, a potem zdziwienie fakturą. Filtruj i próbkuj to, co naprawdę musisz widzieć.

Drugi mit: „Datadog sam naprawi wydajność”. Nie naprawi — on tylko pokazuje, gdzie boli. Decyzje i tak podejmujesz Ty. I pamiętaj, że to rozwiązanie komercyjne — dla projektu hobbystycznego open-source’owe alternatywy bywają rozsądniejsze.

Pojęcia powiązane

Observability, monitoring, APM, metryki, logi, Prometheus i Grafana (popularna open-source’owa alternatywa), New Relic, Elastic Stack, alerting, SRE.