Applicatieprestatiemonitoringtools zoals Datadog, Dynatrace, New Relic en vergelijkbare platforms zijn ontworpen om softwareservices te bewaken. API's, databases, wachtrijen en computerinfrastructuur. Ze meten de prestaties en beschikbaarheid onder belasting.
Waar APM-tools goed in zijn:
- Aanvraaglatentie en doorvoer voor API's en webservices
- Infrastructuurstatistieken (CPU, geheugen, schijf, netwerk) voor hosts en containers
- Foutpercentages en exception tracking in applicatiecode
- Gedistribueerde tracing voor microservices-architecturen
- SLO/SLA-monitoring op basis van prestatiestatistieken
De fundamentele discrepantie met datapipelines:
Datapipelines falen op manieren die niet overeenkomen met APM-concepten:
Stille fouten: Een pipeline kan succesvol worden uitgevoerd, geen fouten, normale duur, verwacht resourcegebruik, terwijl er geen rijen worden gekopieerd of onjuiste gegevens worden geladen. APM meet de uitvoeringsstatus, niet de datakwaliteit.
Schemawijzigingen: Een kolom die verdwijnt uit een brontabel is geen applicatiefout. De pipelinequery wordt uitgevoerd, retourneert geen resultaten voor de ontbrekende kolom en wordt zonder fouten voltooid. APM kent geen concept van schema-afwijkingen.
Volume-anomalieën: APM kan meten hoeveel rijen een kopieerbewerking heeft verwerkt, maar kent geen basislijn of drempelwaarde voor dat aantal rijen. "40.000 rijen gekopieerd" is een APM-metriek zonder inherente betekenis, deze wordt pas bruikbaar door vergelijking met historische basislijnen.
Latentieconcepten verschillen: APM-latentie wordt gemeten in milliseconden voor aanvraag-/antwoordcycli. Datapipeline-latentie wordt gemeten in uren, vanaf het moment dat de brongegevens zijn aangemaakt tot het moment dat ze in een rapport verschijnen. Dit zijn fundamenteel verschillende tijdschalen en detectiemechanismen.
Waar APM en datamonitoring elkaar overlappen
APM-tools kunnen nuttig zijn voor pipelines in specifieke scenario's: - Het monitoren van de API die een pipeline aanroept (bijv. een REST API die brondata levert) - Het monitoren van de computerinfrastructuur waarop de pijplijncode draait (bijv. geheugengebruik op een Databricks-cluster) - Integratie met waarschuwingsplatformen die ook gebeurtenissen van de pipeline kunnen ontvangen
In deze scenario's biedt APM toegevoegde waarde. Voor de betrouwbaarheid van de kernactiviteiten van de pipeline (refresh failures, datakwaliteit, lineage) zijn speciaal ontwikkelde datamonitoringtools geschikter.