Impactanalyse stroomafwaarts is de voorwaartse richting van het doorlopen van de herkomst. In plaats van te vragen "waardoor is dit rapport uitgevallen?" (achterwaartse analyse), vraagt het "dit onderdeel is zojuist uitgevallen - wat zijn de gevolgen hiervan stroomafwaarts?"
Waarom impactanalyse stroomafwaarts belangrijk is
Wanneer een pipeline om 02:30 uur uitvalt, is de eerste reactie van de dienstdoende engineer om de pipeline te repareren. Maar voordat met de reparatie wordt begonnen, beantwoordt de impactanalyse de volgende vragen: hoe urgent is dit? Is er één rapport getroffen of vijftig? Is een van die rapporten relevant voor een bestuursvergadering over 4 uur?
Zonder impactanalyse stroomafwaarts vereist deze beoordeling dat de configuratie van de gegevensbronnen van elke dataset handmatig wordt gecontroleerd om te zien welke verwijzen naar de getroffen tabel. Voor een omgeving met 50 datasets kost dit aanzienlijk veel tijd. Voor een omgeving met 500 datasets is dit niet haalbaar binnen de tijdspanne voordat gebruikers aan het werk gaan.
De keten van impact
Bij een typische bedrijfsdata-infrastructuur kan een enkele pipelinefout leiden tot:
- 1 mislukte ADF pipeline
- 3 stagingtabellen die nu verouderd zijn (de pipeline schrijft naar meerdere bestemmingen)
- 8 Power BI-datasets die gegevens uit die stagingtabellen lezen
- 47 rapporten die op die datasets zijn gebaseerd
- 12 bedrijfsonderdelen die die rapporten gebruiken voor hun dagelijkse werkzaamheden
Het kennen van deze keten vereist geen verder onderzoek, het vereist een vooraf opgebouwde lineage.
Classificatie van de impact
Naarmate de impact zich verder ontwikkelt, kan de impact worden geclassificeerd: inzicht in de ernst van een incident op basis van het aantal getroffen assets met hoge prioriteit. Een incident dat een zelden gebruikt analyserapport treft, heeft een andere prioriteit dan een incident dat een dashboard op bestuursniveau treft.
Classificatie vereist niet alleen inzicht in welke rapporten getroffen zijn, maar ook in welke rapporten cruciaal zijn. Dit betekent dat de lineage-kaart moet worden voorzien van rapportprioriteit, meestal gebaseerd op gebruiksstatistieken (aantal weergaven, unieke kijkers) of handmatige tagging door data-eigenaren.
Proactieve waarschuwingen met impactanalyse
De meest waardevolle toepassing van downstream impactanalyse is proactieve waarschuwing: wanneer een pipeline om 02:30 uur uitvalt, identificeert het systeem de 8 downstream datasets die om 05:00 uur vernieuwd zouden moeten worden en stuurt het om 02:30 uur een waarschuwing. Dit in plaats van te wachten tot die refresh mislukken en stale data aan gebruikers worden getoond om 07:00 uur.
Deze verschuiving van reactief naar proactief reageren – het detecteren van de impact voordat gebruikers deze zien – is de bepalende eigenschap van lineage-aware monitoring.