MetricSign
NL|ENToegang aanvragen
Data Lineage8 min·

End-to-End Data Lineage: Van ADF naar Power BI

Zonder een overzicht van uw dataketen begint elk onderzoek bij nul.

Read this article in English →

Het vraagstuk van de diagnose

Uw Power BI dashboard toont verkeerde cijfers. Waar begint u? Zonder lineage metadata is het antwoord: overal. U controleert de actualisatiegeschiedenis van de dataset in Power BI Service. U bekijkt ADF pipeline runs in Azure Monitor. U bevraagt de staging database om te zien of de data er redelijk uitziet. U leest de Power Query stappen door op zoek naar iets voor de hand liggends.

Dit proces — een fout onderzoeken zonder een overzicht van de dataflow — duurt van 30 minuten tot enkele uren, afhankelijk van de complexiteit van de pipeline en de ervaring van de engineer die de diagnose stelt. Voor een eenvoudige pipeline kan het snel gaan. Voor een keten die ADF, Databricks, dbt, Azure SQL en Power BI omvat, is het een detective-onderzoek dat zelden is afgerond voordat iemand ongeduldig om een ETA vraagt.

Data lineage lost dit op. Lineage is een overzicht van hoe data door uw systemen stroomt: welke pipeline welke tabel heeft geproduceerd, welke transformatie van die tabel heeft gelezen en naar een andere heeft geschreven, welke Power BI dataset van die output trekt, en welke rapporten op die dataset zijn gebouwd. Met lineage vertelt een fout op elk punt in de keten u precies wat er downstream wordt beïnvloed — en precies wat u upstream moet onderzoeken.

De keten: van ADF naar Power BI

Een typische enterprise dataketen ziet er ongeveer als volgt uit:

  1. Bronsystemen: SQL Server databases, SAP exports, REST API's, SFTP bestanden, Dataverse
  2. Azure Data Factory: orkestreert de verplaatsing en initiële transformatie van bronnen naar staging
  3. Staging laag: Azure SQL Database, Azure Data Lake of Synapse Analytics — de landing zone
  4. Transformatielaag: Databricks notebooks, dbt models of Synapse SQL transformaties die analytische modellen bouwen
  5. Serving laag: Azure SQL of Synapse Analytics met schone, query-geoptimaliseerde tabellen
  6. Power BI datasets: semantische modellen die data ophalen uit de serving laag
  7. Power BI rapporten: visualisaties gebouwd op die datasets

Bij elke stap kan er iets misgaan. De ADF pipeline kan falen of lege data kopiëren. De Databricks job kan een fout geven. Het dbt model kan incorrecte output produceren. De Power BI vernieuwing kan mislukken of verouderde data laden. Elk van deze fouten heeft een downstream effect op elke volgende laag.

Zonder lineage controleert u elke stap onafhankelijk in aparte monitoringconsoles. Met lineage ziet u de keten in één overzicht: de ADF pipeline in stap 2 is mislukt — datasets X, Y en Z in stap 6 zijn getroffen — rapporten A, B en C in stap 7 tonen momenteel verouderde data.

Waar lineage data vandaan komt

Lineage is geen enkelvoudige databron — het wordt samengesteld uit meerdere signalen.

Pipeline output tabellen: ADF pipelines schrijven naar specifieke tabellen. Door de pipeline naam en de doeltabel bij elke run vast te leggen, krijgt u een directe koppeling tussen pipeline runs en de database toestand.

dbt manifest: Het manifest bestand documenteert de volledige DAG van dbt models — welke models van welke bronnen afhangen, welke bronnen met welke databases verbonden zijn. Dit is een van de rijkste lineage bronnen beschikbaar, en het wordt al gegenereerd als onderdeel van elke dbt build.

Power BI datasource metadata: De Power BI REST API retourneert de databron voor elke dataset — de server, database en tabel- of viewnaam. Dit biedt de koppeling tussen de serving laag en het Power BI model.

Databricks job metadata: Databricks jobs lezen van en schrijven naar Delta tables. De job run API biedt voldoende metadata om te traceren welke job welke data heeft verwerkt en wanneer.

Het samenvoegen van deze signalen tot een coherente lineage graph vereist matching op gemeenschappelijke identifiers — tabelnamen, databasenamen, server hostnames. De matching is in de praktijk onvolledig omdat naamgevingsconventies niet altijd consistent zijn. Maar zelfs 70% dekking is dramatisch nuttiger dan helemaal geen lineage. U streeft niet naar perfecte documentatie; u streeft naar bruikbare onderzoekssnelkoppelingen.

Lineage-bewuste monitoring in de praktijk

Hetzelfde scenario — verkeerde cijfers in een Power BI dashboard — afgehandeld met en zonder lineage.

Zonder lineage: U opent Power BI Service, controleert de actualisatiegeschiedenis (geslaagd). U controleert ADF Monitor (geen fouten zichtbaar in het pipeline overzicht). U bevraagt de staging tabel (data lijkt aanwezig). U controleert de Databricks job (voltooid met 2 waarschuwingen). Na 90 minuten ontdekt u dat één notebook in de Databricks job stil heeft gefaald en partiële output heeft geproduceerd. De partiële output werd in Power BI geladen.

Met lineage: Het monitoringsysteem toont: Sales Overview dataset → sales_reporting dbt model → databricks_daily_transform → mislukte notebook compute_margins. U ziet de impact meteen: drie datasets zijn afhankelijk van deze output, acht rapporten tonen momenteel mogelijk incorrecte data. De on-call engineer ontvangt een alert met deze context al samengesteld. Onderzoekstijd: minder dan 10 minuten.

Het verschil is niet alleen snelheid — het is zekerheid. Zonder lineage kunt u een getroffen dataset missen en stakeholders vertellen dat het probleem is opgelost wanneer dat niet zo is. Met lineage is impactbeoordeling systematisch en volledig.

Upstream vs. Downstream: twee richtingen van lineage

Lineage werkt in beide richtingen, en elke richting dient een ander doel.

Upstream traversal (root cause): Deze dataset toont verkeerde data — welke pipeline heeft hem geproduceerd? Welk bronsysteem heeft die pipeline gevoed? Is de pipeline op schema gelopen? Heeft hij de verwachte rijen geladen? Upstream traversal is de onderzoeksrichting: u begint bij het gebroken onderdeel en traceert terug naar de oorzaak.

Downstream traversal (impact): Deze ADF pipeline is mislukt — welke datasets zijn afhankelijk van zijn output? Welke rapporten zijn gebouwd op die datasets? Welke teams gebruiken die rapporten en moeten worden geïnformeerd? Downstream traversal is de communicatierichting: u begint bij de fout en traceert vooruit om de impact te begrijpen.

Voor teams die een grote Power BI omgeving beheren — tientallen workspaces, honderden datasets, duizenden rapporten — is downstream impactanalyse de enkelvoudig meest waardevolle mogelijkheid die lineage biedt. U kunt onmiddellijk antwoorden op 'deze ADF pipeline is mislukt — welke rapporten zijn getroffen?' in plaats van handmatig de datasource configuratie van elke dataset te controleren.

Proactieve monitoring wordt mogelijk zodra u dit overzicht heeft. Wanneer een ADF pipeline faalt om 02:30 en drie Power BI datasets gepland staan voor vernieuwing om 05:00, kan een lineage-bewust systeem de on-call engineer al om 02:30 waarschuwen met een lijst van datasets die risico lopen — voordat die vernieuwingen draaien en vroege gebruikers verouderde data serveren.

Gerelateerde foutcodes

Gerelateerde integraties

Gerelateerde artikelen

← Alle artikelen