MetricSign
NL|ENStart free →
Lineage

Hoe kan ik lineage vanuit Azure Data Factory naar Power BI opbouwen?

Read this article in English →

Om de herkomst van gegevens van ADF naar Power BI te koppelen, moeten drie gegevensbronnen worden verbonden: ADF-pipelinemetadata (welke pipelines naar welke tabellen schrijven), Power BI-gegevensbronmetadata (welke tabellen elke dataset leest) en optioneel uitvoeringsstempels om te bevestigen dat de afhankelijkheid actief is.

Stap 1: Inventariseer de uitvoer van ADF-pipelines

Voor elke ADF-kopieeractiviteit bevat de JSON-definitie de configuratie van de sinkdataset, inclusief de doelserver, database, schema en tabelnaam. U kunt deze gegevens extraheren door de ADF REST API-eindpunten voor het weergeven van pipelines en het ophalen van pipelines aan te roepen en vervolgens de sinkconfiguraties van de activiteit te parseren.

Voor ADF-gegevensstromen met complexere transformaties specificeert de sinkconfiguratie op vergelijkbare wijze de doeltabel.

Stap 2: Inventariseer de Power BI-gegevensbronconfiguraties

Het eindpunt getDatasources van de Power BI REST API retourneert de verbindingsreeks van de gegevensbron voor elke dataset. Voor SQL Server- en Azure SQL-bronnen omvat dit de hostnaam van de server, de databasenaam en (voor tabel- of weergaveverbindingen) het schema en de tabelnaam.

Niet alle datasets retourneren details op tabelniveau; sommige retourneren alleen de server en de database. Deze bieden echter nog steeds een gedeeltelijke herkomst (dataset → database), zelfs zonder de specifieke tabel.

Stap 3: Matchen op server, database en tabel

Match bij beide inventarissen ADF-pipelinebestemmingen met Power BI-gegevensbronnen waarbij server, database en tabel overeenkomen. Exacte tekenreeksmatching werkt in de meeste gevallen. Let op variaties in servernamen (FQDN versus korte naam, aanwezigheid van poort) en verwerk deze met normalisatie.

Stap 4: Bevestigen met uitvoeringsstempels

Een structurele match geeft aan dat de pipeline de dataset kan vullen, maar doet hij dat ook daadwerkelijk continu? Controleer dit door na te gaan: ligt de tijdstempel van de laatste succesvolle uitvoering van de ADF pipeline vóór de tijdstempel van de laatste succesvolle refresh van de dataset? Zo ja, dan is de afhankelijkheid actief.

Omgaan met indirecte afhankelijkheden

Sommige datasets lezen niet rechtstreeks uit de ADF-uitvoertabel, maar uit een view die de ADF-uitvoer koppelt aan andere tabellen of uit een dbt-model dat de ADF-uitvoer transformeert. Deze indirecte afhankelijkheden vereisen handmatige mapping of integratie met de transformatietool (dbt-manifest, Databricks-jobmetadata) om de volledige keten te traceren.

Het behoud van herkomst in de loop van de tijd

De uitvoertabellen van de pipeline en de verbindingsreeksen van datasets veranderen naarmate de omgeving evolueert. Herkomstkaarten moeten regelmatig worden bijgewerkt, ofwel door het matchingproces periodiek opnieuw uit te voeren, ofwel door wijzigingen te detecteren via change data capture op de relevante metadata.

Related questions

Related integrations

Related articles

← Alle vragen