MetricSign
NL|ENStart free →
Integrations

Hoe is de job monitoring van Databricks gekoppeld aan rapportage in Power BI?

Read this article in English →

Databricks vormt vaak de rekenlaag tussen de ruwe brongegevens en de Power BI-datasets. Databricks-taken voeren transformaties uit, aggregeren gegevens en schrijven naar Delta-tabellen of Azure SQL-tabellen die vervolgens door Power BI-datasets worden opgevraagd tijdens het vernieuwen.

Hoe de afhankelijkheid werkt

De typische keten ziet er als volgt uit: 1. Ruwe gegevens komen terecht in Azure Data Lake Storage (via ADF, Kafka of directe upload) 2. Databricks-taken lezen de ruwe gegevens en schrijven getransformeerde Delta-tabellen 3. Power BI-datasets lezen uit die Delta-tabellen (via Direct Lake of importmodus) 4. Power BI-rapporten visualiseren de gegevens

Als stap 2 mislukt of onvolledige uitvoer produceert, mislukt stap 3 (als de Delta-tabel ontbreekt) of laadt verouderde/incorrecte gegevens (als de vorige versie van de Delta-tabel nog aanwezig is).

Wat te monitoren in Databricks

Status van de taakuitvoering: Het meest basale signaal: is de taak voltooid of mislukt? De Databricks Jobs API retourneert de uitvoeringsgeschiedenis met status, starttijd, eindtijd en foutdetails voor mislukte uitvoeringen.

Basislijn voor taakduur: Een taak die normaal gesproken 20 minuten duurt en nu 90 minuten nodig heeft, ondervindt prestatievermindering. Dit komt waarschijnlijk door de groei van het datavolume, de druk op de clusterbronnen of een inefficiënte query. MetricSign gebruikt MAD (Median Absolute Deviation) om te detecteren wanneer een taak significant trager is dan de historische basislijn.

Fouten op notebookniveau in taken met meerdere notebooks: Een Databricks job kan bestaan uit meerdere notebooks die achter elkaar worden uitgevoerd. Als één notebook mislukt, maar de taak is geconfigureerd om door te gaan, kan de taak worden voltooid met de status 'Gedeeltelijk geslaagd' terwijl er gedeeltelijke uitvoer wordt geproduceerd. Het monitoren van de taakstatus op notebookniveau (niet alleen de taakstatus) detecteert dit.

Databricks-monitoring koppelen aan Power BI

De verbinding tussen een Databricks job en een Power BI-dataset wordt tot stand gebracht via de Delta-tabel die ze delen. MetricSign vergelijkt de paden van de uitvoertabellen van Databricks-taken met de configuraties van de Power BI-gegevensbronnen om de herkomstkoppeling te maken.

Wanneer een Databricks job mislukt of traag verloopt, worden de gekoppelde Power BI-datasets geïdentificeerd en opgenomen in de incidentcontext. De melding luidt dan niet alleen "taak X is mislukt", maar "taak X is mislukt en datasets Y en Z worden over 2 uur vernieuwd vanuit de uitvoer ervan."

Related questions

Related integrations

Related articles

← Alle vragen