Serverless Compute in Databricks und Azure Synapse einfach erklärt

Serverless Compute bedeutet, dass Microsoft oder Databricks die komplette Infrastruktur (VMs, Cluster, Skalierung und Wartung) automatisch verwalten. Als Anwender konzentrierst du dich nur auf die Ausführung deiner Abfragen oder Datenpipelines.

Du musst also keine Server bereitstellen, keine Clustergröße auswählen und keine Ressourcen verwalten.

Serverless Compute in Azure Synapse

Bei Azure Synapse Analytics gibt es zwei SQL-Varianten:

1. Serverless SQL Pool

  • Keine feste Infrastruktur
  • Abrechnung nach verarbeiteten Daten (Pay-per-Query)
  • Ideal für:
    • Ad-hoc-Abfragen
    • Analysen von Dateien im Data Lake
    • CSV-, Parquet- oder Delta-Dateien
  • Kein Datenladen notwendig

Beispiel:

SELECT *
FROM OPENROWSET(
BULK 'https://meinlake.dfs.core.windows.net/data/sales.parquet',
FORMAT='PARQUET'
) AS sales

Vorteile:

  • Keine Clusterkosten im Leerlauf
  • Sofort einsatzbereit
  • Automatische Skalierung

Nachteile:

  • Für sehr viele wiederkehrende Abfragen oft teurer als Dedicated Pools
  • Weniger Kontrolle über Performance

2. Dedicated SQL Pool (nicht serverless)

Hier reservierst du Rechenleistung dauerhaft.

  • Eigene Compute-Ressourcen
  • Manuelles Skalieren
  • Laufende Kosten auch bei Nichtnutzung

Serverless Compute in Databricks

Traditionell benötigte Databricks einen Cluster:

  • Anzahl Worker festlegen
  • Cluster starten
  • Cluster stoppen
  • Cluster verwalten

Mit Serverless Compute übernimmt Databricks diese Aufgaben automatisch.

Typische Einsatzgebiete

Serverless SQL Warehouse

Für BI-Tools wie:

  • Power BI
  • Tableau
  • Excel

Eigenschaften:

  • Sehr schnelle Startzeiten
  • Automatische Skalierung
  • Abrechnung nur bei Nutzung

Serverless Jobs

Für:

  • ETL-Prozesse
  • Notebook-Ausführungen
  • Datenpipelines

Serverless Notebooks

  • Sofort einsatzbereit
  • Keine Cluster-Konfiguration erforderlich

Vergleich Databricks vs. Synapse

MerkmalSynapse Serverless SQLDatabricks Serverless
Infrastruktur verwaltenNeinNein
Automatische SkalierungJaJa
AbrechnungPro TB gescannter DatenNach Compute-Nutzung
Geeignet für SQL-AbfragenSehr gutSehr gut
Geeignet für ETL und SparkEingeschränktSehr gut
Clusterverwaltung notwendigNeinNein
StartzeitSofortSehr schnell

Wann sollte man Serverless verwenden?

Serverless eignet sich besonders für:

  • Unregelmäßige Workloads
  • Ad-hoc-Analysen
  • Kleine bis mittlere Datenmengen
  • Entwicklung und Tests
  • Vermeidung von Administrationsaufwand

Dedizierte Ressourcen eignen sich eher für:

  • Dauerhafte hohe Auslastung
  • Vorhersagbare Lasten
  • Maximale Performance-Kontrolle

Kurz zusammengefasst

Serverless Compute bedeutet:

„Ich nutze Rechenleistung nur dann, wenn ich sie wirklich brauche – ohne Server oder Cluster selbst verwalten zu müssen.“

  • Azure Synapse Serverless SQL Pool → SQL-Abfragen direkt auf Dateien im Data Lake.
  • Databricks Serverless Compute → Automatisch verwaltete Spark- und SQL-Ressourcen für ETL, Notebooks und Analysen.
  • Abgerechnet wird nur die tatsächlich genutzte Rechenleistung.

Weiterführend