STACKIT Workflows – Datenpipeline-Orchestrierung
Einzelne Datenverarbeitungsschritte zu haben ist gut – aber erst wenn sie zuverlässig nacheinander, parallel oder zeitgesteuert ablaufen, entsteht eine echte Datenpipeline. STACKIT Workflows ist eine Managed Orchestrierungs-Engine, mit der du Datenpipelines als Code definierst, planst und überwachst.
Was ist STACKIT Workflows?
STACKIT Workflows ist ein Managed Service zur Orchestrierung von Datenpipelines. Du definierst Abhängigkeiten zwischen Aufgaben als DAGs (Directed Acyclic Graphs), und die Engine kümmert sich um Scheduling, Retry-Logik und Monitoring.
- DAGs als Code: Pipelines werden in Python definiert – versionierbar, testbar, reviewbar.
- Zeitsteuerung: Cron-basiertes Scheduling für regelmäßige Ausführungen.
- Abhängigkeitsmanagement: Tasks werden erst ausgeführt, wenn ihre Vorgänger erfolgreich waren.
- Retry & Alerting: Automatische Wiederholungsversuche bei Fehlern mit konfigurierbaren Benachrichtigungen.
- Integrationen: Native Anbindung an Dremio, Intake, Object Storage und STACKIT-Datenbanken.
Tutorial: Eine Datenpipeline erstellen und ausführen
1. Voraussetzungen
- Ein aktives STACKIT-Projekt mit aktiviertem Workflows-Service.
- Die STACKIT CLI installiert.
2. DAG definieren
Erstelle eine Datei etl_pipeline.py:
from stackit_workflows import DAG, Task
from datetime import datetime
dag = DAG(
name="daily-etl",
schedule="0 6 * * *", # Täglich um 06:00 UTC
start_date=datetime(2026, 3, 26)
)
extract = Task(
name="extract-data",
dag=dag,
command="python scripts/extract.py",
retries=3
)
transform = Task(
name="transform-data",
dag=dag,
command="python scripts/transform.py",
depends_on=[extract]
)
load = Task(
name="load-to-dremio",
dag=dag,
command="python scripts/load.py",
depends_on=[transform]
)
3. Pipeline deployen
stackit workflows deploy \
--file etl_pipeline.py \
--project-id your-project-id
4. Status überwachen
stackit workflows runs list --dag daily-etl
# Ausgabe:
# RUN_ID DAG STATUS STARTED DURATION
# run-0042 daily-etl success 2026-03-26T06:00:00 4m 12s
# run-0041 daily-etl success 2026-03-25T06:00:00 3m 58s
5. Manuell auslösen
stackit workflows trigger --dag daily-etl
6. Alerting konfigurieren
# alerts.yaml
alerts:
- dag: daily-etl
on: failure
channel: email
recipients:
- team@example.com
stackit workflows alerts set --file alerts.yaml
Nächste Schritte
- Kombiniere Workflows mit STACKIT Intake für Event-getriggerte Pipelines.
- Nutze STACKIT Notebooks, um Pipeline-Schritte interaktiv zu entwickeln und zu testen.
- Richte Dashboard-Widgets im STACKIT Portal ein, um Pipeline-Health auf einen Blick zu sehen.