stackit.guru
DE

Dremio – Die Lakehouse-Plattform für moderne Datenanalyse

#data
dremio data-lakehouse sql apache-iceberg datenanalyse

Dremio – Die Lakehouse-Plattform für moderne Datenanalyse

In der modernen Datenwelt stehen Unternehmen oft vor einer Herausforderung: Die Datenmengen im Object Storage (S3) wachsen rasant, aber der Zugriff darauf für Business-Analysten ist zäh. Klassischerweise müssten diese Daten erst per ETL-Prozess in ein Data Warehouse geladen werden.

Hier kommt STACKIT Dremio ins Spiel. Als “Data Lakehouse Engine” ermöglicht es den direkten, hochperformanten SQL-Zugriff auf Daten in der Cloud – ohne sie vorher verschieben zu müssen.

Was ist STACKIT Dremio?

Dremio ist eine Open-Source-basierte Data-Lakehouse-Plattform, die auf Apache Arrow basiert. In der STACKIT Cloud wird Dremio als Managed Service angeboten. Das Ziel: Die Lücke zwischen der kostengünstigen Speicherung im STACKIT Object Storage und der Analysegeschwindigkeit eines klassischen Data Warehouses zu schließen.

Die wichtigsten Vorteile im Überblick:

  • No-ETL: Du fragst Daten direkt dort ab, wo sie liegen (S3, Datenbanken, etc.).
  • Data Reflections: Eine Technologie, die Abfragen durch intelligente Materialisierungen massiv beschleunigt, ohne dass der Nutzer SQL-Queries umschreiben muss.
  • Semantischer Layer: Analysten können virtuelle Datensets (VDS) erstellen, um Geschäftslogik zentral zu verwalten, statt sie in BI-Tools wie PowerBI oder Tableau zu verstecken.
  • Datensouveränität: Da alles auf der STACKIT-Infrastruktur in Deutschland läuft, bleiben deine Daten DSGVO-konform und sicher.

Tutorial: STACKIT Object Storage an Dremio anbinden

Damit Dremio deine Daten lesen kann, müssen wir den STACKIT Object Storage als Datenquelle registrieren.

1. Voraussetzungen

Bevor du startest, benötigst du aus deinem STACKIT Projekt:

  • Einen aktiven Object Storage Bucket.
  • Einen Access Key und einen Secret Key.
  • Den S3-Endpoint (meist s3.eu01.stackit.cloud).

2. Datenquelle in Dremio hinzufügen

  1. Logge dich in deine Dremio-Konsole ein.
  2. Klicke im Bereich “Sources” auf das Plus-Icon.
  3. Wähle den Connector Amazon S3 aus (dieser ist voll kompatibel zum STACKIT S3-Protokoll).
  4. Gib der Quelle einen Namen, z. B. stackit_s3_prod.

3. Verbindung konfigurieren

Unter dem Reiter General trägst du deine Credentials ein. Entscheidend ist der Reiter Advanced Options:

  • S3 Endpoint: s3.eu01.stackit.cloud
  • Enable compatibility mode: Aktivieren (empfohlen für reibungsloses Browsing).
  • Connection Properties: Setze fs.s3a.path.style.access auf true.

Klicke auf Save. Wenn alles korrekt ist, siehst du sofort deine Buckets und die darin liegenden Dateien.


Daten abfragen: Von CSV zu SQL

Angenommen, du hast eine CSV-Datei mit Verkaufsdaten in deinem Bucket liegen. In Dremio kannst du diese mit zwei Klicks als “Physical Dataset” formatieren. Dremio erkennt Header und Datentypen automatisch.

Anschließend kannst du sofort SQL-Abfragen absetzen:

SELECT 
    region, 
    COUNT(order_id) as total_orders,
    SUM(revenue) as total_revenue
FROM 
    "stackit_s3_prod"."sales_data"."orders_2024.csv"
WHERE 
    status = 'completed'
GROUP BY 
    region
ORDER BY 
    total_revenue DESC;