AI Model Serving – Managed KI-Hosting auf STACKIT

26. März 2026 #data

ai ml llm

AI Model Serving – Managed KI-Hosting auf STACKIT

Du hast ein trainiertes ML-Modell oder willst ein Open-Source-LLM produktiv einsetzen – aber der Betrieb einer GPU-Infrastruktur mit Load Balancing, Autoscaling und Monitoring ist ein Projekt für sich. Genau hier setzt STACKIT AI Model Serving an: Du deployst dein Modell, STACKIT kümmert sich um den Rest.

Was ist STACKIT AI Model Serving?

STACKIT AI Model Serving ist ein Managed Service, der KI- und LLM-Modelle als skalierbare API-Endpunkte bereitstellt. Die Plattform übernimmt Infrastruktur, Skalierung und Betrieb – du konzentrierst dich auf dein Modell.

GPU-Hosting: Zugriff auf NVIDIA-GPUs ohne eigene Hardware-Verwaltung.
Autoscaling: Automatische Skalierung basierend auf Anfragevolumen – inklusive Scale-to-Zero.
OpenAI-kompatible API: Standardisierte REST-Schnittstelle, die mit gängigen SDKs funktioniert.
Datensouveränität: Modelle laufen in deutschen Rechenzentren, DSGVO-konform.
Modell-Registry: Versionierung und Verwaltung deiner Modelle an einem zentralen Ort.

Tutorial: Ein LLM als API-Endpunkt deployen

1. Voraussetzungen

Ein aktives STACKIT-Projekt mit aktiviertem AI-Model-Serving-Service.
Die STACKIT CLI installiert und eingeloggt.

stackit login
stackit project set --id your-project-id

2. Modell deployen

Deploye ein Open-Source-LLM aus der Modell-Registry:

stackit ai model deploy \
  --name mein-llm \
  --model mistral-7b-instruct \
  --gpu-type a100 \
  --min-replicas 0 \
  --max-replicas 3

3. Deployment-Status prüfen

stackit ai model list

# Ausgabe:
# NAME           MODEL                  STATUS    REPLICAS   ENDPOINT
# mein-llm       mistral-7b-instruct    ready     1/3        https://mein-llm.ai.stackit.cloud

4. Modell per API aufrufen

Die API ist OpenAI-kompatibel – du kannst bestehende SDKs direkt verwenden:

from openai import OpenAI

client = OpenAI(
    base_url="https://mein-llm.ai.stackit.cloud/v1",
    api_key="your-api-key"
)

response = client.chat.completions.create(
    model="mistral-7b-instruct",
    messages=[
        {"role": "user", "content": "Erkläre Kubernetes in drei Sätzen."}
    ]
)

print(response.choices[0].message.content)

5. Autoscaling konfigurieren

# scaling-config.yaml
scaling:
  metric: requests_per_second
  target: 50
  min_replicas: 0
  max_replicas: 5
  scale_down_delay: 300s

stackit ai model update mein-llm --scaling-config scaling-config.yaml

Nächste Schritte

Verbinde deinen Endpunkt mit einer STACKIT Workflows-Pipeline für RAG-Architekturen.
Nutze STACKIT Notebooks zum Evaluieren und Feintunen deiner Modelle.
Richte Monitoring über das STACKIT Dashboard ein, um Latenz und Token-Durchsatz im Blick zu behalten.