AI Model Serving – Managed KI-Hosting auf STACKIT
Du hast ein trainiertes ML-Modell oder willst ein Open-Source-LLM produktiv einsetzen – aber der Betrieb einer GPU-Infrastruktur mit Load Balancing, Autoscaling und Monitoring ist ein Projekt für sich. Genau hier setzt STACKIT AI Model Serving an: Du deployst dein Modell, STACKIT kümmert sich um den Rest.
Was ist STACKIT AI Model Serving?
STACKIT AI Model Serving ist ein Managed Service, der KI- und LLM-Modelle als skalierbare API-Endpunkte bereitstellt. Die Plattform übernimmt Infrastruktur, Skalierung und Betrieb – du konzentrierst dich auf dein Modell.
- GPU-Hosting: Zugriff auf NVIDIA-GPUs ohne eigene Hardware-Verwaltung.
- Autoscaling: Automatische Skalierung basierend auf Anfragevolumen – inklusive Scale-to-Zero.
- OpenAI-kompatible API: Standardisierte REST-Schnittstelle, die mit gängigen SDKs funktioniert.
- Datensouveränität: Modelle laufen in deutschen Rechenzentren, DSGVO-konform.
- Modell-Registry: Versionierung und Verwaltung deiner Modelle an einem zentralen Ort.
Tutorial: Ein LLM als API-Endpunkt deployen
1. Voraussetzungen
- Ein aktives STACKIT-Projekt mit aktiviertem AI-Model-Serving-Service.
- Die STACKIT CLI installiert und eingeloggt.
stackit login
stackit project set --id your-project-id
2. Modell deployen
Deploye ein Open-Source-LLM aus der Modell-Registry:
stackit ai model deploy \
--name mein-llm \
--model mistral-7b-instruct \
--gpu-type a100 \
--min-replicas 0 \
--max-replicas 3
3. Deployment-Status prüfen
stackit ai model list
# Ausgabe:
# NAME MODEL STATUS REPLICAS ENDPOINT
# mein-llm mistral-7b-instruct ready 1/3 https://mein-llm.ai.stackit.cloud
4. Modell per API aufrufen
Die API ist OpenAI-kompatibel – du kannst bestehende SDKs direkt verwenden:
from openai import OpenAI
client = OpenAI(
base_url="https://mein-llm.ai.stackit.cloud/v1",
api_key="your-api-key"
)
response = client.chat.completions.create(
model="mistral-7b-instruct",
messages=[
{"role": "user", "content": "Erkläre Kubernetes in drei Sätzen."}
]
)
print(response.choices[0].message.content)
5. Autoscaling konfigurieren
# scaling-config.yaml
scaling:
metric: requests_per_second
target: 50
min_replicas: 0
max_replicas: 5
scale_down_delay: 300s
stackit ai model update mein-llm --scaling-config scaling-config.yaml
Nächste Schritte
- Verbinde deinen Endpunkt mit einer STACKIT Workflows-Pipeline für RAG-Architekturen.
- Nutze STACKIT Notebooks zum Evaluieren und Feintunen deiner Modelle.
- Richte Monitoring über das STACKIT Dashboard ein, um Latenz und Token-Durchsatz im Blick zu behalten.