KI & InfrastrukturOllamavLLMInfomaniakExoscaleApertusnDSGDatenschutzSelf-Hosting

Lokale KI-Modelle auf Schweizer Infrastruktur betreiben

Von Ollama auf dem Laptop bis zur GPU-Cloud in Genf – ein praxisnaher Leitfaden

30. März 202612 Min. Lesezeit·Code Fabric Redaktion

ChatGPT, Claude, Gemini – die grossen KI-Assistenten sind bequem, leistungsfähig und allgegenwärtig. Doch sie haben einen gemeinsamen Nachteil: Jede Anfrage verlässt das eigene Netzwerk, landet auf Servern in den USA und wird – je nach Nutzungsbedingungen – möglicherweise für das Training zukünftiger Modelle verwendet. Für Schweizer Unternehmen, die dem revidierten Datenschutzgesetz (nDSG) unterliegen oder schlicht die Kontrolle über ihre Daten behalten wollen, ist das ein Problem.

Die gute Nachricht: Dank des Open-Source-KI-Booms der letzten zwei Jahre ist es heute möglich, leistungsfähige Sprachmodelle vollständig lokal oder auf Schweizer Cloud-Infrastruktur zu betreiben – ohne Kompromisse bei der Qualität. Dieser Artikel zeigt, wie das geht: von der einfachen Einrichtung auf dem eigenen Laptop bis zum produktionsreifen Deployment auf GPU-Servern in Genf oder Zürich.

Warum lokal? Die rechtliche und strategische Ausgangslage

Das revidierte Schweizer Datenschutzgesetz (nDSG), in Kraft seit September 2023, stellt klare Anforderungen an die Bearbeitung von Personendaten. Wer Kundendaten, Patienteninformationen oder vertrauliche Geschäftsdokumente durch eine KI verarbeiten lässt, muss sicherstellen, dass diese Daten nicht unkontrolliert ins Ausland fliessen. Das gilt insbesondere für Branchen mit gesetzlichem Berufsgeheimnis: Anwaltskanzleien, Arztpraxen, Banken und Versicherungen.

Achtung

Rechtliche Einschätzung: Die Berner Fachhochschule (BFH) hat in einer Studie vom März 2026 festgestellt, dass KMU mit Berufsgeheimnis-Pflichten besonders von lokalen KI-Lösungen profitieren. Cloud-KI-Dienste ausländischer Anbieter können das Berufsgeheimnis gefährden, wenn keine ausreichenden Auftragsverarbeitungsverträge vorliegen.

Neben dem Datenschutz spielen auch strategische Überlegungen eine Rolle: Wer auf externe KI-APIs angewiesen ist, ist abhängig von Preisänderungen, API-Abschaltungen und den Nutzungsbedingungen amerikanischer Konzerne. Lokale Modelle schaffen Unabhängigkeit – und sind nach der initialen Investition in Hardware oder Cloud-Infrastruktur langfristig günstiger.

Stufe 1: Lokaler Betrieb auf dem eigenen Gerät

Der einfachste Einstieg in lokale KI ist Ollama – ein Open-Source-Tool, das Sprachmodelle mit einem einzigen Befehl installiert und als lokalen API-Server bereitstellt. Ollama läuft auf macOS, Windows und Linux und nutzt automatisch die verfügbare GPU (Apple Silicon, NVIDIA, AMD) für beschleunigte Inferenz.

  • Installation: curl -fsSL https://ollama.ai/install.sh | sh (Linux/macOS) oder Installer für Windows
  • Modell laden: ollama pull qwen3.5:7b – lädt das 7B-Modell von Qwen 3.5 (~4,7 GB)
  • Starten: ollama run qwen3.5:7b – öffnet eine interaktive Chat-Session im Terminal
  • API-Zugang: http://localhost:11434/api/generate – OpenAI-kompatibler Endpunkt für eigene Anwendungen
  • Modellbibliothek: Über 200 Modelle verfügbar, darunter DeepSeek-V3, Qwen3.5, Llama 4, Mistral, Phi-4

Für eine komfortablere Oberfläche empfiehlt sich Open WebUI (früher Ollama WebUI) – eine browserbasierte Chat-Oberfläche, die sich mit einem Docker-Befehl starten lässt und ChatGPT optisch ähnelt. Alternativ bietet LM Studio eine vollständige Desktop-Anwendung mit integriertem Modell-Browser, die besonders für Einsteiger geeignet ist.

ToolTypStärkenIdeal für
OllamaCLI + API-ServerSchnell, skriptbar, OpenAI-kompatibelEntwickler, API-Integration
LM StudioDesktop-App (GUI)Einfache Bedienung, Modell-BrowserEinsteiger, Ausprobieren
Open WebUIWeb-Interface (Docker)ChatGPT-ähnlich, MehrbenutzerTeams, interne Chatbots
JanDesktop-App (GUI)Offline-first, ExtensionsDatenschutz-bewusste Nutzer
GPT4AllDesktop-App (GUI)Sehr einfach, lokale DokumenteNicht-technische Nutzer

Tipp

Hardware-Empfehlung für den Einstieg: Ein MacBook Pro mit M3 Pro oder M4 (16–36 GB Unified Memory) eignet sich hervorragend für 7B–14B-Modelle. Unter Windows/Linux reicht eine NVIDIA RTX 4070 (12 GB VRAM) für die meisten 7B-Modelle. Für 70B-Modelle werden mindestens 48 GB VRAM (z.B. zwei RTX 3090) oder Apple M4 Max (128 GB) benötigt.

Stufe 2: Produktionsbetrieb mit vLLM

Für den Einsatz in Unternehmensanwendungen – wenn mehrere Nutzer gleichzeitig Anfragen stellen oder hohe Durchsatzraten erforderlich sind – ist Ollama zu begrenzt. Hier kommt vLLM ins Spiel: ein hochperformanter Inference-Server, der mit PagedAttention-Technologie die GPU-Auslastung maximiert und bis zu 24x höheren Durchsatz als naive Implementierungen erreicht.

vLLM stellt eine vollständig OpenAI-kompatible API bereit, was bedeutet: Jede Anwendung, die bisher die OpenAI-API verwendet hat, kann mit einer einzigen Konfigurationsänderung auf ein lokal betriebenes Modell umgestellt werden. Das vereinfacht die Migration erheblich.

SzenarioEmpfohlenes ToolBegründung
Einzelner Entwickler, LaptopOllama + LM StudioEinfache Installation, kein Server nötig
Kleines Team (5–20 Nutzer)Ollama + Open WebUIDocker-basiert, einfaches Deployment
UnternehmensanwendungvLLM auf GPU-ServerHoher Durchsatz, OpenAI-kompatibel
Managed ServiceInfomaniak AI ServiceKein Infrastrukturaufwand, Schweizer Hosting
Regulierte BranchenInventx ix.CloudSchweizer RZ, Banken-Compliance

Schweizer Cloud-Anbieter im Überblick

Wer keine eigene GPU-Hardware betreiben möchte, kann auf mehrere Schweizer und europäische Cloud-Anbieter zurückgreifen, die GPU-Infrastruktur mit Datenschutz-Garantien kombinieren.

AnbieterStandortGPU-AngebotBesonderheit
Infomaniak AI ServiceGenf, CHAPI für Open-Source-Modelle (Mixtral, Whisper, etc.)1 Mio. kostenlose Credits, DSGVO/nDSG-konform, Energie zu 100% erneuerbar
Exoscale GPUGenf (CH-GVA-2), Wien, FrankfurtNVIDIA A30, A40, A5000, RTX 3080 Ti, RTX 6000Schweizer Unternehmen (A2 Networks), DSGVO-konform, On-Demand
Inventx ix.CloudSchweizer RZ (Chur)Managed LLM-Hosting für FinanzdienstleisterBanken-Compliance, AI-Models as a Service
Init7Zürich, CHDedicated Server mit GPU auf AnfrageSchweizer Unternehmen, Fiber-Infrastruktur
Apertus / CSCSLugano (CSCS)Supercomputing-InfrastrukturForschung & Bildung, kostenloser API-Zugang

Apertus: Das Schweizer Open-Source-LLM

Eine besondere Erwähnung verdient Apertus – Schwedens erstes grosses Open-Source-Sprachmodell, entwickelt von EPFL, ETH Zürich und dem Swiss National Supercomputing Centre (CSCS). Apertus wurde auf 15 Billionen Tokens in über 1'000 Sprachen trainiert – 40% der Trainingsdaten sind nicht-englisch, was das Modell besonders für mehrsprachige Schweizer Anwendungen (DE/FR/IT/Rätoromanisch) geeignet macht.

Das Modell ist in zwei Grössen verfügbar (8B und 70B Parameter) und unter einer permissiven Open-Source-Lizenz freigegeben – auch für kommerzielle Nutzung. Besonders bemerkenswert: Die gesamte Entwicklung ist transparent dokumentiert, inklusive Trainingsarchitektur, Datensätze und Gewichte. Apertus kann über Ollama, vLLM, llama.cpp oder MLX betrieben werden.

Hinweis

Apertus und das nDSG: Das Modell wurde explizit unter Berücksichtigung des Schweizer Datenschutzgesetzes, des Urheberrechts und der Transparenzpflichten des EU AI Acts entwickelt. Trainingsdaten wurden auf maschinenlesbare Opt-out-Anfragen gefiltert und von Personendaten bereinigt – ein Qualitätsmerkmal, das bei anderen Modellen oft fehlt.

Infomaniak Euria: Souveräne KI, die Häuser heizt

Im Dezember 2025 lancierte Infomaniak Euria – einen kostenlosen, souveränen KI-Assistenten, der auf Open-Source-Modellen basiert und vollständig in Schweizer Rechenzentren betrieben wird. Was Euria von anderen KI-Diensten unterscheidet: Die Abwärme der GPU-Server wird genutzt, um 6'000 Haushalte in Genf zu heizen und täglich das Äquivalent von 20'000 Duschen an Warmwasser bereitzustellen. Die GPUs werden ohne dedizierte Klimaanlage gekühlt.

Für Entwickler bietet Infomaniak eine OpenAI-kompatible API mit 1 Million kostenlosen Credits für den Einstieg. Verfügbare Modelle umfassen Mixtral (Textgenerierung), Whisper (Sprachtranskription) und Stable Diffusion XL (Bildgenerierung). Anfragen werden weder gespeichert noch für das Training verwendet.

Praktische Entscheidungshilfe: Welches Setup für wen?

  • Freelancer / Einzelentwickler: Ollama lokal + Qwen3.5-7B oder DeepSeek-V3 via API (api.deepseek.com) – kosteneffizient, einfach
  • KMU ohne eigene IT: Infomaniak AI Service API – kein Infrastrukturaufwand, nDSG-konform, Pay-as-you-go
  • Anwaltskanzlei / Arztpraxis: Ollama auf lokalem Server (kein Internetzugang nötig) + Apertus 8B – maximale Datenkontrolle
  • Bank / Versicherung: Inventx ix.Cloud oder Exoscale GPU (CH-GVA-2) + vLLM – Compliance, Skalierbarkeit
  • Universität / Forschung: Apertus via CSCS-Infrastruktur oder Hugging Face – kostenloser Zugang, maximale Transparenz
  • Startup mit KI-Produkt: Exoscale GPU On-Demand + vLLM – flexible Skalierung, Schweizer Rechtsrahmen

Kosten im Vergleich: Lokal vs. Cloud vs. API

AnsatzEinmalige KostenLaufende KostenEignung
Lokal (eigene GPU)CHF 800–3'000 (GPU)Strom: ~CHF 5–15/MonatDauerbetrieb, hohe Nutzung
Exoscale GPU (A30)~CHF 1.20/StundeSporadische Nutzung, Skalierung
Infomaniak AI APIPay-per-Token, 1 Mio. gratisEinstieg, variable Last
OpenAI GPT-4o~CHF 5/1 Mio. Input-TokenVergleichswert US-Cloud
DeepSeek API~CHF 0.13/1 Mio. Input-TokenGünstigste API-Option

Tipp

Faustregel: Wer mehr als 10 Millionen Tokens pro Monat verarbeitet, amortisiert eine eigene GPU (RTX 4090, ~CHF 1'800) innerhalb von 6–12 Monaten gegenüber Cloud-API-Kosten. Darunter ist ein Managed Service wie Infomaniak oder Exoscale wirtschaftlicher.

Fazit: Datensouveränität ist kein Luxus

Lokale und Schweizer KI-Infrastruktur war noch vor zwei Jahren ein Nischenthema für Technikbegeisterte. Heute ist sie eine realistische Option für Unternehmen jeder Grösse. Die Kombination aus leistungsfähigen Open-Source-Modellen (Qwen3.5, DeepSeek-V3, Apertus), einfachen Deployment-Tools (Ollama, vLLM) und Schweizer Cloud-Anbietern (Infomaniak, Exoscale, Inventx) macht es möglich, KI-Anwendungen zu betreiben, die sowohl leistungsfähig als auch datenschutzkonform sind.

Für Schweizer Unternehmen ist das nicht nur eine technische, sondern auch eine strategische Entscheidung: Wer heute in lokale KI-Infrastruktur investiert, schafft Unabhängigkeit von US-Hyperscalern, reduziert Compliance-Risiken und positioniert sich für eine Zukunft, in der Datensouveränität zunehmend zum Wettbewerbsvorteil wird.


Quellen: Infomaniak AI Services, Exoscale GPU Cloud, Swiss AI Initiative (Apertus), Inventx ix.Cloud, BFH-Studie 'Open Source KI und Datenschutz' (März 2026), IT-Markt.ch, Ollama Dokumentation, vLLM Dokumentation (Stand: März 2026)

Artikel teilen

Wir verwenden Cookies

Wir verwenden Cookies, um Ihre Erfahrung auf unserer Website zu verbessern. Einige Cookies sind notwendig für die Funktionalität der Website, während andere uns helfen, die Nutzung zu analysieren (Google Analytics). Mehr erfahren