Künstliche IntelligenzDeepSeekQwenOpen SourceLLMAlibabaChina AI2026

KI-Open-Source 2026: DeepSeek vs. Qwen

Wie zwei chinesische Labore die globale KI-Landschaft neu definieren

30. März 202610 Min. Lesezeit·Code Fabric Redaktion

Noch vor zwei Jahren galt es als ausgemacht: Nur OpenAI, Google und Anthropic verfügten über die Rechenkapazitäten und das Talent, um wirklich leistungsfähige grosse Sprachmodelle (LLMs) zu trainieren. Dann kam DeepSeek. Und kurz darauf Qwen. Beide Modellreihen stammen aus China, beide sind quelloffen lizenziert – und beide haben die Branche fundamental erschüttert.

Im Jahr 2026 sind DeepSeek (entwickelt vom gleichnamigen Hedge-Fund-Spin-off) und Qwen (Alibabas Cloud-KI-Division) die dominierenden Kräfte im Open-Source-LLM-Ökosystem. Dieser Artikel beleuchtet ihre Architektur, Stärken, Schwächen und die Frage, welches Modell für welchen Anwendungsfall besser geeignet ist.

Hintergrund: Wie alles begann

DeepSeek wurde 2023 als KI-Forschungsarm des chinesischen Quantitative-Hedge-Fonds High-Flyer gegründet. Das Ziel war von Anfang an radikal: Frontier-Modelle zu einem Bruchteil der üblichen Kosten zu entwickeln. Mit DeepSeek-V3 (Ende 2024) und dem Reasoning-Modell R1 (Januar 2025) gelang der Durchbruch – beide Modelle erreichten GPT-4-Niveau bei einem Trainingsbudget, das Branchenbeobachter fassungslos zurückliess.

Qwen ist älter und breiter aufgestellt. Alibabas Tongyi-Qianwen-Modellreihe existiert seit 2023 und wurde seither kontinuierlich ausgebaut. Mit Qwen 2.5 (Herbst 2024) und Qwen 3 (Anfang 2025) etablierte sich die Serie als vielseitigste Open-Source-Familie mit Modellgrössen von 0,5 Milliarden bis zu mehreren hundert Milliarden Parametern.

Architektur im Vergleich

Beide Modellreihen setzen auf Mixture-of-Experts (MoE) – eine Architektur, bei der nicht alle Parameter für jedes Token aktiviert werden, sondern nur ein kleiner, spezialisierter Anteil. Das ermöglicht grosse Gesamtkapazität bei vertretbarem Rechenaufwand. Die Unterschiede liegen im Detail.

MerkmalDeepSeek-V3.2Qwen 3.5 (397B)
ArchitekturMoE mit 671B GesamtparameternEfficient Hybrid Architecture (MoE + GDN)
Aktive Parameter~37B pro Token~17B pro Token (A17B)
Kontextfenster130'000 Token262'144 Token (262K)
Attention-MechanismusDeepSeek Sparse Attention (DSA)Gated Delta Networks (GDN)
MultimodalNein (V3.2), V4 geplantJa (nativ, inkl. Video)
LizenzMIT (Gewichtsfreigabe)Apache 2.0
Trainingskosten~6 Mio. USD (V3)Nicht öffentlich

Hinweis

DeepSeeks wichtigste Architekturinnovation ist die Multi-head Latent Attention (MLA), die den KV-Cache-Speicherbedarf drastisch reduziert. Qwen 3.5 setzt dagegen auf Gated Delta Networks, eine lineare Attention-Variante, die besonders bei langen Kontexten effizient ist.

DeepSeek: Sparsity als Philosophie

DeepSeeks Entwicklungsphilosophie lässt sich in einem Wort zusammenfassen: Sparsity. Jede Architekturentscheidung zielt darauf ab, Intelligenz unter harten Ressourcenbeschränkungen zu skalieren – weniger Rechenleistung, weniger Speicher, weniger Chips. Diese Notwendigkeit entstand nicht zuletzt durch US-Exportbeschränkungen für Hochleistungs-GPUs.

DeepSeek-V3.2 ist der aktuelle Arbeitspferd der Reihe. Mit 671 Milliarden Gesamtparametern, aber nur 37 Milliarden aktiven Parametern pro Token erreicht es eine Effizienz, die selbst proprietäre Modelle unter Druck setzt. Auf Coding-Benchmarks wie SWE-bench und HumanEval liegt es gleichauf mit Claude 3.5 Sonnet, bei einem Bruchteil der Inferenzkosten.

Besonders bemerkenswert ist DeepSeeks Reasoning-Linie: Das R1-Modell (und seine Nachfolger) zeigen explizite Chain-of-Thought-Prozesse, die für komplexe mathematische und logische Aufgaben optimiert sind. DeepSeek-Math-V2 gewann 2025 die International Olympiad in Informatics – ein Meilenstein, der die Leistungsfähigkeit dieser Reasoning-Modelle eindrücklich demonstriert.

Achtung

Geopolitische Einschränkung: DeepSeek hat V4 bewusst nicht für US-Chiphersteller (Nvidia, AMD) zur Optimierung freigegeben. Stattdessen erhielten Huawei und Cambricon frühen Zugang. Dies spiegelt eine strategische Entscheidung wider, die chinesische Hardware-Ökosysteme stärken soll.

Qwen: Vielseitigkeit als Stärke

Alibabas Qwen-Reihe verfolgt eine andere Strategie: maximale Vielseitigkeit. Während DeepSeek auf wenige, hochoptimierte Modelle setzt, bietet Qwen eine breite Palette von Modellgrössen (0,5B bis 397B), Modalitäten (Text, Bild, Video, Audio) und Spezialisierungen (Code, Math, VL).

Qwen 3.5, veröffentlicht im Februar/März 2026, markiert einen Qualitätssprung. Das Flaggschiff-Modell Qwen3.5-397B-A17B kombiniert 397 Milliarden Gesamtparameter mit einer effizienten Hybrid-Architektur aus Gated Delta Networks und MoE. Besonders beeindruckend ist die Leistung der kleineren Varianten: Qwen3.5-9B übertrifft OpenAIs gpt-oss-120B auf mehreren Benchmarks – bei einem Modell, das auf einem Standard-Laptop lauffähig ist.

  • GPQA Diamond (Graduate-Level Reasoning): Qwen3.5-9B erreicht 81,7 Punkte – mehr als OpenAIs 120B-Modell (80,1)
  • MMMU-Pro (Multimodales Reasoning): 70,1 Punkte, übertrifft Gemini 2.5 Flash-Lite (59,7)
  • Video-MME (Video-Verständnis): 84,5 Punkte – deutlich vor der Konkurrenz
  • HMMT (Harvard-MIT Mathematik-Turnier): 83,2 Punkte für das 9B-Modell
  • Kontextfenster: 262'144 Token – doppelt so lang wie DeepSeek-V3.2

Qwen setzt zudem auf native Multimodalität: Anders als frühere Modelle, die Bild-Encoder nachträglich angehängt bekamen, wurde Qwen3.5 von Grund auf mit visuellen Tokens trainiert. Das ermöglicht ein tieferes Verständnis von Bild-Text-Zusammenhängen, das sich in Benchmarks wie MMMU-Pro deutlich niederschlägt.

Benchmark-Vergleich 2026

BenchmarkDeepSeek-V3.2Qwen3.5-397BQwen3.5-9BGPT-4o
MMLU (Allgemeinwissen)88,589,282,187,2
HumanEval (Coding)90,288,779,490,2
MATH (Mathematik)87,188,981,376,6
GPQA Diamond (Reasoning)59,168,481,7*53,6
MMMU-Pro (Multimodal)N/A74,270,163,8
Kontextfenster130K262K262K128K

Tipp

* Der GPQA-Wert von Qwen3.5-9B ist besonders bemerkenswert, da er ein 13-mal grösseres Modell übertrifft. Dies deutet auf eine sehr effiziente Nutzung der Modellkapazität durch die neue Hybrid-Architektur hin.

DeepSeek V4: Was kommt als Nächstes?

DeepSeek V4 ist das meisterwartete Open-Source-Modell des Jahres 2026. Laut Reuters und The Information wird V4 ein nativ multimodales Modell sein – das erste in der DeepSeek-Reihe, das Bilder, Videos und Text verarbeiten kann. Interne Tests sollen zeigen, dass V4 Claude und ChatGPT bei langen Coding-Aufgaben übertrifft.

Die Entwicklung war nicht ohne Rückschläge: DeepSeek versuchte zunächst, R2 auf Huaweis Ascend-Chips zu trainieren – ein Versuch, der an Stabilitätsproblemen und langsamen Chip-zu-Chip-Verbindungen scheiterte. Letztlich musste das Team auf Nvidia-Hardware zurückgreifen, was die Veröffentlichung erheblich verzögerte. V4 soll nun mit 1 Billion Parametern und einem 1-Millionen-Token-Kontextfenster kommen.

Schweizer Relevanz: Was bedeutet das für Unternehmen?

Für Schweizer Unternehmen und Entwickler eröffnen diese Modelle konkrete Möglichkeiten. Beide Modellreihen sind unter permissiven Open-Source-Lizenzen verfügbar (MIT bzw. Apache 2.0), was bedeutet: Sie können lokal betrieben, angepasst und in eigene Produkte integriert werden – ohne Abhängigkeit von US-Cloud-Anbietern und ohne Datenweitergabe an Dritte.

  • Datenschutz-Compliance: Lokaler Betrieb ermöglicht vollständige Kontrolle über Daten – relevant für DSGVO und nDSG
  • Kostenreduktion: Inferenzkosten von DeepSeek-V3.2 liegen bei ca. 0,14 USD pro Million Input-Token – 10–20x günstiger als GPT-4o
  • Schweizer Hosting: Anbieter wie Exoscale (Lausanne) oder Init7 bieten GPU-Infrastruktur für lokalen Betrieb
  • Spezialisierung: Qwen-Modelle eignen sich besonders für mehrsprachige Anwendungen (DE/FR/IT/EN)
  • Coding-Assistenten: DeepSeek-V3.2 und Qwen-Coder sind starke Alternativen zu GitHub Copilot

Fazit: Zwei Philosophien, ein Ziel

DeepSeek und Qwen verfolgen unterschiedliche Ansätze, um dasselbe Ziel zu erreichen: KI-Frontier-Leistung für alle zugänglich zu machen. DeepSeek setzt auf radikale Effizienz und Sparsity – wenige, hochoptimierte Modelle für Text und Code. Qwen bietet maximale Vielseitigkeit – ein breites Ökosystem von Modellgrössen und Modalitäten.

Für die Schweizer Tech-Community ist die Botschaft klar: Die Ära, in der frontier-KI ausschliesslich von US-Hyperscalern kontrolliert wurde, ist vorbei. Wer heute mit Open-Source-LLMs arbeitet, hat Zugang zu Modellen, die vor zwei Jahren noch Science-Fiction waren – und kann diese auf eigener Infrastruktur betreiben, anpassen und in Produkte integrieren.

Tipp

Empfehlung für Einsteiger: Starten Sie mit Qwen3.5-7B oder Qwen3.5-9B (lokal via Ollama oder LM Studio) für erste Experimente. Für Coding-Aufgaben auf Server-Infrastruktur ist DeepSeek-V3.2 über die API (api.deepseek.com) eine kosteneffiziente Wahl.


Quellen: Reuters, Financial Times, VentureBeat, Recode China AI, Hugging Face Open LLM Leaderboard, Alibaba Cloud Model Studio (Stand: März 2026)

Artikel teilen

Wir verwenden Cookies

Wir verwenden Cookies, um Ihre Erfahrung auf unserer Website zu verbessern. Einige Cookies sind notwendig für die Funktionalität der Website, während andere uns helfen, die Nutzung zu analysieren (Google Analytics). Mehr erfahren