01 · Einstieg 02 · Recht 03 · Präzision 04 · Spektrum 05 · Tiers 06 · Hyperscaler 07 · Self-Hosting 08 · Wirtschaftlichkeit 09 · Hardware 10 · Datenklassen 11 · Framework 12 · Mythen 13 · Checkliste 14 · Quellen
28 Min Lesezeit

KI im Mittelstand. Public, Private, On‑Prem.

Zwischen ChatGPT-Plus-Abo, Azure-OpenAI-Deployment und eigenem GPU-Cluster liegen nicht nur Welten an Komplexität, sondern auch an Kosten, Haftung und Wirklichkeitsnähe. Dieser Artikel räumt mit Mythen auf, ordnet DSGVO und AI Act sauber zu, und zeigt quellenbasiert wann du welche Lösung wirklich brauchst — und wann nicht.

Stand April 2026
Lesezeit 28 Min
Quellen 56
Scroll um zu lesen
I
Erster Akt

Recht.
Was darfst du, was nicht.

Kapitel 01 — 03
01 Einstieg

Warum der Nebel nicht zufällig ist

Wenn du ein Unternehmen im deutschen Mittelstand führst und in den letzten zwölf Monaten irgendetwas mit KI gemacht hast, kennst du das Gefühl: zehn Berater, zehn Meinungen, fünf Vendor-Pitches, drei Rechtsanwälte, und hinterher ist nicht klarer als vorher, was du eigentlich tun darfst, tun solltest oder tun kannst.

Das liegt nicht daran, dass du etwas übersiehst. Das Themenfeld ist objektiv vielschichtig — und es wird auf mindestens drei Ebenen gleichzeitig verhandelt, die selten sauber auseinandergehalten werden: einer rechtlichen (DSGVO, EU AI Act, Geschäftsgeheimnisgesetz)[01][02][09], einer technischen (SaaS, API, Hyperscaler, On-Prem, Open-Weight-Modelle) und einer wirtschaftlichen (Lizenz vs. Token vs. Hardware). In jeder Ebene existieren Halbwahrheiten, Mythen und Marketing-Behauptungen, die oft erst im Kontext der jeweils anderen Ebenen überhaupt entlarvt werden können.

Drei Beispiele, die dir vermutlich bekannt vorkommen:

Mythos 01

Wenn wir ein eigenes Azure-OpenAI-Deployment haben, sind wir DSGVO-konform.

Nein. Du hast einen anderen Vertrag, eine andere Region und teilweise andere Datenflüsse. Das ist gut, macht dich aber nicht automatisch konform. Du bleibst Verantwortlicher und musst Zweckbindung, Rechtsgrundlage und Betroffenenrechte weiterhin selbst sicherstellen. [01][29]

Mythos 02

Self-Hosting auf eigener Hardware macht KI endlich legal.

Der Hosting-Ort ändert weder die Zweckbindung noch die Betroffenenrechte noch die AI-Act-Pflichten. Self-Hosting löst ein bestimmtes Set an Problemen (Sub-Prozessoren, Drittlandtransfer) und schafft dafür neue (Lizenz der Open-Weight-Modelle, eigene Anbieter-Pflichten nach AI Act, Betriebsrisiko). [01][02][44]

Mythos 03

Anbieter XY hat einen NSFW-Filter, der die Prompts liest — damit ist der nicht DSGVO-konform.

Ein Trust-&-Safety-Filter ist Teil derselben Auftragsverarbeitung durch denselben Verarbeiter. Er ist kein zusätzlicher Empfänger. Wenn der Anbieter ein aktuelles DPA hat und die Maßnahme im Rahmen der Service-Integrität erfolgt, ist das keine zusätzliche Datenübermittlung im Sinne der DSGVO. [01][23][24]

01 / 03

Diese Beispiele haben eines gemeinsam: Sie klingen plausibel, wurden auf LinkedIn mit vielen Likes geteilt, und sind trotzdem falsch oder zumindest stark irreführend. Wer als Entscheider auf dieser Grundlage Architekturen auswählt, baut auf Sand.

Dieser Artikel räumt auf. Er tut das in einer ganz bestimmten Reihenfolge: zuerst die rechtliche Landkarte, weil sich daraus die tatsächlichen Freiheitsgrade ergeben. Dann das technische Spektrum mit allen fünf relevanten Deployment-Modellen. Dann die ökonomische Realität mit konkreten Zahlen für einen typischen 200-Personen-Mittelständler. Und erst am Ende das Entscheidungs-Framework, das all das zusammenführt. Wer rückwärts beginnt — bei der Lösung statt bei der Frage — landet fast zwangsläufig bei der falschen Antwort.

02 Recht

DSGVO vs. AI Act — parallel, nicht alternativ

Die häufigste Quelle für Verwirrung im Gespräch mit deutschen Mittelständlern ist die Annahme, dass DSGVO und AI Act dasselbe regeln, nur unterschiedlich streng. Das ist falsch. Die beiden Verordnungen haben unterschiedliche Schutzgegenstände, unterschiedliche Rollenbegriffe und unterschiedliche Anknüpfungspunkte — und sie gelten kumulativ, nicht alternativ.[01][02]

DSGVO (VO 2016/679)EU AI Act (VO 2024/1689)
SchutzgegenstandPersonenbezogene Daten einer identifizierbaren PersonKI-Systeme und ihre Auswirkungen auf Grundrechte, Gesundheit, Sicherheit
AnknüpfungspunktJede Verarbeitung personenbezogener DatenBereitstellung oder Nutzung eines KI-Systems
RollenVerantwortlicher / AuftragsverarbeiterAnbieter (Provider) / Betreiber (Deployer)
TechnologieTechnologieneutral — Excel, KI, Datenbank gleich behandeltExplizit KI-bezogen — Risikostufen je nach Funktionsweise
HauptpflichtenRechtsgrundlage, Zweckbindung, Betroffenenrechte, DSFA, AVVRisikomanagement, Transparenz, Human Oversight, Konformitätsbewertung
Aufsicht (DE)BfDI und LandesdatenschutzbehördenBundesnetzagentur (geplant als Hauptaufsicht)

Die Timeline des AI Acts.

Stand April 2026
0 / 4 Stufen aktiv
02.02.2025

Verbotene Praktiken & Kompetenzpflicht

Verbotene KI-Praktiken (Anh. II), KI-Kompetenz-Pflicht nach Art. 4. Alle Unternehmen mit KI-Einsatz.

✓ Aktiv
08.02.2025

General Purpose AI & Transparenz

GPAI-Modelle (Kap. V), Governance, Transparenzpflichten (Art. 50). Anbieter wie OpenAI, Anthropic, Google.

✓ Aktiv
08.02.2026

Vollanwendung Hochrisiko-Systeme

Hochrisiko-Systeme nach Anhang III. Alle Anbieter und Betreiber von Hochrisiko-KI.

✓ Aktiv
08.02.2027

Sicherheitskomponenten in Produkten

Hochrisiko-KI als Sicherheitskomponente regulierter Produkte (Anhang I). Medizintechnik, Maschinenbau.

✓ Aktiv
Quellen Timeline: [02][03]
Achtung — Lage in Bewegung

Die EU-Kommission hat im November 2025 im Rahmen des „Digital Omnibus” eine mögliche Verschiebung der Hochrisiko-Pflichten auf Dezember 2027 vorgeschlagen. Stand April 2026 befindet sich der Vorschlag im Trilog — rechtlich bindend ist nach wie vor der 02.08.2026. Wer sich jetzt auf die Verschiebung verlässt, riskiert einen ungedeckten Check.[03][12][14]

Die Rollenverwirrung: Verantwortlicher, Anbieter, Betreiber

In einem typischen Mittelstands-Szenario trägst du gleich mehrere Hüte, oft ohne es zu wissen. Sagen wir, du nutzt Claude für die Vorselektion von Bewerbern:

DSGVO-Rolle

Du bist Verantwortlicher

Du entscheidest, welche Bewerberdaten in welchem Zweck verarbeitet werden. Anthropic ist dein Auftragsverarbeiter. Du brauchst einen AVV und eine Rechtsgrundlage.[01][26]

AI-Act-Rolle

Du bist Betreiber

Du setzt ein fremdes KI-System im beruflichen Kontext ein. Ab 02.08.2026: Transparenzpflichten, menschliche Aufsicht, ggf. Grundrechte-Folgenabschätzung nach Art. 27.[02][03]

AI-Act-Anbieter

Anthropic / OpenAI

Sie tragen die Hauptlast für das Modell selbst: Dokumentation, Konformitätsbewertung, Post-Market-Monitoring, Sicherheit, Robustheit.[02]

Fallstrick

Du wirst zum Anbieter

Wenn du ein fremdes Modell substantiell anpasst, umbenennst oder den Zweck wesentlich änderst, rutschst du nach Art. 25 in die Anbieter-Rolle mit erweiterten Pflichten.[02]

Für Bewerberauswahl gilt zusätzlich: KI-Systeme zur Personalauswahl sind nach Anhang III Nr. 4 des AI Acts hochrisiko. Das gilt unabhängig davon, ob personenbezogene Daten im DSGVO-Sinn verarbeitet werden — selbst anonymisierte Bewerberprofile triggern die Pflichten.[02]

03 Präzision

Kennt der Datenschutz überhaupt KI?

Eine der aufschlussreichsten Fragen, die man sich beim Thema stellen kann, ist tatsächlich die einfachste: Macht es aus Sicht der DSGVO einen Unterschied, ob ich meine Kundenliste in Excel Online, in einem Notion-Workspace oder in einem LLM-Chat verarbeite?

Die Antwort lautet: nein, kategorisch nicht.

Die DSGVO ist technologieneutral. Ihre Anforderungen knüpfen an die Verarbeitung an — nicht an das Werkzeug.

Erwägungsgrund 15 — durchgängig in der Aufsichtspraxis

Die Datenschutzkonferenz (DSK) hat diese Position in ihrer Orientierungshilfe „KI und Datenschutz” vom Mai 2024 bekräftigt und 2025 aktualisiert: Für die Zulässigkeit einer Datenverarbeitung mit einem LLM gelten dieselben Maßstäbe wie für jedes andere Werkzeug — Rechtsgrundlage nach Art. 6, Zweckbindung, Transparenz, Betroffenenrechte, Auftragsverarbeitungsvertrag. Punkt.[05][06][01]

Was bedeutet das praktisch? Wenn du deine Kundenliste nicht in ein Public-SaaS-Excel werfen würdest, weil kein AVV vorliegt und die Daten in den USA gespeichert werden, darfst du sie auch nicht in ChatGPT Free werfen — aus identischen Gründen. Umgekehrt: Wenn du aggregierte, nicht-personenbezogene Kennzahlen problemlos in einem Cloud-Service verarbeitest, ist eine LLM-Nutzung für dieselben Daten datenschutzrechtlich gleichermaßen unproblematisch.[01][23][24]

Das ergänzt der AI Act

Was der AI Act ergänzt — und was die DSGVO nicht kannte — sind KI-spezifische Risiken jenseits des Datenschutzes: algorithmische Voreingenommenheit, fehlende Erklärbarkeit, Robustheit gegen Prompt-Injection, Transparenz gegenüber Nutzern eines Chatbots. Diese Themen greift die DSGVO nicht auf. Hier füllt der AI Act eine echte Lücke.[02][21]

Die Konsequenz für deine Diskussionen im Unternehmen: Wenn beim nächsten Meeting jemand sagt „Bei KI ist das anders” — frag nach dem Warum. In 80 Prozent der Fälle ist es nicht anders, es fühlt sich nur so an.

II
Zweiter Akt

Technik.
Was ist überhaupt möglich.

Kapitel 04 — 07
04 Spektrum

Fünf Stufen zwischen Plus-Abo und GPU-Cluster

„Sollen wir ChatGPT benutzen oder etwas Eigenes bauen?” ist eine Scheinfrage. Zwischen der kostenlosen Consumer-Version und einem eigenen GPU-Cluster im Keller liegen mindestens fünf klar unterscheidbare Stufen, die sich in Datenfluss, Haftung und Kosten fundamental unterscheiden.

1

Die Default-Realität.

Free-Tier oder Plus-Abo, persönlich registriert. Keine Auftragsverarbeitung, keine Trennung zwischen privat und beruflich. Daten landen in den USA, im Standard fließen sie in Trainings- oder Verbesserungs-Pipelines.[23][27]

Für Unternehmensdaten ist das die schlechteste denkbare Stufe — und gleichzeitig die, auf der die meisten Mittelständler de facto schon stehen, ohne es zu wissen.

ChatGPT FreeClaude FreeGemini App
2

Die vernünftige Basis.

Team- oder Enterprise-Lizenzen mit AVV, dokumentierter Datenverarbeitung, kein Training auf Eingaben. Admin-Konsole, SSO, je nach Tier auch Audit-Logs und Data Residency.

Für 90 Prozent aller Use-Cases im Mittelstand der richtige Default. 25–30 €[25][28] pro Nutzer und Monat — Haftungsrisiko gegen Lizenzkosten ist hier ein lächerlich günstiger Tausch.

ChatGPT BusinessClaude TeamM365 Copilot
3

Wenn du selbst bauen willst.

Tenant-isoliertes Deployment derselben Frontier-Modelle, in einer EU-Region deiner Wahl, abgerechnet pro Token. Vertragsframework über deinen bestehenden Hyperscaler — kein neuer Lieferant, kein neues Compliance-Theater.

Die Wahl, sobald du eigene Anwendungen baust: Chatbot, Wissensmanagement, RAG, Automatisierung. CLOUD Act bleibt — aber EU Data Boundary und Sovereign-Konstruktionen reduzieren das Risiko erheblich.[18][30][35][38]

Azure OpenAIAWS BedrockGoogle Vertex AI
4

Open-Weight in europäischer Hand.

Open-Weight-Modelle (Llama, Mistral, Qwen) auf dediziertem GPU-Deployment bei einem europäischen Anbieter ohne US-Mutter. Volle Datenkontrolle, kein CLOUD Act, keine SCC-Diskussion.[40][41][42]

Nur sinnvoll, wenn du strenge Datenhoheit brauchst und mit Open-Weight-Qualität (gut, aber nicht Frontier) leben kannst. Setup ab 50.000 €, plus laufende Betriebskosten.

STACKITOVHIONOS Cloud
5

Eigene Hardware. Eigenes Risiko.

8-GPU-Server im eigenen Rechenzentrum mit vLLM, Ollama oder TGI. Maximale Kontrolle, null Abhängigkeit, dafür: 250.000–400.000 € CapEx, ein dediziertes ML-Ops-Team und 12–18 Monate Vorlauf für Hardware.[48][49][55]

Lohnt sich erst ab 5.000–8.000 Dauernutzern oder wenn deine Daten aus regulatorischen Gründen das Haus nicht verlassen dürfen. Für 99 Prozent des Mittelstands die falsche Antwort auf eine nicht gestellte Frage.

vLLMOllamaTGIDGX H200
Deployment-Spektrum Stufe 01
1 Public SaaS 0 € · Keine Kontrolle
2 Business SaaS 25–30 €/User
3 Hyperscaler-API Token-basiert
4 Private Cloud 50k+ € Setup
5 On-Premise 300k+ € · Volle Kontrolle
← Weniger Aufwand · Mehr Kontrolle →

Je weiter rechts in diesem Spektrum du dich bewegst, desto mehr Kontrolle hast du — und desto mehr Verantwortung übernimmst du. Das ist kein Marketing-Slogan, sondern eine juristische Tatsache: Wer selbst hostet, wird in beiden Rechtsrahmen zum „Verarbeiter in eigener Sache” und übernimmt Pflichten, die vorher der Anbieter trug.[01][02]

Was sich von Stufe zu Stufe wirklich ändert

PublicBusinessHyperscalerPrivateOn-Prem
AVV / DPA vorhandenNeinJaJaJaN/A
Training auf deinen DatenTeilweiseNeinNeinNeinNein
EU-Hosting möglichSeltenTeilweiseJaJaJa
CLOUD Act / FISA 702JaJaReduziertAbhängigNein
Modell-QualitätFrontierFrontierFrontierOpen-WeightOpen-Weight
IT-BetriebsaufwandNullNullMittelHochSehr hoch

Beachte die fünfte Zeile: In Sachen Modellqualität schneiden die ersten drei Stufen heute identisch ab, weil sie alle auf dieselben Frontier-Modelle zugreifen — GPT-5.x-, Claude 4.x- und Gemini 3.x-Familien. Der Wechsel zu Private Cloud / On-Prem bedeutet fast immer einen Wechsel auf Open-Weight-Modelle wie Llama, Mistral, Qwen oder DeepSeek. Die sind 2026 sehr gut geworden — aber nicht auf dem Niveau der besten Frontier-Modelle.[43][44][45] Wer diese Qualitätslücke ignoriert, bezahlt sie später in schlechten Outputs.

05 SaaS-Realität

Die Tier-Matrix

Der gefährlichste Denkfehler auf Stufe eins und zwei des Spektrums ist die Annahme, dass alle Tiers desselben Anbieters rechtlich und vertraglich ähnlich funktionieren. Tun sie nicht. Zwischen ChatGPT Plus und ChatGPT Business liegt in Sachen Datenschutz ein Rechtsraum.[23][24][26][27]

ProduktTraining auf Eingaben?AVV / DPAEU-HostingAdmin-Features
ChatGPT Free / Plus
Consumer
Ja, defaultNeinNeinKeine
ChatGPT Business
ab 2 Seats
NeinJa, Standard-DPABeschränktSSO, Admin
ChatGPT Enterprise
Custom Agreement
Nein, ZDR möglichJa, vollständigJa, EU-ResidencySSO, SCIM, Audit, RBAC
Claude Free / Pro
Consumer
Privacy Center prüfenNeinNeinKeine
Claude Team
Sonnet 4.6 / Opus 4.6
NeinJa, Commercial TermsAuf AnfrageSSO, teilweise Audit
Claude Enterprise
Custom
NeinJa, vollständigVerhandelbarSSO, SCIM, ISO 42001
Gemini App Free / Advanced
Consumer
Ja, Opt-out möglichNeinNeinKeine
Gemini for Workspace
Business / Enterprise
NeinJa, Cloud DPAJa, Data ResidencyCMEK, Audit
Microsoft 365 Copilot
Enterprise
NeinJa, M365 DPAEU Data BoundaryEntra ID, Purview
Die Schatten-IT-Falle

In fast jedem Mittelstand existiert dieses Muster: Die Geschäftsführung entscheidet sich für Microsoft 365 Copilot oder ChatGPT Business — und Marketing, Vertrieb und Entwicklung nutzen gleichzeitig ihre privaten ChatGPT-Plus-Accounts weiter, weil sie schneller oder besser sind. Ohne flankierende Richtlinie, Schulung und technische Kontrolle (Web-Filter, DLP) ist jede Enterprise-Lösung nur so sicher wie das Verhalten des schwächsten Mitarbeiters.

Die Faustregel

Für den Einsatz mit Unternehmensdaten gilt: mindestens Business-Tier, besser Enterprise, niemals Consumer. Die Preisdifferenz zwischen Consumer und Business liegt typischerweise bei 5–10 €/Nutzer/Monat — gegenüber dem Haftungsrisiko ein bemerkenswert günstiger Tausch.[25][28]

06 Hyperscaler

Azure vs. Bedrock vs. Vertex AI

Wenn du aus der Business-SaaS-Stufe herauswächst — typischerweise, weil du eigene Anwendungen baust, höheren Durchsatz brauchst oder spezifische Compliance-Anforderungen hast — landest du auf Stufe drei. Hier werden dieselben Frontier-Modelle, die auch ChatGPT und Claude antreiben, in Tenant-isolierter Form angeboten, in einer EU-Region deiner Wahl, mit dem Vertragsframework, das du mit dem Hyperscaler ohnehin schon hast.

Microsoft Azure

Azure OpenAI Service

Modelle: GPT-5.x-Familie (aktuell GPT-5.2 / 5.4), GPT-4o als Legacy. Über Microsoft Foundry zusätzlich Claude.

EU-Hosting: EU Data Boundary vollständig seit Februar 2025. Frankfurt, Paris, Amsterdam.

Besonderheit: Breiteste Modellauswahl. Abuse-Monitoring standardmäßig aktiv; für regulierte Szenarien per Antrag deaktivierbar.[29][30][31]

AWS

Amazon Bedrock

Modelle: Claude, Llama, Mistral, Cohere, Amazon Nova / Titan; sehr breite Open-Weight-Auswahl.

EU-Hosting: Frankfurt, Irland, Paris, Stockholm, London. AWS European Sovereign Cloud seit Anfang 2026 unter deutscher Leitung.

Besonderheit: Batch-Modus mit 50 % Preisnachlass für asynchrone Workloads — spart bei Reporting und ETL-Use-Cases.[33][34][35]

Google Cloud

Vertex AI

Modelle: Gemini-Familie primär, zusätzlich Gemma (Open-Weight) und Model Garden mit Llama.

EU-Hosting: Data Residency in EU-Regionen. Sovereign Cloud (S3NS / STACKIT) im Aufbau.

Besonderheit: Preis-Leader im Flash-Segment. Caching-Rabatt für repetitive Prompts kann Kosten dramatisch senken.[36][37][38]

Die CLOUD-Act-Frage, die niemand gerne beantwortet

Alle drei Hyperscaler haben eine US-Muttergesellschaft. Egal wie viel Frankfurt, wie viel EU Data Boundary, wie viel Sovereign Cloud draufsteht — der US CLOUD Act und die FISA Section 702 gelten auf Ebene der Konzernmutter. Ein US-Gericht kann grundsätzlich einen Herausgabebeschluss gegen Microsoft Corp., Amazon.com Inc. oder Alphabet Inc. erlassen, und dieser Beschluss muss befolgt werden — unabhängig vom physischen Speicherort der Daten.[18]

Die Reaktion der Hyperscaler sind Konstruktionen wie:

  • Microsoft EU Data Boundary — technische und organisatorische Garantie, dass Kundendaten EU/EFTA nicht verlassen[30]
  • AWS European Sovereign Cloud — separate Gesellschaft unter deutscher Leitung, eigene SOC, eigene Admin-Rechte[35]
  • Google Sovereign Cloud — Partnerschaften mit Thales (S3NS) und STACKIT für Hosting ohne Google-Zugriff[38][40]

Alle drei reduzieren das Risiko deutlich, lösen das juristische Grundproblem aber nicht vollständig.

Sovereign Cloud reduziert das CLOUD-Act-Risiko deutlich. Sie hebt es nicht auf.

Konsens der Aufsichtsbehörden

Token-Preise (Stand April 2026)

ModellInput / 1M TokensOutput / 1M TokensAnbieter
GPT-5.2 Instant≈ 1,75 $≈ 14,00 $Azure OpenAI
GPT-4o Legacy≈ 2,50 $≈ 10,00 $Azure / OpenAI API
GPT-4o-mini≈ 0,15 $≈ 0,60 $Azure OpenAI
Claude Sonnet 4.6≈ 3,00 $≈ 15,00 $Bedrock, Anthropic API
Claude Opus 4.6≈ 5,00 $≈ 25,00 $Bedrock, Anthropic API
Gemini 2.5 Pro≈ 1,25 $≈ 10,00 $Vertex AI
Gemini 3.1 Pro≈ 2,00 $≈ 12,00 $Vertex AI
Gemini 2.5 Flash≈ 0,30 $≈ 2,50 $Vertex AI
07 Self-Hosting

Die Realität hinter dem Marketing

An diesem Punkt wird häufig der Vorschlag gemacht, „dann machen wir halt alles selbst” — gemeint: Open-Weight-Modelle auf eigener Hardware oder in der eigenen Private Cloud betreiben. Das ist eine legitime Option, und sie ist 2026 technisch so einfach wie nie. Sie ist auch teurer und anspruchsvoller, als 90 Prozent der Mittelständler einschätzen, die sie erwägen.

Open-Weight im Jahr 2026

Meta

Llama-Familie

Llama 3.3 70B und Llama 4 (Scout / Maverick mit Mixture-of-Experts) sind die Workhorses vieler Mittelstands-Deployments. Lizenz: Meta Llama Community License, kommerziell nutzbar unterhalb von 700 Mio. monatlich aktiver Nutzer.[44]

Mistral AI

Mistral-Familie

Europäischer Anbieter aus Paris. Modelle teilweise unter Apache 2.0, teilweise kommerziell. Guter Default, wenn „europäisches Modell” ein Kriterium ist.[43]

Alibaba

Qwen-Familie

Qwen 2.5 und Nachfolger liefern für Größe und Preis sehr starke Benchmarks. Lizenzen variieren je Größe. Herkunft China für manche Compliance-Setups relevant.[45]

DeepSeek

DeepSeek V3 / R1

Sehr effiziente MoE-Architektur, MIT-Lizenz. Reasoning-Qualität beachtlich. Auch hier: Herkunft China in der Risikoabwägung berücksichtigen.[46]

Google

Gemma

Kleinere, effiziente Modelle mit sehr offener Lizenz, gut für Edge-Szenarien und embedded Inferencing.[47]

AMD

MI350X als Inferenz-Plattform

Die AMD MI350X (CDNA 4, seit Q3 2025) mit 288 GB HBM3e ist eine ernstzunehmende Alternative zu NVIDIA Blackwell. ROCm 7 bietet Day-0-Support für PyTorch, Hugging Face und vLLM. Preislich typischerweise unter NVIDIA-Äquivalenten.[55][56]

Open-Weight ≠ Open Source

„Open-Weight” bedeutet, dass die Modellgewichte heruntergeladen und lokal ausgeführt werden können. Es bedeutet nicht, dass Trainingsdaten, Trainingsprozesse oder Architektur-Details vollständig offengelegt sind. Mehrere prominente „offene” Modelle haben Lizenzen mit Einschränkungen. Lies sie, bevor du die Architektur drumherum baust.[43][44]

Die Hardware-Realität

Um ein Modell in der Qualitätsklasse Llama 3.3 70B oder Mistral Large sinnvoll zu betreiben, brauchst du ernst zu nehmende GPU-Kapazität. „Sinnvoll” heißt: Antworten in akzeptabler Latenz für mehrere gleichzeitige Nutzer.

GPUVRAMKaufpreisMietpreisVerfügbarkeit Q2 / 2026
NVIDIA H100 SXM580 GB HBM3≈ 25–30k $≈ 2,50–3,30 $/hGut verfügbar
NVIDIA H200 SXM5141 GB HBM3e≈ 30–40k $≈ 3,70–10,60 $/hVerfügbar
NVIDIA B200 (Blackwell)192 GB HBM3e≈ 45–55k $≈ 4,88–5,62 $/hLieferzeit ~18 Wochen
NVIDIA B300 (Blackwell Ultra)288 GB HBM3eDGX-Racks ab ~3,5 Mio. $≈ 5,50 $/hIn Produktion seit Jan. 2026
AMD MI300X192 GB HBM3≈ 15–18k $≈ 1,10–3,00 $/hKnapp aber wachsend
AMD MI325X256 GB HBM3enoch in Verhandlung≈ 2,30 $/hNur ausgewählte Provider
AMD MI350X (CDNA 4)288 GB HBM3enoch keine ListenpreiseErste CSP-Instanzen Q3 2025Bei ausgewählten Anbietern

Für ein realistisches Produktions-Deployment brauchst du typischerweise einen Server mit acht GPUs — DGX H200 oder äquivalent. Das ergibt eine Hardware-Investition in der Größenordnung von 250.000 bis 400.000 Euro für den reinen Server, plus Rack, Power, Kühlung, InfiniBand-Netzwerk und den nicht zu unterschätzenden Software-Stack.[49][50]

Und dann brauchst du Leute, die das betreiben. Mindestens eine volle Senior-ML-Ops-Rolle — realistisch bei 150.000 Euro Jahresgehalt in Deutschland, inklusive Nebenkosten eher Richtung 180.000 Euro. Plus Vertretung, plus Weiterbildung.

III
Dritter Akt

Geld.
Was es kostet — wirklich.

Kapitel 08 — 09
08 Wirtschaftlichkeit

Was kostet was — wirklich?

Die meisten TCO-Vergleiche, die du im Netz findest, kalkulieren mit fest erfundenen Annahmen — und kommen je nach gewünschtem Ergebnis zu wildly unterschiedlichen Schlüssen. Hier ist die Rechnung als interaktives Werkzeug: du stellst die Parameter, der Vergleich passt sich live an. Schraub die Nutzerzahl hoch und beobachte, wann Self-Hosting realistisch wird.

Deine Parameter
2010.000
5k200k
Flash/MiniFrontierPremium
Jahresverbrauch 990M Tokens

Drei Szenarien über 3 Jahre

in USD · Vollkostenrechnung
Szenario A Business SaaS
$0
Lizenz pro Nutzer · ChatGPT Business / M365 Copilot · 25 $/User/Monat
Szenario B Hyperscaler-API
$0
Pro Token · 60 % Input / 40 % Output · plus 30 % Overhead
Szenario C On-Premise
$0
8x H200 + 1 ML-Ops FTE + Strom + Software · Open-Weight-Modell
0 $ 500k $ 1 Mio. $
Stell die Slider — der Vergleich rechnet live nach.

Was die Rechnung zeigt

Bei einem typischen Mittelständler mit 150 aktiven Nutzern und 30k Tokens pro Tag kostet Business SaaS über drei Jahre rund 180.000–216.000 $. Hyperscaler-API liegt bei 21.000–30.000 $. On-Premise mit eigenem GPU-Server bei knapp 940.000 $.[25][28][31][34][37]

Self-Hosting wird gegenüber API erst dann wirtschaftlich, wenn dein Token-Verbrauch grob um den Faktor 40–50 über dem Baseline liegt. Das entspricht einer Organisation mit eher 5.000–8.000 Dauernutzern oder massiver, kontinuierlicher Agenten-Last (24/7-Automatisierung). Für einen klassischen Mittelständler mit 200 Leuten ist das außerhalb der Realität — mit einer Ausnahme: deine Daten dürfen aus regulatorischen Gründen das Haus nicht verlassen. Dann ist Self-Hosting keine Kostenfrage, sondern eine Voraussetzung.

Was die Rechnung nicht zeigt

Die versteckten Kosten von Self-Hosting: Hochverfügbarkeit (zweiter Server für Failover verdoppelt die CapEx), Modell-Updates alle drei Monate, Eval-Zyklen, Software-Stack-Pflege, Vertretung der ML-Ops-Rolle. In der Praxis kommt zur reinen Rechnung typischerweise ein Faktor 1,3–1,5 hinzu — wenn man ehrlich ist.[48][49]

Diese Break-Even-Rechnung ist der mit Abstand am häufigsten unterschätzte Punkt in der Debatte. Du hörst von Beratern „wir haben einen Kunden, der self-hostet und 70 Prozent gespart hat” — und dann zeigt der zweite Blick, dass der Kunde einen Use-Case mit 50 Milliarden Tokens pro Jahr hat, also eine ganz andere Gewichtsklasse.

09 Hardware

Gibt es die Hardware überhaupt?

Die Diskussion über Self-Hosting wird häufig geführt, als wäre Hardware jederzeit beliebig verfügbar. Das stimmt 2026 nicht. Die weltweite Nachfrage nach High-End-GPUs übersteigt das Angebot seit mehr als zwei Jahren, und die Lieferketten — insbesondere der HBM-Speicher von SK Hynix und Samsung sowie die fortgeschrittenen Substrate aus Japan — sind ein echter Engpass.

Was das für einen Mittelständler praktisch bedeutet:

  • H100-Systeme sind inzwischen deutlich besser verfügbar als 2024/2025 und preislich stabilisiert ($25.000–40.000); die Neuproduktion konzentriert sich auf Blackwell.[48]
  • B200-Systeme haben sich deutlich entspannt; Lieferzeiten liegen bei ca. 18 Wochen, da die Nachfrage auf B300 (Blackwell Ultra) und bald Vera Rubin umgeschwenkt ist.[50][51][52]
  • B300-Systeme (Blackwell Ultra) sind seit Januar 2026 in Produktion und aktuell die neue Spitze. Verfügbarkeit eingeschränkt, Lieferzeiten mehrere Monate. DGX-Racks ab ca. 3,5 Mio. $.[51]
  • GPU-Cloud-Anbieter wie CoreWeave oder Lambda Labs berichten von hoher Auslastung. Mietpreise im letzten Quartal spürbar gestiegen.
  • AMD MI350X (CDNA 4) ist eine sich entwickelnde Alternative mit ROCm 7 und deutlich verbesserter CUDA-Kompatibilität. Bis zu 4× bessere Inference-Performance als ROCm 6.[55]

Wer 2026 einen eigenen GPU-Cluster plant, plant für zwölf bis achtzehn Monate. Nicht für drei.

Die nüchterne Konsequenz: Die Hardware-Verfügbarkeit ist für die meisten Mittelständler ein weiteres Argument gegen On-Premise und für Hyperscaler oder Business SaaS. Wenn du wirklich eigene Hardware brauchst, beginn die Bestellung mindestens ein Jahr vor dem geplanten Produktionsstart und rechne Puffer ein.

IV
Vierter Akt

Entscheidung.
Was du jetzt tust.

Kapitel 10 — 13
10 Datenklassen

PII, Geschäftsgeheimnis, IP — drei Ebenen

Wenn du in deinem Unternehmen über „sensible Daten” redest, redest du fast immer über drei verschiedene Dinge gleichzeitig — und behandelst sie unterschiedslos. Die rechtlichen Anforderungen sind aber höchst unterschiedlich.

Ebene 01 · DSGVO

Personenbezogene Daten

Alles, was sich auf eine identifizierbare natürliche Person bezieht. Kundennamen, E-Mail-Adressen, Bewerberprofile, Mitarbeiterdaten, Krankendaten.

Mindestanforderung: Rechtsgrundlage, Zweckbindung, AVV mit Anbieter, Betroffenenrechte umsetzen, ggf. DSFA.[01]

Ebene 02 · GeschGehG

Geschäftsgeheimnisse

Informationen mit wirtschaftlichem Wert, die nicht allgemein bekannt sind und für die angemessene Geheimhaltungsmaßnahmen getroffen wurden — sonst verlieren sie den Schutz.

Mindestanforderung: Klassifizierung, technische Schutzmaßnahmen, vertragliche Regelungen mit Mitarbeitern und Dienstleistern.[09]

Ebene 03 · IP

Geistiges Eigentum

Patente, Urheberrechte, Marken, Designs. Im KI-Kontext besonders heikel: Code, Konstruktionspläne, Rezepturen, Trainingsdaten.

Mindestanforderung: Lizenzfragen klären — sowohl beim Input (darfst du das in den Prompt geben?) als auch beim Output (wem gehört das Ergebnis?).

Diese drei Ebenen überlagern sich häufig, sind aber nicht identisch. Ein Bewerberprofil ist personenbezogen (DSGVO), aber selten Geschäftsgeheimnis. Eine technische Konstruktionszeichnung ist Geschäftsgeheimnis und IP, aber nicht zwingend personenbezogen. Die Quelltexte deiner Software sind IP und oft Geschäftsgeheimnis, in seltenen Fällen auch personenbezogen (wenn dort Klarnamen stehen).[01][09]

Praktische Konsequenz

Eine pauschale „KI-Richtlinie” funktioniert nicht. Du brauchst eine Datenklassifikation, die für jede Klasse bestimmt, welche der fünf Spektrum-Stufen erlaubt ist. Ein Marketing-Brainstorming darf in Business SaaS. Ein Gehaltsgespräch nicht. Ein Patent-Entwurf braucht Tier-3 oder höher. Eine Gehaltsliste vermutlich gar keine KI.

11 Framework

Das Entscheidungs-Framework

Statt einer abstrakten Tabelle bekommst du hier den Entscheidungspfad als klickbares Werkzeug. Vier Fragen, eine Empfehlung. Antworten ehrlich — das Ergebnis ist nur so gut wie der Input.

Entscheidungs-Tool
Frage 1 / 4
Was ist die höchste Datenklasse, die du in der KI verarbeiten willst?
Die schärfste Datenklasse bestimmt die Mindestanforderungen für alle Use-Cases.
Wie viele Mitarbeiter sollen regelmäßig KI nutzen?
„Regelmäßig" heißt: mehrmals pro Woche im Arbeitskontext.
Was ist dein primärer Use-Case?
Wenn mehrere zutreffen, wähl den, der am meisten Volumen erzeugt.
Wie sieht dein IT-Setup aus?
Deine bestehende Infrastruktur entscheidet, was praktisch umsetzbar ist.
Empfehlung

Stufe
Geschätzte Kosten
Time-to-Live
Was dieses Tool nicht ersetzt

Dieses Werkzeug ist eine erste Orientierung — keine Rechtsberatung, keine Architekturentscheidung. In jedem realen Projekt brauchst du eine Datenschutz-Folgenabschätzung, eine Anbieter-Due-Diligence und eine ehrliche Auseinandersetzung mit den eigenen Schatten-IT-Risiken.[01][02][06] Der Pfad, den dieses Tool ausspuckt, ersetzt nichts davon. Er gibt dir den Rahmen, in dem die echten Diskussionen stattfinden sollten.

12 Mythen

Die hartnäckigsten Halbwahrheiten

Bevor wir zur Checkliste kommen — hier sind zwölf Sätze, die im Mittelstand kursieren und die schlicht nicht stimmen oder zumindest stark irreführend sind. Wenn dir einer davon im Meeting begegnet, weißt du, woran du bist.

Mythos 01

Wenn die Server in Frankfurt stehen, sind wir DSGVO-konform.

Hosting-Ort allein sagt nichts über DSGVO-Konformität. Du brauchst weiterhin Rechtsgrundlage, Zweckbindung, AVV, technische Maßnahmen. Frankfurt ist eine notwendige, keine hinreichende Bedingung. [01]

Mythos 02

Self-Hosting macht uns unabhängig.

Self-Hosting macht dich vom Anbieter unabhängig und vom Hardware-Hersteller, vom Stromnetz, vom Modell-Lifecycle und von der Verfügbarkeit deines ML-Ops-Teams abhängig.

Mythos 03

Wir trainieren das Modell mit unseren Daten.

In 99 % der Fälle ist mit trainieren Retrieval-Augmented Generation gemeint, nicht echtes Training. RAG ist gut, aber kein Training. Echtes Fine-Tuning kostet Größenordnungen mehr und lohnt sich selten. [56]

Mythos 04

Open-Source-Modelle sind sicherer.

Sie sind transparenter, das ist nicht dasselbe. Ein Open-Weight-Modell kann ebenso fehlerhaft, voreingenommen oder unsicher sein wie ein proprietäres. Sicherheit kommt von der Architektur drumherum, nicht von der Lizenz des Modells. [21]

Mythos 05

KI ersetzt unsere Mitarbeiter.

Im Mittelstand 2026 ersetzt KI selten ganze Rollen, häufig einzelne Tätigkeiten innerhalb einer Rolle. Wer Mitarbeiterzahlen plant, statt Tätigkeitsprofile, wird enttäuscht.

Mythos 06

Wenn unser Anbieter ISO 27001 hat, sind wir abgesichert.

ISO 27001 ist ein Managementsystem-Standard für Informationssicherheit. Er sagt nichts über DSGVO-Konformität, AI-Act-Compliance oder die Qualität des spezifischen KI-Modells aus. [17]

Mythos 07

Wir machen einfach alles anonym.

Echte Anonymisierung im Sinne der DSGVO ist außerordentlich schwer und in vielen Datensätzen praktisch unmöglich. Pseudonymisierung ist machbar, ändert aber nichts an der Anwendbarkeit der DSGVO. [01][07]

Mythos 08

Token sind günstig, also egal.

Bei einem klassischen 200-Personen-Mittelständler stimmt das. Bei einem Agenten-Use-Case mit 24/7-Betrieb und großen Kontexten kommen monatliche Rechnungen im fünfstelligen Bereich zusammen. Setz Budgets und Alerts. [25][28]

Mythos 09

Wir warten, bis die Regulierung klar ist.

Regulierung ist klar genug, um zu starten. Was unklar bleibt, ist die Detailauslegung — und die wirst du nur durch tatsächlichen Betrieb herausfinden. Wer wartet, lernt nicht. [02][03]

Mythos 10

Unsere Branche ist zu speziell für KI.

Die generischen Use-Cases (Textverarbeitung, Recherche, Zusammenfassung, Übersetzung, Code) funktionieren in jeder Branche. Nur die domänenspezifischen Use-Cases brauchen Anpassung — und auch nicht zwingend Training, sondern oft nur RAG.

Mythos 11

Wir holen uns einen KI-Berater.

Du brauchst einen KI-Berater, der Datenschutz versteht, IT-Architektur versteht und außerdem deinen Betrieb versteht. Diese Kombination ist selten. Häufig bekommst du Spezialisten, die jeweils nur einen Aspekt abdecken.

Mythos 12

Das machen wir nächstes Jahr.

Dein Wettbewerber macht es dieses Jahr. Jeder Tag, an dem du nicht startest, ist ein Tag, an dem die Lernkurve nicht beginnt. Lernkurven addieren sich nicht — sie multiplizieren sich.

01 / 12
13 Checkliste

Zehn Fragen vor dem Rollout

Bevor du irgendetwas live nimmst — egal welche Stufe — geh diese zehn Fragen durch. Wenn du auch nur eine nicht ehrlich beantworten kannst, ist es zu früh.

Welche Datenklassen verarbeiten wir konkret?
Personenbezogen, Geschäftsgeheimnis, IP, öffentlich. Wer keine Klassifikation hat, kann keine sinnvolle Architektur wählen.[01][09]
Welche Use-Cases sind erlaubt — und welche explizit nicht?
Eine schriftliche Nutzungsrichtlinie, die im Onboarding vermittelt wird. Ohne sie nutzen die Mitarbeiter Schatten-IT.
Haben wir einen AVV mit dem Anbieter?
Liegt unterschrieben vor. Sub-Prozessoren-Liste verstanden. Drittlandtransfer-Mechanismen geprüft.[01][24]
Ist die Rechtsgrundlage klar?
Berechtigtes Interesse, Vertragserfüllung, Einwilligung — was ist es, und ist die Begründung dokumentiert?[01]
Brauchen wir eine DSFA?
Bei Bewerber-Screening, Mitarbeiter-Monitoring, automatisierten Entscheidungen oder Profilbildung mit hoher Wahrscheinlichkeit ja.[01][06]
Ist der Betriebsrat eingebunden?
Bei mitbestimmungspflichtigen Themen — und KI-Tools, die Arbeitsverhalten beeinflussen können, sind das fast immer — ist Mitbestimmung Pflicht.[19]
Wer ist menschlicher Aufseher?
AI Act Art. 14 verlangt menschliche Aufsicht. Wer ist konkret zuständig, mit welchem Mandat, welcher Schulung, welcher Erreichbarkeit?[02]
Wie messen wir Output-Qualität?
Ohne kontinuierliche Evaluation keine Verbesserung. Eval-Set und Review-Prozess gehören zum Tag-1-Setup.
Was ist unser Exit-Plan?
Wenn der Anbieter morgen die Preise verdoppelt oder das Modell abschaltet — was tun wir? Datenexport, Modellwechsel, Vendor-Lock-in-Risiko bewertet?
Wer hat Budgetverantwortung?
Token-Kosten können explodieren. Wer hat Limits gesetzt, wer wird bei Überschreitung alarmiert, wer entscheidet über Erhöhung?

Die richtige Frage ist nicht „welche KI?” — sondern „welches Problem, welche Daten, welche Pflichten?”

Wer in dieser Reihenfolge denkt, kommt zur richtigen Architektur. Wer mit der Architektur beginnt, kommt zu einer Lösung, die ein Problem löst, das er nicht hat — und drei andere offen lässt.

56 Quellen.

Alle Aussagen in diesem Artikel sind belegbar. Hier ist die vollständige Liste, sortiert nach Themengebiet, Stand April 2026.

Weiterlesen

Hier geht's weiter —
per Mail.

Was kostet KI wirklich — und welches Setup passt zu dir? Der Rest des Artikels ist kostenlos. Trag deine E-Mail ein, wir schicken dir einen Link zum Freischalten.

Fragen offen?

Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.

Gespräch buchen