01 · Einstieg 02 · Recht 03 · Präzision 04 · Spektrum 05 · Tiers 06 · Hyperscaler 07 · Self-Hosting 08 · Wirtschaftlichkeit 09 · Hardware 10 · Datenklassen 11 · Framework 12 · Mythen 13 · Checkliste 14 · Quellen

28 Min Lesezeit

KI im Mittelstand. Public, Private, On‑Prem.

Zwischen ChatGPT-Plus-Abo, Azure-OpenAI-Deployment und eigenem GPU-Cluster liegen nicht nur Welten an Komplexität, sondern auch an Kosten, Haftung und Wirklichkeitsnähe. Dieser Artikel räumt mit Mythen auf, ordnet DSGVO und AI Act sauber zu, und zeigt quellenbasiert wann du welche Lösung wirklich brauchst — und wann nicht.

Stand April 2026

Lesezeit 28 Min

Quellen 56

Scroll um zu lesen

Inhalt

Vier Akte. Vierzehn Kapitel.

Erst die rechtliche Landkarte. Dann das technische Spektrum. Dann die ökonomische Realität. Erst zum Schluss die Entscheidung.

Akt I Recht
01 Warum der Nebel nicht zufällig ist →
02 DSGVO vs. AI Act →
03 Kennt der Datenschutz KI? →
Akt II Technik
04 Deployment-Spektrum →
05 Die Tier-Matrix →
06 Azure vs. Bedrock vs. Vertex →
07 Modelle und Hardware →
Akt III Geld
08 Was kostet was? →
09 Gibt es die Hardware? →
Akt IV Entscheidung
10 PII, IP, Geschäftsgeheimnis →
11 Entscheidungs-Framework →
12 Die hartnäckigsten Mythen →
13 Zehn Fragen vor dem Rollout →
14 Quellen →

Erster Akt

Recht.
Was darfst du, was nicht.

Kapitel 01 — 03

01 Einstieg

Warum der Nebel nicht zufällig ist

Wenn du ein Unternehmen im deutschen Mittelstand führst und in den letzten zwölf Monaten irgendetwas mit KI gemacht hast, kennst du das Gefühl: zehn Berater, zehn Meinungen, fünf Vendor-Pitches, drei Rechtsanwälte, und hinterher ist nicht klarer als vorher, was du eigentlich tun darfst, tun solltest oder tun kannst.

Das liegt nicht daran, dass du etwas übersiehst. Das Themenfeld ist objektiv vielschichtig — und es wird auf mindestens drei Ebenen gleichzeitig verhandelt, die selten sauber auseinandergehalten werden: einer rechtlichen (DSGVO, EU AI Act, Geschäftsgeheimnisgesetz)^[01][02][09], einer technischen (SaaS, API, Hyperscaler, On-Prem, Open-Weight-Modelle) und einer wirtschaftlichen (Lizenz vs. Token vs. Hardware). In jeder Ebene existieren Halbwahrheiten, Mythen und Marketing-Behauptungen, die oft erst im Kontext der jeweils anderen Ebenen überhaupt entlarvt werden können.

Drei Beispiele, die dir vermutlich bekannt vorkommen:

Mythos 01

Wenn wir ein eigenes Azure-OpenAI-Deployment haben, sind wir DSGVO-konform.

Nein. Du hast einen anderen Vertrag, eine andere Region und teilweise andere Datenflüsse. Das ist gut, macht dich aber nicht automatisch konform. Du bleibst Verantwortlicher und musst Zweckbindung, Rechtsgrundlage und Betroffenenrechte weiterhin selbst sicherstellen. ^[01][29]

Mythos 02

Self-Hosting auf eigener Hardware macht KI endlich legal.

Der Hosting-Ort ändert weder die Zweckbindung noch die Betroffenenrechte noch die AI-Act-Pflichten. Self-Hosting löst ein bestimmtes Set an Problemen (Sub-Prozessoren, Drittlandtransfer) und schafft dafür neue (Lizenz der Open-Weight-Modelle, eigene Anbieter-Pflichten nach AI Act, Betriebsrisiko). ^[01][02][44]

Mythos 03

Anbieter XY hat einen NSFW-Filter, der die Prompts liest — damit ist der nicht DSGVO-konform.

Ein Trust-&-Safety-Filter ist Teil derselben Auftragsverarbeitung durch denselben Verarbeiter. Er ist kein zusätzlicher Empfänger. Wenn der Anbieter ein aktuelles DPA hat und die Maßnahme im Rahmen der Service-Integrität erfolgt, ist das keine zusätzliche Datenübermittlung im Sinne der DSGVO. ^[01][23][24]

01 / 03

Diese Beispiele haben eines gemeinsam: Sie klingen plausibel, wurden auf LinkedIn mit vielen Likes geteilt, und sind trotzdem falsch oder zumindest stark irreführend. Wer als Entscheider auf dieser Grundlage Architekturen auswählt, baut auf Sand.

Dieser Artikel räumt auf. Er tut das in einer ganz bestimmten Reihenfolge: zuerst die rechtliche Landkarte, weil sich daraus die tatsächlichen Freiheitsgrade ergeben. Dann das technische Spektrum mit allen fünf relevanten Deployment-Modellen. Dann die ökonomische Realität mit konkreten Zahlen für einen typischen 200-Personen-Mittelständler. Und erst am Ende das Entscheidungs-Framework, das all das zusammenführt. Wer rückwärts beginnt — bei der Lösung statt bei der Frage — landet fast zwangsläufig bei der falschen Antwort.

02 Recht

DSGVO vs. AI Act — parallel, nicht alternativ

Die häufigste Quelle für Verwirrung im Gespräch mit deutschen Mittelständlern ist die Annahme, dass DSGVO und AI Act dasselbe regeln, nur unterschiedlich streng. Das ist falsch. Die beiden Verordnungen haben unterschiedliche Schutzgegenstände, unterschiedliche Rollenbegriffe und unterschiedliche Anknüpfungspunkte — und sie gelten kumulativ, nicht alternativ.^[01][02]

	DSGVO (VO 2016/679)	EU AI Act (VO 2024/1689)
Schutzgegenstand	Personenbezogene Daten einer identifizierbaren Person	KI-Systeme und ihre Auswirkungen auf Grundrechte, Gesundheit, Sicherheit
Anknüpfungspunkt	Jede Verarbeitung personenbezogener Daten	Bereitstellung oder Nutzung eines KI-Systems
Rollen	Verantwortlicher / Auftragsverarbeiter	Anbieter (Provider) / Betreiber (Deployer)
Technologie	Technologieneutral — Excel, KI, Datenbank gleich behandelt	Explizit KI-bezogen — Risikostufen je nach Funktionsweise
Hauptpflichten	Rechtsgrundlage, Zweckbindung, Betroffenenrechte, DSFA, AVV	Risikomanagement, Transparenz, Human Oversight, Konformitätsbewertung
Aufsicht (DE)	BfDI und Landesdatenschutzbehörden	Bundesnetzagentur (geplant als Hauptaufsicht)

Die Timeline des AI Acts.

Stand April 2026
0 / 4 Stufen aktiv

02.02.2025

Verbotene Praktiken & Kompetenzpflicht

Verbotene KI-Praktiken (Anh. II), KI-Kompetenz-Pflicht nach Art. 4. Alle Unternehmen mit KI-Einsatz.

✓ Aktiv

08.02.2025

General Purpose AI & Transparenz

GPAI-Modelle (Kap. V), Governance, Transparenzpflichten (Art. 50). Anbieter wie OpenAI, Anthropic, Google.

✓ Aktiv

08.02.2026

Vollanwendung Hochrisiko-Systeme

Hochrisiko-Systeme nach Anhang III. Alle Anbieter und Betreiber von Hochrisiko-KI.

✓ Aktiv

08.02.2027

Sicherheitskomponenten in Produkten

Hochrisiko-KI als Sicherheitskomponente regulierter Produkte (Anhang I). Medizintechnik, Maschinenbau.

✓ Aktiv

Quellen Timeline: ^[02][03]

Achtung — Lage in Bewegung

Die EU-Kommission hat im November 2025 im Rahmen des „Digital Omnibus” eine mögliche Verschiebung der Hochrisiko-Pflichten auf Dezember 2027 vorgeschlagen. Stand April 2026 befindet sich der Vorschlag im Trilog — rechtlich bindend ist nach wie vor der 02.08.2026. Wer sich jetzt auf die Verschiebung verlässt, riskiert einen ungedeckten Check.^[03][12][14]

Die Rollenverwirrung: Verantwortlicher, Anbieter, Betreiber

In einem typischen Mittelstands-Szenario trägst du gleich mehrere Hüte, oft ohne es zu wissen. Sagen wir, du nutzt Claude für die Vorselektion von Bewerbern:

DSGVO-Rolle

Du bist Verantwortlicher

Du entscheidest, welche Bewerberdaten in welchem Zweck verarbeitet werden. Anthropic ist dein Auftragsverarbeiter. Du brauchst einen AVV und eine Rechtsgrundlage.^[01][26]

AI-Act-Rolle

Du bist Betreiber

Du setzt ein fremdes KI-System im beruflichen Kontext ein. Ab 02.08.2026: Transparenzpflichten, menschliche Aufsicht, ggf. Grundrechte-Folgenabschätzung nach Art. 27.^[02][03]

AI-Act-Anbieter

Anthropic / OpenAI

Sie tragen die Hauptlast für das Modell selbst: Dokumentation, Konformitätsbewertung, Post-Market-Monitoring, Sicherheit, Robustheit.^[02]

Fallstrick

Du wirst zum Anbieter

Wenn du ein fremdes Modell substantiell anpasst, umbenennst oder den Zweck wesentlich änderst, rutschst du nach Art. 25 in die Anbieter-Rolle mit erweiterten Pflichten.^[02]

Für Bewerberauswahl gilt zusätzlich: KI-Systeme zur Personalauswahl sind nach Anhang III Nr. 4 des AI Acts hochrisiko. Das gilt unabhängig davon, ob personenbezogene Daten im DSGVO-Sinn verarbeitet werden — selbst anonymisierte Bewerberprofile triggern die Pflichten.^[02]

03 Präzision

Kennt der Datenschutz überhaupt KI?

Eine der aufschlussreichsten Fragen, die man sich beim Thema stellen kann, ist tatsächlich die einfachste: Macht es aus Sicht der DSGVO einen Unterschied, ob ich meine Kundenliste in Excel Online, in einem Notion-Workspace oder in einem LLM-Chat verarbeite?

Die Antwort lautet: nein, kategorisch nicht.

Die DSGVO ist technologieneutral. Ihre Anforderungen knüpfen an die Verarbeitung an — nicht an das Werkzeug.

Erwägungsgrund 15 — durchgängig in der Aufsichtspraxis

Die Datenschutzkonferenz (DSK) hat diese Position in ihrer Orientierungshilfe „KI und Datenschutz” vom Mai 2024 bekräftigt und 2025 aktualisiert: Für die Zulässigkeit einer Datenverarbeitung mit einem LLM gelten dieselben Maßstäbe wie für jedes andere Werkzeug — Rechtsgrundlage nach Art. 6, Zweckbindung, Transparenz, Betroffenenrechte, Auftragsverarbeitungsvertrag. Punkt.^[05][06][01]

Was bedeutet das praktisch? Wenn du deine Kundenliste nicht in ein Public-SaaS-Excel werfen würdest, weil kein AVV vorliegt und die Daten in den USA gespeichert werden, darfst du sie auch nicht in ChatGPT Free werfen — aus identischen Gründen. Umgekehrt: Wenn du aggregierte, nicht-personenbezogene Kennzahlen problemlos in einem Cloud-Service verarbeitest, ist eine LLM-Nutzung für dieselben Daten datenschutzrechtlich gleichermaßen unproblematisch.^[01][23][24]

Das ergänzt der AI Act

Was der AI Act ergänzt — und was die DSGVO nicht kannte — sind KI-spezifische Risiken jenseits des Datenschutzes: algorithmische Voreingenommenheit, fehlende Erklärbarkeit, Robustheit gegen Prompt-Injection, Transparenz gegenüber Nutzern eines Chatbots. Diese Themen greift die DSGVO nicht auf. Hier füllt der AI Act eine echte Lücke.^[02][21]

Die Konsequenz für deine Diskussionen im Unternehmen: Wenn beim nächsten Meeting jemand sagt „Bei KI ist das anders” — frag nach dem Warum. In 80 Prozent der Fälle ist es nicht anders, es fühlt sich nur so an.

Zweiter Akt

Technik.
Was ist überhaupt möglich.

Kapitel 04 — 07

04 Spektrum

Fünf Stufen zwischen Plus-Abo und GPU-Cluster

„Sollen wir ChatGPT benutzen oder etwas Eigenes bauen?” ist eine Scheinfrage. Zwischen der kostenlosen Consumer-Version und einem eigenen GPU-Cluster im Keller liegen mindestens fünf klar unterscheidbare Stufen, die sich in Datenfluss, Haftung und Kosten fundamental unterscheiden.

Die Default-Realität.

Free-Tier oder Plus-Abo, persönlich registriert. Keine Auftragsverarbeitung, keine Trennung zwischen privat und beruflich. Daten landen in den USA, im Standard fließen sie in Trainings- oder Verbesserungs-Pipelines.^[23][27]

Für Unternehmensdaten ist das die schlechteste denkbare Stufe — und gleichzeitig die, auf der die meisten Mittelständler de facto schon stehen, ohne es zu wissen.

ChatGPT FreeClaude FreeGemini App

Die vernünftige Basis.

Team- oder Enterprise-Lizenzen mit AVV, dokumentierter Datenverarbeitung, kein Training auf Eingaben. Admin-Konsole, SSO, je nach Tier auch Audit-Logs und Data Residency.

Für 90 Prozent aller Use-Cases im Mittelstand der richtige Default. 25–30 €^[25][28] pro Nutzer und Monat — Haftungsrisiko gegen Lizenzkosten ist hier ein lächerlich günstiger Tausch.

ChatGPT BusinessClaude TeamM365 Copilot

Wenn du selbst bauen willst.

Tenant-isoliertes Deployment derselben Frontier-Modelle, in einer EU-Region deiner Wahl, abgerechnet pro Token. Vertragsframework über deinen bestehenden Hyperscaler — kein neuer Lieferant, kein neues Compliance-Theater.

Die Wahl, sobald du eigene Anwendungen baust: Chatbot, Wissensmanagement, RAG, Automatisierung. CLOUD Act bleibt — aber EU Data Boundary und Sovereign-Konstruktionen reduzieren das Risiko erheblich.^{[18][30][35][38]}

Azure OpenAIAWS BedrockGoogle Vertex AI

Open-Weight in europäischer Hand.

Open-Weight-Modelle (Llama, Mistral, Qwen) auf dediziertem GPU-Deployment bei einem europäischen Anbieter ohne US-Mutter. Volle Datenkontrolle, kein CLOUD Act, keine SCC-Diskussion.^[40][41][42]

Nur sinnvoll, wenn du strenge Datenhoheit brauchst und mit Open-Weight-Qualität (gut, aber nicht Frontier) leben kannst. Setup ab 50.000 €, plus laufende Betriebskosten.

STACKITOVHIONOS Cloud

Eigene Hardware. Eigenes Risiko.

8-GPU-Server im eigenen Rechenzentrum mit vLLM, Ollama oder TGI. Maximale Kontrolle, null Abhängigkeit, dafür: 250.000–400.000 € CapEx, ein dediziertes ML-Ops-Team und 12–18 Monate Vorlauf für Hardware.^[48][49][55]

Lohnt sich erst ab 5.000–8.000 Dauernutzern oder wenn deine Daten aus regulatorischen Gründen das Haus nicht verlassen dürfen. Für 99 Prozent des Mittelstands die falsche Antwort auf eine nicht gestellte Frage.

vLLMOllamaTGIDGX H200

Deployment-Spektrum Stufe 01

1 Public SaaS 0 € · Keine Kontrolle

2 Business SaaS 25–30 €/User

3 Hyperscaler-API Token-basiert

4 Private Cloud 50k+ € Setup

5 On-Premise 300k+ € · Volle Kontrolle

← Weniger Aufwand · Mehr Kontrolle →

Je weiter rechts in diesem Spektrum du dich bewegst, desto mehr Kontrolle hast du — und desto mehr Verantwortung übernimmst du. Das ist kein Marketing-Slogan, sondern eine juristische Tatsache: Wer selbst hostet, wird in beiden Rechtsrahmen zum „Verarbeiter in eigener Sache” und übernimmt Pflichten, die vorher der Anbieter trug.^[01][02]

Was sich von Stufe zu Stufe wirklich ändert

	Public	Business	Hyperscaler	Private	On-Prem
AVV / DPA vorhanden	Nein	Ja	Ja	Ja	N/A
Training auf deinen Daten	Teilweise	Nein	Nein	Nein	Nein
EU-Hosting möglich	Selten	Teilweise	Ja	Ja	Ja
CLOUD Act / FISA 702	Ja	Ja	Reduziert	Abhängig	Nein
Modell-Qualität	Frontier	Frontier	Frontier	Open-Weight	Open-Weight
IT-Betriebsaufwand	Null	Null	Mittel	Hoch	Sehr hoch

Beachte die fünfte Zeile: In Sachen Modellqualität schneiden die ersten drei Stufen heute identisch ab, weil sie alle auf dieselben Frontier-Modelle zugreifen — GPT-5.x-, Claude 4.x- und Gemini 3.x-Familien. Der Wechsel zu Private Cloud / On-Prem bedeutet fast immer einen Wechsel auf Open-Weight-Modelle wie Llama, Mistral, Qwen oder DeepSeek. Die sind 2026 sehr gut geworden — aber nicht auf dem Niveau der besten Frontier-Modelle.^[43][44][45] Wer diese Qualitätslücke ignoriert, bezahlt sie später in schlechten Outputs.

05 SaaS-Realität

Die Tier-Matrix

Der gefährlichste Denkfehler auf Stufe eins und zwei des Spektrums ist die Annahme, dass alle Tiers desselben Anbieters rechtlich und vertraglich ähnlich funktionieren. Tun sie nicht. Zwischen ChatGPT Plus und ChatGPT Business liegt in Sachen Datenschutz ein Rechtsraum.^{[23][24][26][27]}

Produkt	Training auf Eingaben?	AVV / DPA	EU-Hosting	Admin-Features
ChatGPT Free / Plus Consumer	Ja, default	Nein	Nein	Keine
ChatGPT Business ab 2 Seats	Nein	Ja, Standard-DPA	Beschränkt	SSO, Admin
ChatGPT Enterprise Custom Agreement	Nein, ZDR möglich	Ja, vollständig	Ja, EU-Residency	SSO, SCIM, Audit, RBAC
Claude Free / Pro Consumer	Privacy Center prüfen	Nein	Nein	Keine
Claude Team Sonnet 4.6 / Opus 4.6	Nein	Ja, Commercial Terms	Auf Anfrage	SSO, teilweise Audit
Claude Enterprise Custom	Nein	Ja, vollständig	Verhandelbar	SSO, SCIM, ISO 42001
Gemini App Free / Advanced Consumer	Ja, Opt-out möglich	Nein	Nein	Keine
Gemini for Workspace Business / Enterprise	Nein	Ja, Cloud DPA	Ja, Data Residency	CMEK, Audit
Microsoft 365 Copilot Enterprise	Nein	Ja, M365 DPA	EU Data Boundary	Entra ID, Purview

Die Schatten-IT-Falle

In fast jedem Mittelstand existiert dieses Muster: Die Geschäftsführung entscheidet sich für Microsoft 365 Copilot oder ChatGPT Business — und Marketing, Vertrieb und Entwicklung nutzen gleichzeitig ihre privaten ChatGPT-Plus-Accounts weiter, weil sie schneller oder besser sind. Ohne flankierende Richtlinie, Schulung und technische Kontrolle (Web-Filter, DLP) ist jede Enterprise-Lösung nur so sicher wie das Verhalten des schwächsten Mitarbeiters.

Die Faustregel

Für den Einsatz mit Unternehmensdaten gilt: mindestens Business-Tier, besser Enterprise, niemals Consumer. Die Preisdifferenz zwischen Consumer und Business liegt typischerweise bei 5–10 €/Nutzer/Monat — gegenüber dem Haftungsrisiko ein bemerkenswert günstiger Tausch.^[25][28]

06 Hyperscaler

Azure vs. Bedrock vs. Vertex AI

Wenn du aus der Business-SaaS-Stufe herauswächst — typischerweise, weil du eigene Anwendungen baust, höheren Durchsatz brauchst oder spezifische Compliance-Anforderungen hast — landest du auf Stufe drei. Hier werden dieselben Frontier-Modelle, die auch ChatGPT und Claude antreiben, in Tenant-isolierter Form angeboten, in einer EU-Region deiner Wahl, mit dem Vertragsframework, das du mit dem Hyperscaler ohnehin schon hast.

Microsoft Azure

Azure OpenAI Service

Modelle: GPT-5.x-Familie (aktuell GPT-5.2 / 5.4), GPT-4o als Legacy. Über Microsoft Foundry zusätzlich Claude.

EU-Hosting: EU Data Boundary vollständig seit Februar 2025. Frankfurt, Paris, Amsterdam.

Besonderheit: Breiteste Modellauswahl. Abuse-Monitoring standardmäßig aktiv; für regulierte Szenarien per Antrag deaktivierbar.^[29][30][31]

AWS

Amazon Bedrock

Modelle: Claude, Llama, Mistral, Cohere, Amazon Nova / Titan; sehr breite Open-Weight-Auswahl.

EU-Hosting: Frankfurt, Irland, Paris, Stockholm, London. AWS European Sovereign Cloud seit Anfang 2026 unter deutscher Leitung.

Besonderheit: Batch-Modus mit 50 % Preisnachlass für asynchrone Workloads — spart bei Reporting und ETL-Use-Cases.^[33][34][35]

Google Cloud

Vertex AI

Modelle: Gemini-Familie primär, zusätzlich Gemma (Open-Weight) und Model Garden mit Llama.

EU-Hosting: Data Residency in EU-Regionen. Sovereign Cloud (S3NS / STACKIT) im Aufbau.

Besonderheit: Preis-Leader im Flash-Segment. Caching-Rabatt für repetitive Prompts kann Kosten dramatisch senken.^[36][37][38]

Die CLOUD-Act-Frage, die niemand gerne beantwortet

Alle drei Hyperscaler haben eine US-Muttergesellschaft. Egal wie viel Frankfurt, wie viel EU Data Boundary, wie viel Sovereign Cloud draufsteht — der US CLOUD Act und die FISA Section 702 gelten auf Ebene der Konzernmutter. Ein US-Gericht kann grundsätzlich einen Herausgabebeschluss gegen Microsoft Corp., Amazon.com Inc. oder Alphabet Inc. erlassen, und dieser Beschluss muss befolgt werden — unabhängig vom physischen Speicherort der Daten.^[18]

Die Reaktion der Hyperscaler sind Konstruktionen wie:

Microsoft EU Data Boundary — technische und organisatorische Garantie, dass Kundendaten EU/EFTA nicht verlassen^[30]
AWS European Sovereign Cloud — separate Gesellschaft unter deutscher Leitung, eigene SOC, eigene Admin-Rechte^[35]
Google Sovereign Cloud — Partnerschaften mit Thales (S3NS) und STACKIT für Hosting ohne Google-Zugriff^[38][40]

Alle drei reduzieren das Risiko deutlich, lösen das juristische Grundproblem aber nicht vollständig.

Sovereign Cloud reduziert das CLOUD-Act-Risiko deutlich. Sie hebt es nicht auf.

Konsens der Aufsichtsbehörden

Token-Preise (Stand April 2026)

Modell	Input / 1M Tokens	Output / 1M Tokens	Anbieter
GPT-5.2 Instant	≈ 1,75 $	≈ 14,00 $	Azure OpenAI
GPT-4o Legacy	≈ 2,50 $	≈ 10,00 $	Azure / OpenAI API
GPT-4o-mini	≈ 0,15 $	≈ 0,60 $	Azure OpenAI
Claude Sonnet 4.6	≈ 3,00 $	≈ 15,00 $	Bedrock, Anthropic API
Claude Opus 4.6	≈ 5,00 $	≈ 25,00 $	Bedrock, Anthropic API
Gemini 2.5 Pro	≈ 1,25 $	≈ 10,00 $	Vertex AI
Gemini 3.1 Pro	≈ 2,00 $	≈ 12,00 $	Vertex AI
Gemini 2.5 Flash	≈ 0,30 $	≈ 2,50 $	Vertex AI

07 Self-Hosting

Die Realität hinter dem Marketing

An diesem Punkt wird häufig der Vorschlag gemacht, „dann machen wir halt alles selbst” — gemeint: Open-Weight-Modelle auf eigener Hardware oder in der eigenen Private Cloud betreiben. Das ist eine legitime Option, und sie ist 2026 technisch so einfach wie nie. Sie ist auch teurer und anspruchsvoller, als 90 Prozent der Mittelständler einschätzen, die sie erwägen.

Open-Weight im Jahr 2026

Llama-Familie

Llama 3.3 70B und Llama 4 (Scout / Maverick mit Mixture-of-Experts) sind die Workhorses vieler Mittelstands-Deployments. Lizenz: Meta Llama Community License, kommerziell nutzbar unterhalb von 700 Mio. monatlich aktiver Nutzer.^[44]

Mistral AI

Mistral-Familie

Europäischer Anbieter aus Paris. Modelle teilweise unter Apache 2.0, teilweise kommerziell. Guter Default, wenn „europäisches Modell” ein Kriterium ist.^[43]

Alibaba

Qwen-Familie

Qwen 2.5 und Nachfolger liefern für Größe und Preis sehr starke Benchmarks. Lizenzen variieren je Größe. Herkunft China für manche Compliance-Setups relevant.^[45]

DeepSeek

DeepSeek V3 / R1

Sehr effiziente MoE-Architektur, MIT-Lizenz. Reasoning-Qualität beachtlich. Auch hier: Herkunft China in der Risikoabwägung berücksichtigen.^[46]

Google

Gemma

Kleinere, effiziente Modelle mit sehr offener Lizenz, gut für Edge-Szenarien und embedded Inferencing.^[47]

AMD

MI350X als Inferenz-Plattform

Die AMD MI350X (CDNA 4, seit Q3 2025) mit 288 GB HBM3e ist eine ernstzunehmende Alternative zu NVIDIA Blackwell. ROCm 7 bietet Day-0-Support für PyTorch, Hugging Face und vLLM. Preislich typischerweise unter NVIDIA-Äquivalenten.^[55][56]

Open-Weight ≠ Open Source

„Open-Weight” bedeutet, dass die Modellgewichte heruntergeladen und lokal ausgeführt werden können. Es bedeutet nicht, dass Trainingsdaten, Trainingsprozesse oder Architektur-Details vollständig offengelegt sind. Mehrere prominente „offene” Modelle haben Lizenzen mit Einschränkungen. Lies sie, bevor du die Architektur drumherum baust.^[43][44]

Die Hardware-Realität

Um ein Modell in der Qualitätsklasse Llama 3.3 70B oder Mistral Large sinnvoll zu betreiben, brauchst du ernst zu nehmende GPU-Kapazität. „Sinnvoll” heißt: Antworten in akzeptabler Latenz für mehrere gleichzeitige Nutzer.

GPU	VRAM	Kaufpreis	Mietpreis	Verfügbarkeit Q2 / 2026
NVIDIA H100 SXM5	80 GB HBM3	≈ 25–30k $	≈ 2,50–3,30 $/h	Gut verfügbar
NVIDIA H200 SXM5	141 GB HBM3e	≈ 30–40k $	≈ 3,70–10,60 $/h	Verfügbar
NVIDIA B200 (Blackwell)	192 GB HBM3e	≈ 45–55k $	≈ 4,88–5,62 $/h	Lieferzeit ~18 Wochen
NVIDIA B300 (Blackwell Ultra)	288 GB HBM3e	DGX-Racks ab ~3,5 Mio. $	≈ 5,50 $/h	In Produktion seit Jan. 2026
AMD MI300X	192 GB HBM3	≈ 15–18k $	≈ 1,10–3,00 $/h	Knapp aber wachsend
AMD MI325X	256 GB HBM3e	noch in Verhandlung	≈ 2,30 $/h	Nur ausgewählte Provider
AMD MI350X (CDNA 4)	288 GB HBM3e	noch keine Listenpreise	Erste CSP-Instanzen Q3 2025	Bei ausgewählten Anbietern

Für ein realistisches Produktions-Deployment brauchst du typischerweise einen Server mit acht GPUs — DGX H200 oder äquivalent. Das ergibt eine Hardware-Investition in der Größenordnung von 250.000 bis 400.000 Euro für den reinen Server, plus Rack, Power, Kühlung, InfiniBand-Netzwerk und den nicht zu unterschätzenden Software-Stack.^[49][50]

Und dann brauchst du Leute, die das betreiben. Mindestens eine volle Senior-ML-Ops-Rolle — realistisch bei 150.000 Euro Jahresgehalt in Deutschland, inklusive Nebenkosten eher Richtung 180.000 Euro. Plus Vertretung, plus Weiterbildung.

III

Dritter Akt

Geld.
Was es kostet — wirklich.

Kapitel 08 — 09

08 Wirtschaftlichkeit

Was kostet was — wirklich?

Die meisten TCO-Vergleiche, die du im Netz findest, kalkulieren mit fest erfundenen Annahmen — und kommen je nach gewünschtem Ergebnis zu wildly unterschiedlichen Schlüssen. Hier ist die Rechnung als interaktives Werkzeug: du stellst die Parameter, der Vergleich passt sich live an. Schraub die Nutzerzahl hoch und beobachte, wann Self-Hosting realistisch wird.

Deine Parameter

Aktive Nutzer / Tag 150

2010.000

Tokens / User / Tag 30k

5k200k

Modell-Klasse GPT‑5.2

Flash/MiniFrontierPremium

Jahresverbrauch 990M Tokens

Drei Szenarien über 3 Jahre

in USD · Vollkostenrechnung

Szenario A Business SaaS

Lizenz pro Nutzer · ChatGPT Business / M365 Copilot · 25 $/User/Monat

Szenario B Hyperscaler-API

Pro Token · 60 % Input / 40 % Output · plus 30 % Overhead

Szenario C On-Premise

8x H200 + 1 ML-Ops FTE + Strom + Software · Open-Weight-Modell

0 $ 500k $ 1 Mio. $

Stell die Slider — der Vergleich rechnet live nach.

Was die Rechnung zeigt

Bei einem typischen Mittelständler mit 150 aktiven Nutzern und 30k Tokens pro Tag kostet Business SaaS über drei Jahre rund 180.000–216.000 $. Hyperscaler-API liegt bei 21.000–30.000 $. On-Premise mit eigenem GPU-Server bei knapp 940.000 $.^{[25][28][31][34][37]}

Self-Hosting wird gegenüber API erst dann wirtschaftlich, wenn dein Token-Verbrauch grob um den Faktor 40–50 über dem Baseline liegt. Das entspricht einer Organisation mit eher 5.000–8.000 Dauernutzern oder massiver, kontinuierlicher Agenten-Last (24/7-Automatisierung). Für einen klassischen Mittelständler mit 200 Leuten ist das außerhalb der Realität — mit einer Ausnahme: deine Daten dürfen aus regulatorischen Gründen das Haus nicht verlassen. Dann ist Self-Hosting keine Kostenfrage, sondern eine Voraussetzung.

Was die Rechnung nicht zeigt

Die versteckten Kosten von Self-Hosting: Hochverfügbarkeit (zweiter Server für Failover verdoppelt die CapEx), Modell-Updates alle drei Monate, Eval-Zyklen, Software-Stack-Pflege, Vertretung der ML-Ops-Rolle. In der Praxis kommt zur reinen Rechnung typischerweise ein Faktor 1,3–1,5 hinzu — wenn man ehrlich ist.^[48][49]

Diese Break-Even-Rechnung ist der mit Abstand am häufigsten unterschätzte Punkt in der Debatte. Du hörst von Beratern „wir haben einen Kunden, der self-hostet und 70 Prozent gespart hat” — und dann zeigt der zweite Blick, dass der Kunde einen Use-Case mit 50 Milliarden Tokens pro Jahr hat, also eine ganz andere Gewichtsklasse.

09 Hardware

Gibt es die Hardware überhaupt?

Die Diskussion über Self-Hosting wird häufig geführt, als wäre Hardware jederzeit beliebig verfügbar. Das stimmt 2026 nicht. Die weltweite Nachfrage nach High-End-GPUs übersteigt das Angebot seit mehr als zwei Jahren, und die Lieferketten — insbesondere der HBM-Speicher von SK Hynix und Samsung sowie die fortgeschrittenen Substrate aus Japan — sind ein echter Engpass.

Was das für einen Mittelständler praktisch bedeutet:

H100-Systeme sind inzwischen deutlich besser verfügbar als 2024/2025 und preislich stabilisiert ($25.000–40.000); die Neuproduktion konzentriert sich auf Blackwell.^[48]
B200-Systeme haben sich deutlich entspannt; Lieferzeiten liegen bei ca. 18 Wochen, da die Nachfrage auf B300 (Blackwell Ultra) und bald Vera Rubin umgeschwenkt ist.^[50][51][52]
B300-Systeme (Blackwell Ultra) sind seit Januar 2026 in Produktion und aktuell die neue Spitze. Verfügbarkeit eingeschränkt, Lieferzeiten mehrere Monate. DGX-Racks ab ca. 3,5 Mio. $.^[51]
GPU-Cloud-Anbieter wie CoreWeave oder Lambda Labs berichten von hoher Auslastung. Mietpreise im letzten Quartal spürbar gestiegen.
AMD MI350X (CDNA 4) ist eine sich entwickelnde Alternative mit ROCm 7 und deutlich verbesserter CUDA-Kompatibilität. Bis zu 4× bessere Inference-Performance als ROCm 6.^[55]

Wer 2026 einen eigenen GPU-Cluster plant, plant für zwölf bis achtzehn Monate. Nicht für drei.

Die nüchterne Konsequenz: Die Hardware-Verfügbarkeit ist für die meisten Mittelständler ein weiteres Argument gegen On-Premise und für Hyperscaler oder Business SaaS. Wenn du wirklich eigene Hardware brauchst, beginn die Bestellung mindestens ein Jahr vor dem geplanten Produktionsstart und rechne Puffer ein.

Vierter Akt

Entscheidung.
Was du jetzt tust.

Kapitel 10 — 13

10 Datenklassen

PII, Geschäftsgeheimnis, IP — drei Ebenen

Wenn du in deinem Unternehmen über „sensible Daten” redest, redest du fast immer über drei verschiedene Dinge gleichzeitig — und behandelst sie unterschiedslos. Die rechtlichen Anforderungen sind aber höchst unterschiedlich.

Ebene 01 · DSGVO

Personenbezogene Daten

Alles, was sich auf eine identifizierbare natürliche Person bezieht. Kundennamen, E-Mail-Adressen, Bewerberprofile, Mitarbeiterdaten, Krankendaten.

Mindestanforderung: Rechtsgrundlage, Zweckbindung, AVV mit Anbieter, Betroffenenrechte umsetzen, ggf. DSFA.^[01]

Ebene 02 · GeschGehG

Geschäftsgeheimnisse

Informationen mit wirtschaftlichem Wert, die nicht allgemein bekannt sind und für die angemessene Geheimhaltungsmaßnahmen getroffen wurden — sonst verlieren sie den Schutz.

Mindestanforderung: Klassifizierung, technische Schutzmaßnahmen, vertragliche Regelungen mit Mitarbeitern und Dienstleistern.^[09]

Ebene 03 · IP

Geistiges Eigentum

Patente, Urheberrechte, Marken, Designs. Im KI-Kontext besonders heikel: Code, Konstruktionspläne, Rezepturen, Trainingsdaten.

Mindestanforderung: Lizenzfragen klären — sowohl beim Input (darfst du das in den Prompt geben?) als auch beim Output (wem gehört das Ergebnis?).

Diese drei Ebenen überlagern sich häufig, sind aber nicht identisch. Ein Bewerberprofil ist personenbezogen (DSGVO), aber selten Geschäftsgeheimnis. Eine technische Konstruktionszeichnung ist Geschäftsgeheimnis und IP, aber nicht zwingend personenbezogen. Die Quelltexte deiner Software sind IP und oft Geschäftsgeheimnis, in seltenen Fällen auch personenbezogen (wenn dort Klarnamen stehen).^[01][09]

Praktische Konsequenz

Eine pauschale „KI-Richtlinie” funktioniert nicht. Du brauchst eine Datenklassifikation, die für jede Klasse bestimmt, welche der fünf Spektrum-Stufen erlaubt ist. Ein Marketing-Brainstorming darf in Business SaaS. Ein Gehaltsgespräch nicht. Ein Patent-Entwurf braucht Tier-3 oder höher. Eine Gehaltsliste vermutlich gar keine KI.

11 Framework

Das Entscheidungs-Framework

Statt einer abstrakten Tabelle bekommst du hier den Entscheidungspfad als klickbares Werkzeug. Vier Fragen, eine Empfehlung. Antworten ehrlich — das Ergebnis ist nur so gut wie der Input.

Entscheidungs-Tool

Frage 1 / 4

Was ist die höchste Datenklasse, die du in der KI verarbeiten willst?

Die schärfste Datenklasse bestimmt die Mindestanforderungen für alle Use-Cases.

Wie viele Mitarbeiter sollen regelmäßig KI nutzen?

„Regelmäßig" heißt: mehrmals pro Woche im Arbeitskontext.

Was ist dein primärer Use-Case?

Wenn mehrere zutreffen, wähl den, der am meisten Volumen erzeugt.

Wie sieht dein IT-Setup aus?

Deine bestehende Infrastruktur entscheidet, was praktisch umsetzbar ist.

Empfehlung

—

Stufe—

Geschätzte Kosten—

Time-to-Live—

Was dieses Tool nicht ersetzt

Dieses Werkzeug ist eine erste Orientierung — keine Rechtsberatung, keine Architekturentscheidung. In jedem realen Projekt brauchst du eine Datenschutz-Folgenabschätzung, eine Anbieter-Due-Diligence und eine ehrliche Auseinandersetzung mit den eigenen Schatten-IT-Risiken.^[01][02][06] Der Pfad, den dieses Tool ausspuckt, ersetzt nichts davon. Er gibt dir den Rahmen, in dem die echten Diskussionen stattfinden sollten.

12 Mythen

Die hartnäckigsten Halbwahrheiten

Bevor wir zur Checkliste kommen — hier sind zwölf Sätze, die im Mittelstand kursieren und die schlicht nicht stimmen oder zumindest stark irreführend sind. Wenn dir einer davon im Meeting begegnet, weißt du, woran du bist.

Mythos 01

Wenn die Server in Frankfurt stehen, sind wir DSGVO-konform.

Hosting-Ort allein sagt nichts über DSGVO-Konformität. Du brauchst weiterhin Rechtsgrundlage, Zweckbindung, AVV, technische Maßnahmen. Frankfurt ist eine notwendige, keine hinreichende Bedingung. ^[01]

Mythos 02

Self-Hosting macht uns unabhängig.

Self-Hosting macht dich vom Anbieter unabhängig und vom Hardware-Hersteller, vom Stromnetz, vom Modell-Lifecycle und von der Verfügbarkeit deines ML-Ops-Teams abhängig.

Mythos 03

Wir trainieren das Modell mit unseren Daten.

In 99 % der Fälle ist mit trainieren Retrieval-Augmented Generation gemeint, nicht echtes Training. RAG ist gut, aber kein Training. Echtes Fine-Tuning kostet Größenordnungen mehr und lohnt sich selten. ^[56]

Mythos 04

Open-Source-Modelle sind sicherer.

Sie sind transparenter, das ist nicht dasselbe. Ein Open-Weight-Modell kann ebenso fehlerhaft, voreingenommen oder unsicher sein wie ein proprietäres. Sicherheit kommt von der Architektur drumherum, nicht von der Lizenz des Modells. ^[21]

Mythos 05

KI ersetzt unsere Mitarbeiter.

Im Mittelstand 2026 ersetzt KI selten ganze Rollen, häufig einzelne Tätigkeiten innerhalb einer Rolle. Wer Mitarbeiterzahlen plant, statt Tätigkeitsprofile, wird enttäuscht.

Mythos 06

Wenn unser Anbieter ISO 27001 hat, sind wir abgesichert.

ISO 27001 ist ein Managementsystem-Standard für Informationssicherheit. Er sagt nichts über DSGVO-Konformität, AI-Act-Compliance oder die Qualität des spezifischen KI-Modells aus. ^[17]

Mythos 07

Wir machen einfach alles anonym.

Echte Anonymisierung im Sinne der DSGVO ist außerordentlich schwer und in vielen Datensätzen praktisch unmöglich. Pseudonymisierung ist machbar, ändert aber nichts an der Anwendbarkeit der DSGVO. ^[01][07]

Mythos 08

Token sind günstig, also egal.

Bei einem klassischen 200-Personen-Mittelständler stimmt das. Bei einem Agenten-Use-Case mit 24/7-Betrieb und großen Kontexten kommen monatliche Rechnungen im fünfstelligen Bereich zusammen. Setz Budgets und Alerts. ^[25][28]

Mythos 09

Wir warten, bis die Regulierung klar ist.

Regulierung ist klar genug, um zu starten. Was unklar bleibt, ist die Detailauslegung — und die wirst du nur durch tatsächlichen Betrieb herausfinden. Wer wartet, lernt nicht. ^[02][03]

Mythos 10

Unsere Branche ist zu speziell für KI.

Die generischen Use-Cases (Textverarbeitung, Recherche, Zusammenfassung, Übersetzung, Code) funktionieren in jeder Branche. Nur die domänenspezifischen Use-Cases brauchen Anpassung — und auch nicht zwingend Training, sondern oft nur RAG.

Mythos 11

Wir holen uns einen KI-Berater.

Du brauchst einen KI-Berater, der Datenschutz versteht, IT-Architektur versteht und außerdem deinen Betrieb versteht. Diese Kombination ist selten. Häufig bekommst du Spezialisten, die jeweils nur einen Aspekt abdecken.

Mythos 12

Das machen wir nächstes Jahr.

Dein Wettbewerber macht es dieses Jahr. Jeder Tag, an dem du nicht startest, ist ein Tag, an dem die Lernkurve nicht beginnt. Lernkurven addieren sich nicht — sie multiplizieren sich.

01 / 12

13 Checkliste

Zehn Fragen vor dem Rollout

Bevor du irgendetwas live nimmst — egal welche Stufe — geh diese zehn Fragen durch. Wenn du auch nur eine nicht ehrlich beantworten kannst, ist es zu früh.

Welche Datenklassen verarbeiten wir konkret?

Personenbezogen, Geschäftsgeheimnis, IP, öffentlich. Wer keine Klassifikation hat, kann keine sinnvolle Architektur wählen.^[01][09]

Welche Use-Cases sind erlaubt — und welche explizit nicht?

Eine schriftliche Nutzungsrichtlinie, die im Onboarding vermittelt wird. Ohne sie nutzen die Mitarbeiter Schatten-IT.

Haben wir einen AVV mit dem Anbieter?

Liegt unterschrieben vor. Sub-Prozessoren-Liste verstanden. Drittlandtransfer-Mechanismen geprüft.^[01][24]

Ist die Rechtsgrundlage klar?

Berechtigtes Interesse, Vertragserfüllung, Einwilligung — was ist es, und ist die Begründung dokumentiert?^[01]

Brauchen wir eine DSFA?

Bei Bewerber-Screening, Mitarbeiter-Monitoring, automatisierten Entscheidungen oder Profilbildung mit hoher Wahrscheinlichkeit ja.^[01][06]

Ist der Betriebsrat eingebunden?

Bei mitbestimmungspflichtigen Themen — und KI-Tools, die Arbeitsverhalten beeinflussen können, sind das fast immer — ist Mitbestimmung Pflicht.^[19]

Wer ist menschlicher Aufseher?

AI Act Art. 14 verlangt menschliche Aufsicht. Wer ist konkret zuständig, mit welchem Mandat, welcher Schulung, welcher Erreichbarkeit?^[02]

Wie messen wir Output-Qualität?

Ohne kontinuierliche Evaluation keine Verbesserung. Eval-Set und Review-Prozess gehören zum Tag-1-Setup.

Was ist unser Exit-Plan?

Wenn der Anbieter morgen die Preise verdoppelt oder das Modell abschaltet — was tun wir? Datenexport, Modellwechsel, Vendor-Lock-in-Risiko bewertet?

Wer hat Budgetverantwortung?

Token-Kosten können explodieren. Wer hat Limits gesetzt, wer wird bei Überschreitung alarmiert, wer entscheidet über Erhöhung?

Die richtige Frage ist nicht „welche KI?” — sondern „welches Problem, welche Daten, welche Pflichten?”

Wer in dieser Reihenfolge denkt, kommt zur richtigen Architektur. Wer mit der Architektur beginnt, kommt zu einer Lösung, die ein Problem löst, das er nicht hat — und drei andere offen lässt.

56 Quellen.

Alle Aussagen in diesem Artikel sind belegbar. Hier ist die vollständige Liste, sortiert nach Themengebiet, Stand April 2026.

I · Recht & Regulierung (1—19)

II · Tech-Standards (20—22)

IV · Hardware (48—56)

Hier geht's weiter —
per Mail.

Was kostet KI wirklich — und welches Setup passt zu dir? Der Rest des Artikels ist kostenlos. Trag deine E-Mail ein, wir schicken dir einen Link zum Freischalten.

Mit der Eintragung stimmst du zu, dass wir dir den Artikel-Zugang und gelegentlich relevante Inhalte per E-Mail schicken dürfen. Du kannst dich jederzeit abmelden. Datenschutzerklärung

Fragen offen?

Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.

Gespräch buchen

Vier Akte. Vierzehn Kapitel.

Recht.Was darfst du, was nicht.

Warum der Nebel nicht zufällig ist

DSGVO vs. AI Act — parallel, nicht alternativ

Die Timeline des AI Acts.

Verbotene Praktiken & Kompetenzpflicht

General Purpose AI & Transparenz

Vollanwendung Hochrisiko-Systeme

Sicherheitskomponenten in Produkten

Die Rollenverwirrung: Verantwortlicher, Anbieter, Betreiber

Du bist Verantwortlicher

Du bist Betreiber

Anthropic / OpenAI

Du wirst zum Anbieter

Kennt der Datenschutz überhaupt KI?

Technik.Was ist überhaupt möglich.

Fünf Stufen zwischen Plus-Abo und GPU-Cluster

Die Default-Realität.

Die vernünftige Basis.

Wenn du selbst bauen willst.

Open-Weight in europäischer Hand.

Eigene Hardware. Eigenes Risiko.

Was sich von Stufe zu Stufe wirklich ändert

Die Tier-Matrix

Die Faustregel

Azure vs. Bedrock vs. Vertex AI

Azure OpenAI Service

Amazon Bedrock

Vertex AI

Die CLOUD-Act-Frage, die niemand gerne beantwortet

Token-Preise (Stand April 2026)

Die Realität hinter dem Marketing

Open-Weight im Jahr 2026

Llama-Familie

Mistral-Familie

Qwen-Familie

DeepSeek V3 / R1

Gemma

MI350X als Inferenz-Plattform

Die Hardware-Realität

Geld.Was es kostet — wirklich.

Was kostet was — wirklich?

Drei Szenarien über 3 Jahre

Was die Rechnung zeigt

Gibt es die Hardware überhaupt?

Entscheidung.Was du jetzt tust.

PII, Geschäftsgeheimnis, IP — drei Ebenen

Personenbezogene Daten

Geschäftsgeheimnisse

Geistiges Eigentum

Das Entscheidungs-Framework

—

Die hartnäckigsten Halbwahrheiten

Zehn Fragen vor dem Rollout

56 Quellen.

I · Recht & Regulierung (1—19)

II · Tech-Standards (20—22)

III · Anbieter (23—47)

IV · Hardware (48—56)

Hier geht's weiter —per Mail.

Check dein Postfach.

Fragen offen?

Recht.
Was darfst du, was nicht.

Technik.
Was ist überhaupt möglich.

Geld.
Was es kostet — wirklich.

Entscheidung.
Was du jetzt tust.

Hier geht's weiter —
per Mail.