Zwischen ChatGPT-Plus-Abo, Azure-OpenAI-Deployment und eigenem GPU-Cluster liegen nicht nur Welten an Komplexität, sondern auch an Kosten, Haftung und Wirklichkeitsnähe. Dieser Artikel räumt mit Mythen auf, ordnet DSGVO und AI Act sauber zu, und zeigt quellenbasiert wann du welche Lösung wirklich brauchst — und wann nicht.
Erst die rechtliche Landkarte. Dann das technische Spektrum. Dann die ökonomische Realität. Erst zum Schluss die Entscheidung.
Wenn du ein Unternehmen im deutschen Mittelstand führst und in den letzten zwölf Monaten irgendetwas mit KI gemacht hast, kennst du das Gefühl: zehn Berater, zehn Meinungen, fünf Vendor-Pitches, drei Rechtsanwälte, und hinterher ist nicht klarer als vorher, was du eigentlich tun darfst, tun solltest oder tun kannst.
Das liegt nicht daran, dass du etwas übersiehst. Das Themenfeld ist objektiv vielschichtig — und es wird auf mindestens drei Ebenen gleichzeitig verhandelt, die selten sauber auseinandergehalten werden: einer rechtlichen (DSGVO, EU AI Act, Geschäftsgeheimnisgesetz)[01][02][09], einer technischen (SaaS, API, Hyperscaler, On-Prem, Open-Weight-Modelle) und einer wirtschaftlichen (Lizenz vs. Token vs. Hardware). In jeder Ebene existieren Halbwahrheiten, Mythen und Marketing-Behauptungen, die oft erst im Kontext der jeweils anderen Ebenen überhaupt entlarvt werden können.
Drei Beispiele, die dir vermutlich bekannt vorkommen:
Diese Beispiele haben eines gemeinsam: Sie klingen plausibel, wurden auf LinkedIn mit vielen Likes geteilt, und sind trotzdem falsch oder zumindest stark irreführend. Wer als Entscheider auf dieser Grundlage Architekturen auswählt, baut auf Sand.
Dieser Artikel räumt auf. Er tut das in einer ganz bestimmten Reihenfolge: zuerst die rechtliche Landkarte, weil sich daraus die tatsächlichen Freiheitsgrade ergeben. Dann das technische Spektrum mit allen fünf relevanten Deployment-Modellen. Dann die ökonomische Realität mit konkreten Zahlen für einen typischen 200-Personen-Mittelständler. Und erst am Ende das Entscheidungs-Framework, das all das zusammenführt. Wer rückwärts beginnt — bei der Lösung statt bei der Frage — landet fast zwangsläufig bei der falschen Antwort.
Die häufigste Quelle für Verwirrung im Gespräch mit deutschen Mittelständlern ist die Annahme, dass DSGVO und AI Act dasselbe regeln, nur unterschiedlich streng. Das ist falsch. Die beiden Verordnungen haben unterschiedliche Schutzgegenstände, unterschiedliche Rollenbegriffe und unterschiedliche Anknüpfungspunkte — und sie gelten kumulativ, nicht alternativ.[01][02]
| DSGVO (VO 2016/679) | EU AI Act (VO 2024/1689) | |
|---|---|---|
| Schutzgegenstand | Personenbezogene Daten einer identifizierbaren Person | KI-Systeme und ihre Auswirkungen auf Grundrechte, Gesundheit, Sicherheit |
| Anknüpfungspunkt | Jede Verarbeitung personenbezogener Daten | Bereitstellung oder Nutzung eines KI-Systems |
| Rollen | Verantwortlicher / Auftragsverarbeiter | Anbieter (Provider) / Betreiber (Deployer) |
| Technologie | Technologieneutral — Excel, KI, Datenbank gleich behandelt | Explizit KI-bezogen — Risikostufen je nach Funktionsweise |
| Hauptpflichten | Rechtsgrundlage, Zweckbindung, Betroffenenrechte, DSFA, AVV | Risikomanagement, Transparenz, Human Oversight, Konformitätsbewertung |
| Aufsicht (DE) | BfDI und Landesdatenschutzbehörden | Bundesnetzagentur (geplant als Hauptaufsicht) |
Verbotene KI-Praktiken (Anh. II), KI-Kompetenz-Pflicht nach Art. 4. Alle Unternehmen mit KI-Einsatz.
✓ AktivGPAI-Modelle (Kap. V), Governance, Transparenzpflichten (Art. 50). Anbieter wie OpenAI, Anthropic, Google.
✓ AktivHochrisiko-Systeme nach Anhang III. Alle Anbieter und Betreiber von Hochrisiko-KI.
✓ AktivHochrisiko-KI als Sicherheitskomponente regulierter Produkte (Anhang I). Medizintechnik, Maschinenbau.
✓ AktivDie EU-Kommission hat im November 2025 im Rahmen des „Digital Omnibus” eine mögliche Verschiebung der Hochrisiko-Pflichten auf Dezember 2027 vorgeschlagen. Stand April 2026 befindet sich der Vorschlag im Trilog — rechtlich bindend ist nach wie vor der 02.08.2026. Wer sich jetzt auf die Verschiebung verlässt, riskiert einen ungedeckten Check.[03][12][14]
In einem typischen Mittelstands-Szenario trägst du gleich mehrere Hüte, oft ohne es zu wissen. Sagen wir, du nutzt Claude für die Vorselektion von Bewerbern:
Du entscheidest, welche Bewerberdaten in welchem Zweck verarbeitet werden. Anthropic ist dein Auftragsverarbeiter. Du brauchst einen AVV und eine Rechtsgrundlage.[01][26]
Du setzt ein fremdes KI-System im beruflichen Kontext ein. Ab 02.08.2026: Transparenzpflichten, menschliche Aufsicht, ggf. Grundrechte-Folgenabschätzung nach Art. 27.[02][03]
Sie tragen die Hauptlast für das Modell selbst: Dokumentation, Konformitätsbewertung, Post-Market-Monitoring, Sicherheit, Robustheit.[02]
Wenn du ein fremdes Modell substantiell anpasst, umbenennst oder den Zweck wesentlich änderst, rutschst du nach Art. 25 in die Anbieter-Rolle mit erweiterten Pflichten.[02]
Für Bewerberauswahl gilt zusätzlich: KI-Systeme zur Personalauswahl sind nach Anhang III Nr. 4 des AI Acts hochrisiko. Das gilt unabhängig davon, ob personenbezogene Daten im DSGVO-Sinn verarbeitet werden — selbst anonymisierte Bewerberprofile triggern die Pflichten.[02]
Eine der aufschlussreichsten Fragen, die man sich beim Thema stellen kann, ist tatsächlich die einfachste: Macht es aus Sicht der DSGVO einen Unterschied, ob ich meine Kundenliste in Excel Online, in einem Notion-Workspace oder in einem LLM-Chat verarbeite?
Die Antwort lautet: nein, kategorisch nicht.
Die DSGVO ist technologieneutral. Ihre Anforderungen knüpfen an die Verarbeitung an — nicht an das Werkzeug.
Erwägungsgrund 15 — durchgängig in der AufsichtspraxisDie Datenschutzkonferenz (DSK) hat diese Position in ihrer Orientierungshilfe „KI und Datenschutz” vom Mai 2024 bekräftigt und 2025 aktualisiert: Für die Zulässigkeit einer Datenverarbeitung mit einem LLM gelten dieselben Maßstäbe wie für jedes andere Werkzeug — Rechtsgrundlage nach Art. 6, Zweckbindung, Transparenz, Betroffenenrechte, Auftragsverarbeitungsvertrag. Punkt.[05][06][01]
Was bedeutet das praktisch? Wenn du deine Kundenliste nicht in ein Public-SaaS-Excel werfen würdest, weil kein AVV vorliegt und die Daten in den USA gespeichert werden, darfst du sie auch nicht in ChatGPT Free werfen — aus identischen Gründen. Umgekehrt: Wenn du aggregierte, nicht-personenbezogene Kennzahlen problemlos in einem Cloud-Service verarbeitest, ist eine LLM-Nutzung für dieselben Daten datenschutzrechtlich gleichermaßen unproblematisch.[01][23][24]
Was der AI Act ergänzt — und was die DSGVO nicht kannte — sind KI-spezifische Risiken jenseits des Datenschutzes: algorithmische Voreingenommenheit, fehlende Erklärbarkeit, Robustheit gegen Prompt-Injection, Transparenz gegenüber Nutzern eines Chatbots. Diese Themen greift die DSGVO nicht auf. Hier füllt der AI Act eine echte Lücke.[02][21]
Die Konsequenz für deine Diskussionen im Unternehmen: Wenn beim nächsten Meeting jemand sagt „Bei KI ist das anders” — frag nach dem Warum. In 80 Prozent der Fälle ist es nicht anders, es fühlt sich nur so an.
„Sollen wir ChatGPT benutzen oder etwas Eigenes bauen?” ist eine Scheinfrage. Zwischen der kostenlosen Consumer-Version und einem eigenen GPU-Cluster im Keller liegen mindestens fünf klar unterscheidbare Stufen, die sich in Datenfluss, Haftung und Kosten fundamental unterscheiden.
Free-Tier oder Plus-Abo, persönlich registriert. Keine Auftragsverarbeitung, keine Trennung zwischen privat und beruflich. Daten landen in den USA, im Standard fließen sie in Trainings- oder Verbesserungs-Pipelines.[23][27]
Für Unternehmensdaten ist das die schlechteste denkbare Stufe — und gleichzeitig die, auf der die meisten Mittelständler de facto schon stehen, ohne es zu wissen.
Team- oder Enterprise-Lizenzen mit AVV, dokumentierter Datenverarbeitung, kein Training auf Eingaben. Admin-Konsole, SSO, je nach Tier auch Audit-Logs und Data Residency.
Für 90 Prozent aller Use-Cases im Mittelstand der richtige Default. 25–30 €[25][28] pro Nutzer und Monat — Haftungsrisiko gegen Lizenzkosten ist hier ein lächerlich günstiger Tausch.
Tenant-isoliertes Deployment derselben Frontier-Modelle, in einer EU-Region deiner Wahl, abgerechnet pro Token. Vertragsframework über deinen bestehenden Hyperscaler — kein neuer Lieferant, kein neues Compliance-Theater.
Die Wahl, sobald du eigene Anwendungen baust: Chatbot, Wissensmanagement, RAG, Automatisierung. CLOUD Act bleibt — aber EU Data Boundary und Sovereign-Konstruktionen reduzieren das Risiko erheblich.[18][30][35][38]
Open-Weight-Modelle (Llama, Mistral, Qwen) auf dediziertem GPU-Deployment bei einem europäischen Anbieter ohne US-Mutter. Volle Datenkontrolle, kein CLOUD Act, keine SCC-Diskussion.[40][41][42]
Nur sinnvoll, wenn du strenge Datenhoheit brauchst und mit Open-Weight-Qualität (gut, aber nicht Frontier) leben kannst. Setup ab 50.000 €, plus laufende Betriebskosten.
8-GPU-Server im eigenen Rechenzentrum mit vLLM, Ollama oder TGI. Maximale Kontrolle, null Abhängigkeit, dafür: 250.000–400.000 € CapEx, ein dediziertes ML-Ops-Team und 12–18 Monate Vorlauf für Hardware.[48][49][55]
Lohnt sich erst ab 5.000–8.000 Dauernutzern oder wenn deine Daten aus regulatorischen Gründen das Haus nicht verlassen dürfen. Für 99 Prozent des Mittelstands die falsche Antwort auf eine nicht gestellte Frage.
Je weiter rechts in diesem Spektrum du dich bewegst, desto mehr Kontrolle hast du — und desto mehr Verantwortung übernimmst du. Das ist kein Marketing-Slogan, sondern eine juristische Tatsache: Wer selbst hostet, wird in beiden Rechtsrahmen zum „Verarbeiter in eigener Sache” und übernimmt Pflichten, die vorher der Anbieter trug.[01][02]
| Public | Business | Hyperscaler | Private | On-Prem | |
|---|---|---|---|---|---|
| AVV / DPA vorhanden | Nein | Ja | Ja | Ja | N/A |
| Training auf deinen Daten | Teilweise | Nein | Nein | Nein | Nein |
| EU-Hosting möglich | Selten | Teilweise | Ja | Ja | Ja |
| CLOUD Act / FISA 702 | Ja | Ja | Reduziert | Abhängig | Nein |
| Modell-Qualität | Frontier | Frontier | Frontier | Open-Weight | Open-Weight |
| IT-Betriebsaufwand | Null | Null | Mittel | Hoch | Sehr hoch |
Beachte die fünfte Zeile: In Sachen Modellqualität schneiden die ersten drei Stufen heute identisch ab, weil sie alle auf dieselben Frontier-Modelle zugreifen — GPT-5.x-, Claude 4.x- und Gemini 3.x-Familien. Der Wechsel zu Private Cloud / On-Prem bedeutet fast immer einen Wechsel auf Open-Weight-Modelle wie Llama, Mistral, Qwen oder DeepSeek. Die sind 2026 sehr gut geworden — aber nicht auf dem Niveau der besten Frontier-Modelle.[43][44][45] Wer diese Qualitätslücke ignoriert, bezahlt sie später in schlechten Outputs.
Der gefährlichste Denkfehler auf Stufe eins und zwei des Spektrums ist die Annahme, dass alle Tiers desselben Anbieters rechtlich und vertraglich ähnlich funktionieren. Tun sie nicht. Zwischen ChatGPT Plus und ChatGPT Business liegt in Sachen Datenschutz ein Rechtsraum.[23][24][26][27]
| Produkt | Training auf Eingaben? | AVV / DPA | EU-Hosting | Admin-Features |
|---|---|---|---|---|
| ChatGPT Free / Plus Consumer | Ja, default | Nein | Nein | Keine |
| ChatGPT Business ab 2 Seats | Nein | Ja, Standard-DPA | Beschränkt | SSO, Admin |
| ChatGPT Enterprise Custom Agreement | Nein, ZDR möglich | Ja, vollständig | Ja, EU-Residency | SSO, SCIM, Audit, RBAC |
| Claude Free / Pro Consumer | Privacy Center prüfen | Nein | Nein | Keine |
| Claude Team Sonnet 4.6 / Opus 4.6 | Nein | Ja, Commercial Terms | Auf Anfrage | SSO, teilweise Audit |
| Claude Enterprise Custom | Nein | Ja, vollständig | Verhandelbar | SSO, SCIM, ISO 42001 |
| Gemini App Free / Advanced Consumer | Ja, Opt-out möglich | Nein | Nein | Keine |
| Gemini for Workspace Business / Enterprise | Nein | Ja, Cloud DPA | Ja, Data Residency | CMEK, Audit |
| Microsoft 365 Copilot Enterprise | Nein | Ja, M365 DPA | EU Data Boundary | Entra ID, Purview |
In fast jedem Mittelstand existiert dieses Muster: Die Geschäftsführung entscheidet sich für Microsoft 365 Copilot oder ChatGPT Business — und Marketing, Vertrieb und Entwicklung nutzen gleichzeitig ihre privaten ChatGPT-Plus-Accounts weiter, weil sie schneller oder besser sind. Ohne flankierende Richtlinie, Schulung und technische Kontrolle (Web-Filter, DLP) ist jede Enterprise-Lösung nur so sicher wie das Verhalten des schwächsten Mitarbeiters.
Für den Einsatz mit Unternehmensdaten gilt: mindestens Business-Tier, besser Enterprise, niemals Consumer. Die Preisdifferenz zwischen Consumer und Business liegt typischerweise bei 5–10 €/Nutzer/Monat — gegenüber dem Haftungsrisiko ein bemerkenswert günstiger Tausch.[25][28]
Wenn du aus der Business-SaaS-Stufe herauswächst — typischerweise, weil du eigene Anwendungen baust, höheren Durchsatz brauchst oder spezifische Compliance-Anforderungen hast — landest du auf Stufe drei. Hier werden dieselben Frontier-Modelle, die auch ChatGPT und Claude antreiben, in Tenant-isolierter Form angeboten, in einer EU-Region deiner Wahl, mit dem Vertragsframework, das du mit dem Hyperscaler ohnehin schon hast.
Modelle: GPT-5.x-Familie (aktuell GPT-5.2 / 5.4), GPT-4o als Legacy. Über Microsoft Foundry zusätzlich Claude.
EU-Hosting: EU Data Boundary vollständig seit Februar 2025. Frankfurt, Paris, Amsterdam.
Besonderheit: Breiteste Modellauswahl. Abuse-Monitoring standardmäßig aktiv; für regulierte Szenarien per Antrag deaktivierbar.[29][30][31]
Modelle: Claude, Llama, Mistral, Cohere, Amazon Nova / Titan; sehr breite Open-Weight-Auswahl.
EU-Hosting: Frankfurt, Irland, Paris, Stockholm, London. AWS European Sovereign Cloud seit Anfang 2026 unter deutscher Leitung.
Besonderheit: Batch-Modus mit 50 % Preisnachlass für asynchrone Workloads — spart bei Reporting und ETL-Use-Cases.[33][34][35]
Modelle: Gemini-Familie primär, zusätzlich Gemma (Open-Weight) und Model Garden mit Llama.
EU-Hosting: Data Residency in EU-Regionen. Sovereign Cloud (S3NS / STACKIT) im Aufbau.
Besonderheit: Preis-Leader im Flash-Segment. Caching-Rabatt für repetitive Prompts kann Kosten dramatisch senken.[36][37][38]
Alle drei Hyperscaler haben eine US-Muttergesellschaft. Egal wie viel Frankfurt, wie viel EU Data Boundary, wie viel Sovereign Cloud draufsteht — der US CLOUD Act und die FISA Section 702 gelten auf Ebene der Konzernmutter. Ein US-Gericht kann grundsätzlich einen Herausgabebeschluss gegen Microsoft Corp., Amazon.com Inc. oder Alphabet Inc. erlassen, und dieser Beschluss muss befolgt werden — unabhängig vom physischen Speicherort der Daten.[18]
Die Reaktion der Hyperscaler sind Konstruktionen wie:
Alle drei reduzieren das Risiko deutlich, lösen das juristische Grundproblem aber nicht vollständig.
Sovereign Cloud reduziert das CLOUD-Act-Risiko deutlich. Sie hebt es nicht auf.
Konsens der Aufsichtsbehörden| Modell | Input / 1M Tokens | Output / 1M Tokens | Anbieter |
|---|---|---|---|
| GPT-5.2 Instant | ≈ 1,75 $ | ≈ 14,00 $ | Azure OpenAI |
| GPT-4o Legacy | ≈ 2,50 $ | ≈ 10,00 $ | Azure / OpenAI API |
| GPT-4o-mini | ≈ 0,15 $ | ≈ 0,60 $ | Azure OpenAI |
| Claude Sonnet 4.6 | ≈ 3,00 $ | ≈ 15,00 $ | Bedrock, Anthropic API |
| Claude Opus 4.6 | ≈ 5,00 $ | ≈ 25,00 $ | Bedrock, Anthropic API |
| Gemini 2.5 Pro | ≈ 1,25 $ | ≈ 10,00 $ | Vertex AI |
| Gemini 3.1 Pro | ≈ 2,00 $ | ≈ 12,00 $ | Vertex AI |
| Gemini 2.5 Flash | ≈ 0,30 $ | ≈ 2,50 $ | Vertex AI |
An diesem Punkt wird häufig der Vorschlag gemacht, „dann machen wir halt alles selbst” — gemeint: Open-Weight-Modelle auf eigener Hardware oder in der eigenen Private Cloud betreiben. Das ist eine legitime Option, und sie ist 2026 technisch so einfach wie nie. Sie ist auch teurer und anspruchsvoller, als 90 Prozent der Mittelständler einschätzen, die sie erwägen.
Llama 3.3 70B und Llama 4 (Scout / Maverick mit Mixture-of-Experts) sind die Workhorses vieler Mittelstands-Deployments. Lizenz: Meta Llama Community License, kommerziell nutzbar unterhalb von 700 Mio. monatlich aktiver Nutzer.[44]
Europäischer Anbieter aus Paris. Modelle teilweise unter Apache 2.0, teilweise kommerziell. Guter Default, wenn „europäisches Modell” ein Kriterium ist.[43]
Qwen 2.5 und Nachfolger liefern für Größe und Preis sehr starke Benchmarks. Lizenzen variieren je Größe. Herkunft China für manche Compliance-Setups relevant.[45]
Sehr effiziente MoE-Architektur, MIT-Lizenz. Reasoning-Qualität beachtlich. Auch hier: Herkunft China in der Risikoabwägung berücksichtigen.[46]
Kleinere, effiziente Modelle mit sehr offener Lizenz, gut für Edge-Szenarien und embedded Inferencing.[47]
Die AMD MI350X (CDNA 4, seit Q3 2025) mit 288 GB HBM3e ist eine ernstzunehmende Alternative zu NVIDIA Blackwell. ROCm 7 bietet Day-0-Support für PyTorch, Hugging Face und vLLM. Preislich typischerweise unter NVIDIA-Äquivalenten.[55][56]
„Open-Weight” bedeutet, dass die Modellgewichte heruntergeladen und lokal ausgeführt werden können. Es bedeutet nicht, dass Trainingsdaten, Trainingsprozesse oder Architektur-Details vollständig offengelegt sind. Mehrere prominente „offene” Modelle haben Lizenzen mit Einschränkungen. Lies sie, bevor du die Architektur drumherum baust.[43][44]
Um ein Modell in der Qualitätsklasse Llama 3.3 70B oder Mistral Large sinnvoll zu betreiben, brauchst du ernst zu nehmende GPU-Kapazität. „Sinnvoll” heißt: Antworten in akzeptabler Latenz für mehrere gleichzeitige Nutzer.
| GPU | VRAM | Kaufpreis | Mietpreis | Verfügbarkeit Q2 / 2026 |
|---|---|---|---|---|
| NVIDIA H100 SXM5 | 80 GB HBM3 | ≈ 25–30k $ | ≈ 2,50–3,30 $/h | Gut verfügbar |
| NVIDIA H200 SXM5 | 141 GB HBM3e | ≈ 30–40k $ | ≈ 3,70–10,60 $/h | Verfügbar |
| NVIDIA B200 (Blackwell) | 192 GB HBM3e | ≈ 45–55k $ | ≈ 4,88–5,62 $/h | Lieferzeit ~18 Wochen |
| NVIDIA B300 (Blackwell Ultra) | 288 GB HBM3e | DGX-Racks ab ~3,5 Mio. $ | ≈ 5,50 $/h | In Produktion seit Jan. 2026 |
| AMD MI300X | 192 GB HBM3 | ≈ 15–18k $ | ≈ 1,10–3,00 $/h | Knapp aber wachsend |
| AMD MI325X | 256 GB HBM3e | noch in Verhandlung | ≈ 2,30 $/h | Nur ausgewählte Provider |
| AMD MI350X (CDNA 4) | 288 GB HBM3e | noch keine Listenpreise | Erste CSP-Instanzen Q3 2025 | Bei ausgewählten Anbietern |
Für ein realistisches Produktions-Deployment brauchst du typischerweise einen Server mit acht GPUs — DGX H200 oder äquivalent. Das ergibt eine Hardware-Investition in der Größenordnung von 250.000 bis 400.000 Euro für den reinen Server, plus Rack, Power, Kühlung, InfiniBand-Netzwerk und den nicht zu unterschätzenden Software-Stack.[49][50]
Und dann brauchst du Leute, die das betreiben. Mindestens eine volle Senior-ML-Ops-Rolle — realistisch bei 150.000 Euro Jahresgehalt in Deutschland, inklusive Nebenkosten eher Richtung 180.000 Euro. Plus Vertretung, plus Weiterbildung.
Die meisten TCO-Vergleiche, die du im Netz findest, kalkulieren mit fest erfundenen Annahmen — und kommen je nach gewünschtem Ergebnis zu wildly unterschiedlichen Schlüssen. Hier ist die Rechnung als interaktives Werkzeug: du stellst die Parameter, der Vergleich passt sich live an. Schraub die Nutzerzahl hoch und beobachte, wann Self-Hosting realistisch wird.
Bei einem typischen Mittelständler mit 150 aktiven Nutzern und 30k Tokens pro Tag kostet Business SaaS über drei Jahre rund 180.000–216.000 $. Hyperscaler-API liegt bei 21.000–30.000 $. On-Premise mit eigenem GPU-Server bei knapp 940.000 $.[25][28][31][34][37]
Self-Hosting wird gegenüber API erst dann wirtschaftlich, wenn dein Token-Verbrauch grob um den Faktor 40–50 über dem Baseline liegt. Das entspricht einer Organisation mit eher 5.000–8.000 Dauernutzern oder massiver, kontinuierlicher Agenten-Last (24/7-Automatisierung). Für einen klassischen Mittelständler mit 200 Leuten ist das außerhalb der Realität — mit einer Ausnahme: deine Daten dürfen aus regulatorischen Gründen das Haus nicht verlassen. Dann ist Self-Hosting keine Kostenfrage, sondern eine Voraussetzung.
Die versteckten Kosten von Self-Hosting: Hochverfügbarkeit (zweiter Server für Failover verdoppelt die CapEx), Modell-Updates alle drei Monate, Eval-Zyklen, Software-Stack-Pflege, Vertretung der ML-Ops-Rolle. In der Praxis kommt zur reinen Rechnung typischerweise ein Faktor 1,3–1,5 hinzu — wenn man ehrlich ist.[48][49]
Diese Break-Even-Rechnung ist der mit Abstand am häufigsten unterschätzte Punkt in der Debatte. Du hörst von Beratern „wir haben einen Kunden, der self-hostet und 70 Prozent gespart hat” — und dann zeigt der zweite Blick, dass der Kunde einen Use-Case mit 50 Milliarden Tokens pro Jahr hat, also eine ganz andere Gewichtsklasse.
Die Diskussion über Self-Hosting wird häufig geführt, als wäre Hardware jederzeit beliebig verfügbar. Das stimmt 2026 nicht. Die weltweite Nachfrage nach High-End-GPUs übersteigt das Angebot seit mehr als zwei Jahren, und die Lieferketten — insbesondere der HBM-Speicher von SK Hynix und Samsung sowie die fortgeschrittenen Substrate aus Japan — sind ein echter Engpass.
Was das für einen Mittelständler praktisch bedeutet:
Wer 2026 einen eigenen GPU-Cluster plant, plant für zwölf bis achtzehn Monate. Nicht für drei.
Die nüchterne Konsequenz: Die Hardware-Verfügbarkeit ist für die meisten Mittelständler ein weiteres Argument gegen On-Premise und für Hyperscaler oder Business SaaS. Wenn du wirklich eigene Hardware brauchst, beginn die Bestellung mindestens ein Jahr vor dem geplanten Produktionsstart und rechne Puffer ein.
Wenn du in deinem Unternehmen über „sensible Daten” redest, redest du fast immer über drei verschiedene Dinge gleichzeitig — und behandelst sie unterschiedslos. Die rechtlichen Anforderungen sind aber höchst unterschiedlich.
Alles, was sich auf eine identifizierbare natürliche Person bezieht. Kundennamen, E-Mail-Adressen, Bewerberprofile, Mitarbeiterdaten, Krankendaten.
Mindestanforderung: Rechtsgrundlage, Zweckbindung, AVV mit Anbieter, Betroffenenrechte umsetzen, ggf. DSFA.[01]
Informationen mit wirtschaftlichem Wert, die nicht allgemein bekannt sind und für die angemessene Geheimhaltungsmaßnahmen getroffen wurden — sonst verlieren sie den Schutz.
Mindestanforderung: Klassifizierung, technische Schutzmaßnahmen, vertragliche Regelungen mit Mitarbeitern und Dienstleistern.[09]
Patente, Urheberrechte, Marken, Designs. Im KI-Kontext besonders heikel: Code, Konstruktionspläne, Rezepturen, Trainingsdaten.
Mindestanforderung: Lizenzfragen klären — sowohl beim Input (darfst du das in den Prompt geben?) als auch beim Output (wem gehört das Ergebnis?).
Diese drei Ebenen überlagern sich häufig, sind aber nicht identisch. Ein Bewerberprofil ist personenbezogen (DSGVO), aber selten Geschäftsgeheimnis. Eine technische Konstruktionszeichnung ist Geschäftsgeheimnis und IP, aber nicht zwingend personenbezogen. Die Quelltexte deiner Software sind IP und oft Geschäftsgeheimnis, in seltenen Fällen auch personenbezogen (wenn dort Klarnamen stehen).[01][09]
Eine pauschale „KI-Richtlinie” funktioniert nicht. Du brauchst eine Datenklassifikation, die für jede Klasse bestimmt, welche der fünf Spektrum-Stufen erlaubt ist. Ein Marketing-Brainstorming darf in Business SaaS. Ein Gehaltsgespräch nicht. Ein Patent-Entwurf braucht Tier-3 oder höher. Eine Gehaltsliste vermutlich gar keine KI.
Statt einer abstrakten Tabelle bekommst du hier den Entscheidungspfad als klickbares Werkzeug. Vier Fragen, eine Empfehlung. Antworten ehrlich — das Ergebnis ist nur so gut wie der Input.
—
Dieses Werkzeug ist eine erste Orientierung — keine Rechtsberatung, keine Architekturentscheidung. In jedem realen Projekt brauchst du eine Datenschutz-Folgenabschätzung, eine Anbieter-Due-Diligence und eine ehrliche Auseinandersetzung mit den eigenen Schatten-IT-Risiken.[01][02][06] Der Pfad, den dieses Tool ausspuckt, ersetzt nichts davon. Er gibt dir den Rahmen, in dem die echten Diskussionen stattfinden sollten.
Bevor wir zur Checkliste kommen — hier sind zwölf Sätze, die im Mittelstand kursieren und die schlicht nicht stimmen oder zumindest stark irreführend sind. Wenn dir einer davon im Meeting begegnet, weißt du, woran du bist.
Bevor du irgendetwas live nimmst — egal welche Stufe — geh diese zehn Fragen durch. Wenn du auch nur eine nicht ehrlich beantworten kannst, ist es zu früh.
Die richtige Frage ist nicht „welche KI?” — sondern „welches Problem, welche Daten, welche Pflichten?”
Wer in dieser Reihenfolge denkt, kommt zur richtigen Architektur. Wer mit der Architektur beginnt, kommt zu einer Lösung, die ein Problem löst, das er nicht hat — und drei andere offen lässt.
Alle Aussagen in diesem Artikel sind belegbar. Hier ist die vollständige Liste, sortiert nach Themengebiet, Stand April 2026.
Was kostet KI wirklich — und welches Setup passt zu dir? Der Rest des Artikels ist kostenlos. Trag deine E-Mail ein, wir schicken dir einen Link zum Freischalten.
Mit der Eintragung stimmst du zu, dass wir dir den Artikel-Zugang und gelegentlich relevante Inhalte per E-Mail schicken dürfen. Du kannst dich jederzeit abmelden. Datenschutzerklärung
Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.
Gespräch buchen