Lokale KI scheitert nicht am Modell.

Vor zwei Jahren hast du vielleicht geprüft, ob sich lokale KI für euer Unternehmen lohnt — also mit eigenen Daten auf eigener Hardware, ohne Verbindung in die Cloud. Die ehrliche Antwort war damals: noch nicht. Die verfügbaren Modelle lagen deutlich hinter dem, was man aus ChatGPT kannte, und für die Bedienung brauchte man Terminal-Kenntnisse, die in einer Kanzlei oder einem Beratungsunternehmen niemand mitbringt.

Diese Antwort stimmt nicht mehr. Allerdings aus einem anderen Grund, als die meisten vermuten.

Die falsche Frage

Anderthalb Jahre lang drehte sich die öffentliche Debatte fast ausschließlich um Modelle. Reicht Llama für ernsthafte Arbeit? Wann zieht Open Source mit GPT-4 gleich? Die Fragen waren nicht falsch. Sie waren nur nicht die, an denen sich im Alltag entschied, ob lokale KI funktioniert.

Der eigentliche Engpass hatte nie mit dem Modell zu tun, sondern mit allem, was das Modell erst nutzbar macht. Sichtbar wird das jetzt, wo die Modelle selbst kein Problem mehr sind.

Was heute lokal läuft

Das Angebot ist inzwischen unübersichtlich. Meta bietet Llama 3.3 in Größen von 8B bis 70B. Alibaba hat mit Qwen 3.5 eine ganze Modellfamilie veröffentlicht, die in den meisten Disziplinen mitspielt. Mistral aus Paris liegt mit Mistral Large 3 auf Augenhöhe mit den amerikanischen Anbietern. Microsoft hat Phi-4 auf den Markt gebracht, das für seine geringe Größe erstaunlich gute Ergebnisse liefert. Und seit 2025 gibt es GPT-OSS — die ersten offenen Modelle von OpenAI selbst. Wenn sogar der Anbieter, der den Cloud-Only-Weg geprägt hat, inzwischen Gewichte veröffentlicht, spricht das für sich.

Für den größten Teil dessen, was in Kanzleien, Steuerbüros, Arztpraxen und Mittelstandsbüros täglich anfällt, reichen diese Modelle heute aus. Texte werden zusammengefasst, Dokumente durchsucht, Recherchen strukturiert, Korrespondenz vorbereitet — alles auf der eigenen Maschine, ohne spürbaren Qualitätsverlust gegenüber einer Cloud-API.

Damit ist die interessante Frage eine andere geworden.

Der eigentliche Engpass

Ein lokales Modell auf der eigenen Maschine ist noch keine nutzbare KI. Was fehlt, lässt sich in drei Fragen fassen — und keine davon hat mit dem Modell zu tun.

Wo läuft die KI überhaupt? Deine Mitarbeiter arbeiten im Browser. Zwischen Outlook, dem CRM, einem Kanzleiprogramm und drei offenen PDFs. Eine Chat-Oberfläche in einem separaten Fenster ist ein Tool, das nach der ersten Woche niemand mehr öffnet. Damit KI im Alltag überhaupt benutzt wird, muss sie dort auftauchen, wo die Arbeit ohnehin stattfindet.

Was darf sie sehen? Sinnvolle Hilfe braucht Kontext — den Vertrag, den du gerade prüfst, oder die Patientenakte, auf die du dich beziehst. In der Cloud bedeutet Kontext-Zugriff automatisch Daten-Zugriff durch einen Dritten, und das willst du bei sensiblen Informationen nicht. Lokal ist das Problem lösbar, aber die Architektur dahinter ist anspruchsvoller, als sie von außen wirkt.

Was kommt dazu? Eine ernsthafte KI-Anwendung braucht Erweiterungen: spezialisierte Funktionen für einzelne Aufgabentypen und Anbindungen an die vorhandene IT. Damit steht die Frage im Raum, die niemand gern stellt: Wer garantiert, dass das nächste Plugin nicht heimlich deine Mandantendaten ausleitet?

Drei Probleme, von denen keines durch ein besseres Modell gelöst wird. Sie sind der Grund, warum lokale KI trotz brauchbarer Modelle lange keine Option war, die man einem Partner oder einem Chefarzt guten Gewissens empfehlen konnte.

Was sich verändert hat

In den letzten zwölf Monaten ist abseits der Modell-Diskussion etwas anderes entstanden: Software, die genau diese drei Fragen beantwortet. Lokale Clients, die sich bedienen lassen wie ein Cloud-Produkt, aber ohne Cloud-Verbindung auskommen. Browser-Integrationen, die den Arbeitskontext mitlesen, ohne eine Hintertür aufzumachen. Plugins laufen in Sandboxes, ähnlich wie Apps auf dem Smartphone — Zugriff gibt es nur auf das, was ausdrücklich freigegeben wurde.

ThinkOS^[01] ist eines dieser Projekte. Open Source unter Apache 2.0, verfügbar für macOS und Windows. Im Hintergrund läuft eine lokale Ollama-Instanz^[02] oder, wenn man will, jede andere OpenAI-kompatible API. Im Vordergrund eine Browser-Erweiterung, die mitbekommt, woran du gerade arbeitest, und hilft, wenn du sie fragst. Die Daten bleiben ausnahmslos auf deiner Maschine.

Disclaimer

Wir bei Nextaim sind Contributor zu ThinkOS. Der Code entstand im Rahmen eines Kundenprojekts, bei dem sich genau diese Frage stellte: Wie bringt man eine lokale KI so nah an den Arbeitsplatz, dass sie tatsächlich benutzt wird? Wer sich für die technische Umsetzung interessiert, findet hier weitere Informationen^[03].

Die Fragen, die jetzt wirklich zählen

Für Entscheider verschiebt sich damit die Landkarte. Wer heute eine KI-Strategie entwirft, muss sich mit der Modell-Frage nicht mehr aufhalten — die beantwortet der Markt.

Worum es stattdessen geht: Wie kommt die KI zu deinen Leuten — im Werkzeug, das sie ohnehin benutzen, oder als siebtes Tab, das sie nach drei Tagen wieder schließen? Welche Daten darf sie sehen, unter welchen Bedingungen und auf welcher Rechtsgrundlage? Wer darf Erweiterungen installieren, und mit welchen Rechten laufen diese? Wie greift das Ganze in euer Active Directory und euer Berechtigungskonzept?

Das sind keine Technik-Fragen. Das sind Governance-Fragen, und an ihnen entscheidet sich, ob ein KI-Rollout im Unternehmen Wurzeln schlägt oder nach sechs Monaten als teures Experiment in der Ablage landet.

Wo lokale KI auch heute nicht reicht

Die Grenze muss man ehrlich ziehen. Bei Aufgaben, die schweres Reasoning über viele Schritte verlangen, kommen lokale Modelle derzeit nicht an GPT-5 oder Claude Opus heran. Auch Live-Sprachsteuerung in hoher Qualität und anspruchsvolle multimodale Anwendungen, vor allem mit Video, bleiben vorerst Cloud-Disziplinen.

Die richtige Schlussfolgerung ist nicht “entweder lokal oder Cloud”, sondern ein sauber getrenntes Nebeneinander. Der Großteil der Alltagsarbeit lokal, weil dort die sensiblen Daten liegen und eine lokale Lösung heute qualitativ ausreicht. Die wenigen Fälle, in denen ein Frontier-Modell wirklich gebraucht wird, laufen über eine bewusst konfigurierte Cloud-Anbindung — mit klaren Regeln, welche Daten überhaupt dort landen dürfen.

Was das für dich heißt

Wenn du mit Mandantendaten, Patientenakten, Personalunterlagen oder anderen sensiblen Informationen arbeitest, stellt sich die alte Entweder-oder-Frage nicht mehr. KI nutzen und Datenschutz einhalten lassen sich heute kombinieren.

Der erste Schritt kostet wenig: ThinkOS herunterladen, ein zur Hardware passendes Modell auswählen — Llama, Qwen oder Mistral sind gute Einstiegspunkte — und eine Woche damit arbeiten. Kein strategisches Projekt, nur ein persönlicher Test, ob diese Art zu arbeiten in deinen Alltag passt.

Wenn sie passt, kommt die nächste Frage von alleine. Wie rollt man das auf 50, 200 oder 500 Arbeitsplätze aus? Mit welchen Modellen, welcher Governance und welcher Cloud-Anbindung für die Fälle, in denen lokal nicht reicht?

Dann reden wir über den Rollout.

Lokale KI scheitert nicht am Modell.

Die falsche Frage

Was heute lokal läuft

Der eigentliche Engpass

Was sich verändert hat

Die Fragen, die jetzt wirklich zählen

Das sind keine Technik-Fragen. Das sind Governance-Fragen.

Wo lokale KI auch heute nicht reicht

Was das für dich heißt

3 Quellen.

Quellen (01—03)

Fragen offen?