01 · Ausgangspunkt 02 · Determinismus ist entscheidend 03 · Die Architektur 04 · Der fehlende Baustein 05 · Die UX 06 · Marketing-These 07 · Der Blick nach draußen 08 · Ein Disclaimer

14 Min Lesezeit

Die KI, die sich selbst ersetzt.

Was wäre, wenn die KI sich selbst abschafft? Ein Gedankenexperiment über eine Architektur, die wiederkehrende Muster in Code übersetzt — bis das Modell an den meisten Stellen nicht mehr gebraucht wird.

Stand April 2026

Lesezeit 14 Min

Quellen 11

Scroll um zu lesen

01 Ausgangspunkt

Ein Paper, das uns nicht mehr aus dem Kopf ging.

Letztens haben wir ein Paper gelesen, das uns auch am Wochenende nicht mehr aus dem Kopf ging. Compiled AI^[01] beschreibt eine Architektur, in der das Sprachmodell die Geschäftslogik in Code übersetzt. Bei weiteren Aufrufen nutzt man dann einfach die fertige Software.

Die Ergebnisse sprechen für sich: 57-fach weniger Tokens bei 1.000 Transaktionen, Break-even nach 17 Aufrufen, 100 % reproduzierbare Ergebnisse statt 95 % beim klassischen Agenten.^[01]

Klingt auf den ersten Blick erstmal nach einem Coding Agenten, den man durch starre Leitplanken sehr gut instruiert hat. Böse gesagt: Ist es im Prinzip auch. Aber der Gedanke dahinter hat uns nicht losgelassen:

Was wäre, wenn Code und Agent kein Entweder-Oder wären — sondern zwei Enden desselben Systems?

02 Determinismus ist entscheidend

Die gleiche Eingabe, aber unterschiedliche Antworten.

Wer heute ein Sprachmodell in einen Geschäftsprozess steckt, hat ein Problem, das selten direkt benannt wird: Gleiche Eingaben können zu unterschiedlichen Ergebnissen führen. Selbst wenn man die Einstellung wählt, die identische Ausgaben garantieren soll, variieren 18 bis 75 % der Antworten.^[02] Eine zweite Studie hat 2024 Schwankungen von bis zu 15 Prozentpunkten bei identischen Durchläufen bestätigt.^[03]

Und dann die Agenten selbst. Eine Analyse von gut 1.600 Abstürzen hat 2025 gezeigt: 79 % der Fehler hatten nichts mit der Infrastruktur zu tun. Es waren Fehler in der Aufgabenbeschreibung — entstanden, weil das Modell bei jedem einzelnen Vorgang neu raten musste, was gemeint ist.^[04]

Die naheliegende Antwort wäre, keine Sprachmodelle in kritischen Prozessen zu verwenden.

Unser Gedankenexperiment zielt genau darauf ab: Können wir ein System beschreiben, das ein Sprachmodell nutzt, um Muster zu verstehen, aber über Zeit kritische Prozesse deterministisch abbildet?

03 Die Architektur

Drei Schichten. Und ein Compiler, der im Hintergrund mitliest.

Stell dir drei Schichten vor. Jede Anfrage kommt oben an und wird von der ersten Schicht abgefangen, die sie lösen kann. Der Großteil kommt nie weiter als Schicht eins.

Oben liegt Code. Deterministischer Code für alles, was ein Unternehmen täglich tut: Rechnungen prüfen, Bestellungen freigeben, Reklamationen bearbeiten, Lieferanten einordnen. Jeder dieser Bausteine ist einmal unter Aufsicht erzeugt und durch 4 Prüfstufen gegangen. Es entstehen keine weiteren KI-Kosten, die Antwortzeit liegt im Millisekundenbereich, und es gibt eine Versionskontrolle wie bei jedem anderen Code. Unserer Einschätzung nach landen hier über 75 % aller Anfragen.

Was Code nicht lösen kann, fällt eine Stufe weiter: KI mit Leitplanken. Manche Aufgaben brauchen echtes Sprachverständnis — ein Feld aus einer chaotischen Lieferscheinkopie ziehen, eine Kundenformulierung einer Kategorie zuordnen, aus einer Arztnotiz strukturierte Daten machen. Hier läuft ein Sprachmodell, aber mit engen Leitplanken und klaren Abläufen, sollte etwas schiefgehen.

Ganz unten der Agent. Hier passiert das, was heute jeder unter einem „KI-Agenten” versteht: Planung für die Abarbeitung neuer Vorgänge, die das System noch nie gesehen hat. Das Ergebnis ist nie eine direkte Aktion, sondern ein Plan, den der Code oben abarbeitet.

04 Der fehlende Baustein

Das Modell wird nicht klüger. Es wird überflüssig.

Die drei Schichten allein sind statisch. Lebendig werden sie erst durch einen vierten Baustein: ein Beobachter mit Compiler-Funktion. Er liest mit und erkennt, wann Muster reif sind, eine Stufe nach oben zu wandern.

Konkret sieht das so aus: 3 Nutzer haben diese Woche dieselbe Aufgabe angefragt, die bisher nur der Agent lösen konnte. Der Compiler erkennt das Muster, schreibt dafür ein fertiges Stück Code, schickt es durch die Validierung — und ab dem nächsten Treffer läuft die Anfrage oben im Code. Kein Modellaufruf mehr, keine Wartezeit, keine Kosten. Was letzte Woche noch 2 Sekunden und ein paar Cent gekostet hat, braucht diese Woche Millisekunden und kostet nichts.

Das ist der Kern des ganzen Experiments. Das Modell wird nicht klüger — es wird überflüssig, an den richtigen Stellen. Je häufiger ein Muster auftritt, desto wahrscheinlicher wandert es in die Code-Schicht und braucht nie wieder ein Modell. Das ist das Gegenteil von dem, was heutige Agenten tun: Die werden mit wachsendem Einsatz teurer und fehleranfälliger. Der METR-Bericht hat den Effekt 2025 indirekt gemessen — Entwickler empfanden zwar einen 20 % Produktivitätsgewinn, die objektive Messung zeigte jedoch eine 19 % Verlangsamung. Die Differenz steckt in der Zeit, die man braucht, um den Code zu reviewen — weil er jedes Mal anders aussieht.^[06]

05 Die UX

Der Nutzer merkt davon nichts. Und das ist der Punkt.

Wir haben uns gefragt, wie so ein System im Alltag ankommen würde. Die ehrliche Antwort: Der Nutzer merkt davon nichts. Er hat ein Eingabefeld, tippt oder spricht, und das System antwortet. Kein „Compiled-Modus”, kein „Agenten-Modus”, kein Einstellungsmenü, in dem jemand festlegen muss, wie klug das Ding gerade sein soll.

Was er stattdessen bemerkt, ist die Komponente Zeit. Routinevorgänge klappen auf Anhieb und liefern schnelle Antworten. Seltene Vorgänge dauern ein paar Sekunden länger — wie eine gute Web-App, die bei einem Cache-Miss etwas langsamer wird. Und Dinge, die er oft macht, werden über die Wochen spürbar schneller und einheitlicher. Eine stille Verbesserung — so wie gute Software schon immer am besten funktioniert hat.

Bei allem, was kritisch ist — Mails verschicken, Daten nach außen geben — schiebt das System eine Vorschau dazwischen. Nicht als Modus, sondern als Reflex. Die wichtige Eigenschaft dabei: Wenn der Nutzer auf „Bestätigen” drückt, ist kein Sprachmodell mehr involviert.

06 Marketing-These

Deterministische Ergebnisse, wann immer du sie brauchst.

Wenn man einen Schritt zurücktritt, ergibt das Ganze eine klare Story: Deterministische Ergebnisse, wann immer du sie brauchst. Nicht die schnellste KI, nicht die kreativste — sondern dieselbe Eingabe führt zur selben Ausgabe. Heute, morgen, im März, aber auch wenn der Abschlussprüfer nochmal eine Nachfrage hat.

Das ist mal was anderes. Die gesamte aktuelle KI-Werbung geht eher in die andere Richtung. Flexibel, adaptiv, explorativ — also genau die Eigenschaften, die in kritischen Abläufen nicht gebraucht werden. Wer im Mittelstand ein Sprachmodell in einen Prozess steckt, der funktionieren muss, will nicht kreativ. Er will langweilig, reproduzierbar, erklärbar.

07 Der Blick nach draußen

Die Bausteine gibt es. Das Gesamtpaket fehlt.

Bevor wir das Experiment zu Ende gedacht haben, wollten wir wissen: Gibt es das schon? Ein paar Stunden Recherche später war die Antwort klar.

Temporal hat 2025 in einem viel gelesenen Blog-Beitrag die Grundlage sauber beschrieben:^[10] Der Workflow bleibt deterministisch, die Modellaufrufe passieren an klar definierten Stellen. Aber Temporal ist Infrastruktur für Entwickler, kein Produkt für einen Mittelständler. Und das Sprachmodell ist weiterhin bei jeder Transaktion ein aktiver Part.

Alibaba hat 2025 unter dem Titel Blueprint First, Model Second ein Framework vorgestellt, das in dieselbe Richtung geht.^[09] Das ist aber ein Forschungsframework, kein Produkt. Die Erzeugung des Codes läuft per Hand.

Kubiya wirbt seit 2025 offensiv mit dem Begriff „deterministic AI architecture”.^[11] Soweit wir sehen, die einzige Firma, die diesen Claim tatsächlich führt. Ihr Weg geht aber über strikte Orchestrierung, nicht über kompilierten Code. Das Sprachmodell läuft auch hier bei jeder Transaktion mit.

DSPy und LLM+P sind die akademischen Urgroßväter der Idee.^[07][08] Sie haben als Erste formuliert, dass man LLMs als Compiler statt als Interpreter nutzen kann.

Was in keinem dieser Ansätze steckt, ist der selbstkompilierende Hintergrund-Loop — die Eigenschaft, dass wiederkehrende Muster automatisch nach oben wandern, durch eine Validierung laufen, und ohne manuellen Eingriff in der Code-Schicht landen.

08 Ein Disclaimer

Es ist kein Allheilmittel.

Zwei Dinge gehören dazu gesagt.

Die Spezifikationsarbeit am Anfang verschwindet nicht. Wer seine Prozesse nicht klar beschreiben kann, kann sie auch nicht kompilieren lassen. Genau daran scheitern heute die meisten KI-Projekte — nicht am Modell, sondern daran, dass niemand vorher definiert hat, was das System eigentlich entscheiden soll.

Nicht jeder Prozess passt. Offene Kundenkonversation, echte Recherche, kreative Analyse — dort ist das Modell zur Laufzeit genau richtig. Die Kunst ist, die beiden Klassen sauber auseinanderzuhalten.

11 Quellen.

Alle Aussagen in diesem Artikel sind belegbar. Hier ist die vollständige Quellenliste, sortiert nach Themengebiet.

Empirische Grundlage (01–06)

Architektonische Vorläufer (07–11)

Fragen offen?

Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.

Gespräch buchen