Was ist Gemini Computer Use?

Gemini Computer Use ist eine Funktion von Googles Gemini 2.5, die es der KI ermöglicht, sich autonom durch Benutzeroberflächen zu klicken – ohne vordefinierte Skripte. Ein Prompt reicht, damit die KI Buttons findet, Formulare ausfüllt und durch Menüs navigiert.

Kann KI auch alte Software ohne API automatisieren?

Ja, genau das ist der Vorteil von Computer Use. Die KI steuert die Software über die Benutzeroberfläche – so wie ein Mensch es tun würde. Das funktioniert auch mit Legacy-Systemen, die keine API-Schnittstelle haben.

Ist Computer Use DSGVO-konform einsetzbar?

Grundsätzlich ja, wenn die Daten auf EU-Servern verarbeitet werden und keine sensiblen Daten an Drittanbieter übertragen werden. Bei Gemini Computer Use muss geprüft werden, welche Daten auf dem Bildschirm sichtbar sind und ob diese verarbeitet werden dürfen.

KI steuert deinen Computer: Was Gemini Computer Use für Unternehmen bedeutet

Was ist Computer Use – und warum ist das ein Gamechanger?

Bisher brauchte KI immer eine Schnittstelle, um mit Software zu interagieren: APIs, MCP, Datenbank-Verbindungen. Ohne technische Anbindung konnte die KI schlicht nichts tun. Das hat sich grundlegend geändert.

Mit Gemini 2.5 Computer Use kann die KI jetzt Interfaces direkt steuern – Browser, Desktop-Anwendungen, jede Software mit einer Benutzeroberfläche. Kein vordefiniertes Regelwerk nötig. Ein Prompt reicht: „Schließe diesen Kaufvorgang ab” oder „Fülle dieses Formular aus” – und Gemini klickt sich eigenständig durch.

Wie funktioniert Computer Use technisch?

Das Prinzip ähnelt automatisierten Tests, die in der Softwareentwicklung seit Jahren genutzt werden: Ein virtueller Browser oder Desktop wird ferngesteuert und klickt sich durch eine Anwendung.

Der entscheidende Unterschied:

Klassische Automationstests: Brauchen ein vordefiniertes Regelwerk – „Klicke auf Button X, fülle Feld Y aus, warte 3 Sekunden”. Jede Änderung am Interface bricht den Test.
Computer Use: Braucht nur ein Ziel – „Bestelle dieses Produkt”. Die KI interpretiert die UI selbst, findet die richtigen Buttons und Felder und navigiert autonom zum Ziel.

Google ist hier aktuell deutlich besser als die Konkurrenz darin, Interfaces korrekt zu interpretieren und die richtigen Aktionen abzuleiten.

Warum ist das für Unternehmen so relevant?

Der Riesenvorteil: Du brauchst keine API-Schnittstelle mehr. Das bedeutet, du kannst auch Software automatisieren, die:

Keine API hat: Alte ERP-Systeme, proprietäre Branchensoftware, Legacy-Anwendungen
Auf einem Windows-Server im Hinterzimmer läuft: Kein Cloud-Zugang, keine moderne Schnittstelle
Komplett „far away” von KI ist: Software, die seit 15 Jahren nicht aktualisiert wurde

Konkrete Beispiele aus dem Mittelstand

Steuerberatung: Alte DATEV-Versionen oder Spezial-Software ohne Export-Funktion – Computer Use kann Daten aus der UI extrahieren und in moderne Systeme übertragen.
Hausverwaltung: Veraltete Verwaltungssoftware, die nur über Desktop-Oberfläche bedienbar ist – Formulare automatisch ausfüllen, Berichte generieren.
Handwerk: Branchenspezifische Planungssoftware ohne Schnittstellen – Aufträge anlegen, Kalkulationen übertragen, Statusmeldungen aktualisieren.
Logistik: Legacy-Warenwirtschaftssysteme – Bestandsabfragen, Bestellungen auslösen, Lieferscheine erstellen.

Was sind die Grenzen?

Computer Use ist mächtig, aber nicht perfekt:

Geschwindigkeit: Die KI muss Screenshots interpretieren und UI-Elemente erkennen – das ist langsamer als eine direkte API-Anbindung.
Fehleranfälligkeit: Wenn sich die Oberfläche ändert (Update, neues Layout), muss die KI sich neu orientieren. Meistens funktioniert das, aber nicht immer.
Sicherheit: Die KI hat Zugriff auf echte Systeme und klickt echte Buttons. Fehler haben echte Konsequenzen – Aufsicht bleibt wichtig.

Fazit: Legacy-Software ist kein Hindernis mehr

Computer Use löst eines der größten Probleme bei der KI-Automatisierung im Mittelstand: Was tun mit Software, die keine Schnittstellen hat? Die Antwort ist jetzt: Einfach die KI die Oberfläche bedienen lassen – wie ein Mitarbeiter, nur schneller und rund um die Uhr.

Das ist kein Ersatz für saubere API-Integrationen. Aber es ist eine Brücke, die Automatisierung dort ermöglicht, wo sie bisher unmöglich war.

Transkript

[00:00] Jetzt hat Gemini schon wieder einen rausgehauen und ich hätte fast verpasst, euch ein Update dazu zu geben, weil das Ganze ein paar Tage her ist. Was hat sich verändert? Google hat Gemini 2.5 Computer Use rausgebracht und der gravierende Unterschied ist, dass ich jetzt über die Schnittstelle Interfaces kontrollieren kann. [00:16] Wie funktioniert das Ganze? Kann sich das ein bisschen so vorstellen wie Automationstests, die ich üblicherweise ablaufen lassen würde, wo ich ein vordefiniertes Regelwerk habe und einen virtuellen Browser, der sich da halt durchklickt. Nur dass es keine vordefinierten Regeln braucht, sondern quasi ich einfach Gemini in dem Fall ein Ziel vorgeben kann über den Prompt. [00:34] Und sagen kann, du sollst jetzt hier einen Kauf abschließen oder du sollst jetzt hier XY abschließen. Gemini kann sich in dem Fall dann komplett autonom durch meine UI, durch meinen Browser, durch meinen Desktop durchbrowsen und diesen Task erfüllen. [00:47] Konnte ich theoretisch bisher auch machen, nur man sieht es hier einmal, dass tatsächlich Google in dem Fall deutlich besser ist, die UI zu interpretieren und die Aufgabe auch so zu erstellen. [00:56] Was ist jetzt die Riesenänderung daran? Ich muss dem LLM nicht über irgendwelche Schnittstellen oder MCP Zugriff geben, sondern kann auch dem Ding Zugriff geben auf richtig veraltete Software, die irgendwo vielleicht auf dem Windows Server bei mir irgendwo im Hinterzimmer läuft. Und kann damit Automatisierungen auf Software schreiben, die wahrscheinlich komplett far away von KI sind.