Bisher brauchte KI immer eine Schnittstelle, um mit Software zu interagieren: APIs, MCP, Datenbank-Verbindungen. Ohne technische Anbindung konnte die KI schlicht nichts tun. Das hat sich grundlegend geändert.
Mit Gemini 2.5 Computer Use kann die KI jetzt Interfaces direkt steuern – Browser, Desktop-Anwendungen, jede Software mit einer Benutzeroberfläche. Kein vordefiniertes Regelwerk nötig. Ein Prompt reicht: „Schließe diesen Kaufvorgang ab” oder „Fülle dieses Formular aus” – und Gemini klickt sich eigenständig durch.
Das Prinzip ähnelt automatisierten Tests, die in der Softwareentwicklung seit Jahren genutzt werden: Ein virtueller Browser oder Desktop wird ferngesteuert und klickt sich durch eine Anwendung.
Der entscheidende Unterschied:
Google ist hier aktuell deutlich besser als die Konkurrenz darin, Interfaces korrekt zu interpretieren und die richtigen Aktionen abzuleiten.
Der Riesenvorteil: Du brauchst keine API-Schnittstelle mehr. Das bedeutet, du kannst auch Software automatisieren, die:
Computer Use ist mächtig, aber nicht perfekt:
Computer Use löst eines der größten Probleme bei der KI-Automatisierung im Mittelstand: Was tun mit Software, die keine Schnittstellen hat? Die Antwort ist jetzt: Einfach die KI die Oberfläche bedienen lassen – wie ein Mitarbeiter, nur schneller und rund um die Uhr.
Das ist kein Ersatz für saubere API-Integrationen. Aber es ist eine Brücke, die Automatisierung dort ermöglicht, wo sie bisher unmöglich war.
[00:00] Jetzt hat Gemini schon wieder einen rausgehauen und ich hätte fast verpasst, euch ein Update dazu zu geben, weil das Ganze ein paar Tage her ist. Was hat sich verändert? Google hat Gemini 2.5 Computer Use rausgebracht und der gravierende Unterschied ist, dass ich jetzt über die Schnittstelle Interfaces kontrollieren kann. [00:16] Wie funktioniert das Ganze? Kann sich das ein bisschen so vorstellen wie Automationstests, die ich üblicherweise ablaufen lassen würde, wo ich ein vordefiniertes Regelwerk habe und einen virtuellen Browser, der sich da halt durchklickt. Nur dass es keine vordefinierten Regeln braucht, sondern quasi ich einfach Gemini in dem Fall ein Ziel vorgeben kann über den Prompt. [00:34] Und sagen kann, du sollst jetzt hier einen Kauf abschließen oder du sollst jetzt hier XY abschließen. Gemini kann sich in dem Fall dann komplett autonom durch meine UI, durch meinen Browser, durch meinen Desktop durchbrowsen und diesen Task erfüllen. [00:47] Konnte ich theoretisch bisher auch machen, nur man sieht es hier einmal, dass tatsächlich Google in dem Fall deutlich besser ist, die UI zu interpretieren und die Aufgabe auch so zu erstellen. [00:56] Was ist jetzt die Riesenänderung daran? Ich muss dem LLM nicht über irgendwelche Schnittstellen oder MCP Zugriff geben, sondern kann auch dem Ding Zugriff geben auf richtig veraltete Software, die irgendwo vielleicht auf dem Windows Server bei mir irgendwo im Hinterzimmer läuft. Und kann damit Automatisierungen auf Software schreiben, die wahrscheinlich komplett far away von KI sind.
Gemini Computer Use ist eine Funktion von Googles Gemini 2.5, die es der KI ermöglicht, sich autonom durch Benutzeroberflächen zu klicken – ohne vordefinierte Skripte. Ein Prompt reicht, damit die KI Buttons findet, Formulare ausfüllt und durch Menüs navigiert.
Ja, genau das ist der Vorteil von Computer Use. Die KI steuert die Software über die Benutzeroberfläche – so wie ein Mensch es tun würde. Das funktioniert auch mit Legacy-Systemen, die keine API-Schnittstelle haben.
Grundsätzlich ja, wenn die Daten auf EU-Servern verarbeitet werden und keine sensiblen Daten an Drittanbieter übertragen werden. Bei Gemini Computer Use muss geprüft werden, welche Daten auf dem Bildschirm sichtbar sind und ob diese verarbeitet werden dürfen.
Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.
Gespräch buchen