Ein simples Problem: Ich wollte eine Inventarliste unserer Speisekammer erstellen. Eine Liste aller Lebensmittel. Klingt trivial – wäre aber nur halb so interessant, wenn man es nicht mit KI lösen würde.
Also habe ich ein Video durch die Speisekammer aufgenommen und der KI gesagt: Erstelle mir eine Liste aller Lebensmittel in diesem Video.
Erster Versuch mit Gemini: Video hochgeladen, Aufgabe beschrieben. Ergebnis: Hat nur semi funktioniert. Entweder das iPhone-Video-Encoding hat nicht gepasst, das Video war zu lang, oder Gemini hatte einfach einen schlechten Tag. Jedenfalls kein brauchbares Ergebnis.
Zweiter Versuch mit Claude Code: Hier wird es interessant. Claude Code kann kein Video direkt analysieren – das weiß das Modell auch. Aber es kann Probleme kreativ lösen.
Die Anweisung: „Ich brauche eine Liste aller Lebensmittel. Analysiere das Video. Wenn du das Video nicht direkt analysieren kannst, mach dir von jeder halben Sekunde einen Snapshot mit FFmpeg.”
Claude Code hat eigenständig folgende Schritte ausgeführt:
Nach wenigen Minuten hatte ich die fertige Inventarliste. Ohne eine einzige Zeile Code selbst zu schreiben.
Dieses Experiment demonstriert drei wichtige Prinzipien:
Das Prinzip „Video zu strukturierten Daten” hat viele praktische Anwendungen:
Wenn man KI-Agenten die richtigen Werkzeuge gibt und ihnen Freiraum lässt, finden sie oft überraschend kreative Lösungen. Das Experiment zeigt: Die Grenze liegt nicht bei der KI – sondern bei unserer Vorstellung davon, was möglich ist.
Ob sich der Aufwand bei einer Speisekammer gelohnt hat? Wahrscheinlich nicht. Aber bei einem Lager mit 10.000 Artikeln sieht die Rechnung schon anders aus.
[00:00] Versuche gerade Inventar zu führen bei uns in der Speisekammer und brauche natürlich eine Liste für das ganze Vorhaben. Und es würde aber natürlich nur halb so viel Spaß machen, wenn ich das nicht mit KI lösen würde. [00:10] Deswegen bin ich als erstes in Gemini reingegangen, habe das versucht. Das hat aber irgendwie nur semi funktioniert mit dem Video. Entweder das iPhone-Encoding hat nicht gepasst oder zu lang oder einfach keinen Bock gehabt an dem Tag. [00:22] Und deswegen bin ich wieder zurück zu meinem Working Buddy Claude Code gegangen. Und habe das Ganze versucht, das Video einfach in einen Ordner zu packen und habe gesagt: Ich brauche für das Inventar eine ganze Liste aller Lebensmittel. [00:33] Bitte analysiere das Video. Wenn du das Video wahrscheinlich nicht analysieren kannst, mach dir von jeder halben Sekunde einen Snapshot mit FFmpeg. Das ist so ein Tool, mit dem du Videos und Bilder verarbeiten kannst. [00:44] Und aus diesen Bildern machst du mir quasi diese Liste. Das heißt, Claude ist hergegangen, hat ungefähr 300 Bilder hier erstellt aus diesem ganzen Video. Das war glaube ich zwei, drei Minuten lang das ganze Ding. [00:55] Und hat die alle analysiert und nach ein paar Minuten hatte ich auch diese fertige Liste hier.
Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.
Gespräch buchen