KI-Experiment: Wie ich mit Claude und FFmpeg eine Video-Inventur gemacht habe
Kann KI ein Video analysieren und eine Inventarliste erstellen? Ein Praxisexperiment mit Claude Code, FFmpeg und 300 Screenshots.
Das Wichtigste in Kürze
- KI kann Videos nicht direkt analysieren – aber mit kreativem Workaround (FFmpeg-Snapshots) lässt sich das Problem lösen
- Claude Code kann eigenständig Tools wie FFmpeg einsetzen, um Probleme zu lösen, die das Modell allein nicht bewältigt
- Praktischer Anwendungsfall: Aus einem Rundgang-Video automatisch eine Inventarliste erstellen
- Der Ansatz zeigt, wie KI-Agenten kreativ Probleme lösen – auch wenn der direkte Weg nicht funktioniert
Das Experiment: Inventar führen mit KI
Ein simples Problem: Ich wollte eine Inventarliste unserer Speisekammer erstellen. Eine Liste aller Lebensmittel. Klingt trivial – wäre aber nur halb so interessant, wenn man es nicht mit KI lösen würde.
Also habe ich ein Video durch die Speisekammer aufgenommen und der KI gesagt: Erstelle mir eine Liste aller Lebensmittel in diesem Video.
Gemini vs. Claude: Welches Tool schafft es?
Erster Versuch mit Gemini: Video hochgeladen, Aufgabe beschrieben. Ergebnis: Hat nur semi funktioniert. Entweder das iPhone-Video-Encoding hat nicht gepasst, das Video war zu lang, oder Gemini hatte einfach einen schlechten Tag. Jedenfalls kein brauchbares Ergebnis.
Zweiter Versuch mit Claude Code: Hier wird es interessant. Claude Code kann kein Video direkt analysieren – das weiß das Modell auch. Aber es kann Probleme kreativ lösen.
Die Anweisung: „Ich brauche eine Liste aller Lebensmittel. Analysiere das Video. Wenn du das Video nicht direkt analysieren kannst, mach dir von jeder halben Sekunde einen Snapshot mit FFmpeg.”
Wie die KI das Problem gelöst hat
Claude Code hat eigenständig folgende Schritte ausgeführt:
- FFmpeg installiert (falls nicht vorhanden)
- Ca. 300 Screenshots aus dem Video extrahiert – einen alle 0,5 Sekunden
- Jeden Screenshot analysiert und die sichtbaren Produkte identifiziert
- Eine konsolidierte Liste aller erkannten Lebensmittel erstellt
Nach wenigen Minuten hatte ich die fertige Inventarliste. Ohne eine einzige Zeile Code selbst zu schreiben.
Was zeigt dieses Experiment?
Dieses Experiment demonstriert drei wichtige Prinzipien:
- KI-Agenten lösen Probleme kreativ: Wenn der direkte Weg nicht funktioniert (Video-Analyse), findet der Agent einen alternativen Weg (Screenshots + Bildanalyse).
- Tool-Nutzung ist der Schlüssel: Das Sprachmodell allein kann kein Video analysieren. Aber in Kombination mit Werkzeugen wie FFmpeg wird aus einer Limitation eine Lösung.
- Delegation statt Micromanagement: Ich habe das Ziel beschrieben und einen Lösungshinweis gegeben. Den Rest hat die KI selbst erledigt.
Wo ist das im Unternehmensalltag relevant?
Das Prinzip „Video zu strukturierten Daten” hat viele praktische Anwendungen:
- Lagerverwaltung: Rundgang durch das Lager filmen, KI erstellt automatisch eine Bestandsliste mit Mengenabschätzung.
- Baustellen-Dokumentation: Video-Rundgang, KI identifiziert den Baufortschritt und erstellt einen Statusbericht.
- Qualitätskontrolle: Produktionslinie filmen, KI erkennt Abweichungen und dokumentiert sie.
- Facility Management: Gebäude-Rundgang filmen, KI erstellt eine Liste aller sichtbaren Mängel oder Wartungspunkte.
Fazit: KI ist kreativer als man denkt
Wenn man KI-Agenten die richtigen Werkzeuge gibt und ihnen Freiraum lässt, finden sie oft überraschend kreative Lösungen. Das Experiment zeigt: Die Grenze liegt nicht bei der KI – sondern bei unserer Vorstellung davon, was möglich ist.
Ob sich der Aufwand bei einer Speisekammer gelohnt hat? Wahrscheinlich nicht. Aber bei einem Lager mit 10.000 Artikeln sieht die Rechnung schon anders aus.
Du hast Prozesse, die von kreativer KI-Automatisierung profitieren könnten? Lass uns sprechen.
Transkript
[00:00] Versuche gerade Inventar zu führen bei uns in der Speisekammer und brauche natürlich eine Liste für das ganze Vorhaben. Und es würde aber natürlich nur halb so viel Spaß machen, wenn ich das nicht mit KI lösen würde. [00:10] Deswegen bin ich als erstes in Gemini reingegangen, habe das versucht. Das hat aber irgendwie nur semi funktioniert mit dem Video. Entweder das iPhone-Encoding hat nicht gepasst oder zu lang oder einfach keinen Bock gehabt an dem Tag. [00:22] Und deswegen bin ich wieder zurück zu meinem Working Buddy Claude Code gegangen. Und habe das Ganze versucht, das Video einfach in einen Ordner zu packen und habe gesagt: Ich brauche für das Inventar eine ganze Liste aller Lebensmittel. [00:33] Bitte analysiere das Video. Wenn du das Video wahrscheinlich nicht analysieren kannst, mach dir von jeder halben Sekunde einen Snapshot mit FFmpeg. Das ist so ein Tool, mit dem du Videos und Bilder verarbeiten kannst. [00:44] Und aus diesen Bildern machst du mir quasi diese Liste. Das heißt, Claude ist hergegangen, hat ungefähr 300 Bilder hier erstellt aus diesem ganzen Video. Das war glaube ich zwei, drei Minuten lang das ganze Ding. [00:55] Und hat die alle analysiert und nach ein paar Minuten hatte ich auch diese fertige Liste hier.