Short · 3 Min Lesezeit

KI-Experiment: Wie ich mit Claude und FFmpeg eine Video-Inventur gemacht habe

18. Januar 2026 KI · Experiment · Computer Vision · Automatisierung

Das Experiment: Inventar führen mit KI

Ein simples Problem: Ich wollte eine Inventarliste unserer Speisekammer erstellen. Eine Liste aller Lebensmittel. Klingt trivial – wäre aber nur halb so interessant, wenn man es nicht mit KI lösen würde.

Also habe ich ein Video durch die Speisekammer aufgenommen und der KI gesagt: Erstelle mir eine Liste aller Lebensmittel in diesem Video.

Gemini vs. Claude: Welches Tool schafft es?

Erster Versuch mit Gemini: Video hochgeladen, Aufgabe beschrieben. Ergebnis: Hat nur semi funktioniert. Entweder das iPhone-Video-Encoding hat nicht gepasst, das Video war zu lang, oder Gemini hatte einfach einen schlechten Tag. Jedenfalls kein brauchbares Ergebnis.

Zweiter Versuch mit Claude Code: Hier wird es interessant. Claude Code kann kein Video direkt analysieren – das weiß das Modell auch. Aber es kann Probleme kreativ lösen.

Die Anweisung: „Ich brauche eine Liste aller Lebensmittel. Analysiere das Video. Wenn du das Video nicht direkt analysieren kannst, mach dir von jeder halben Sekunde einen Snapshot mit FFmpeg.”

Wie die KI das Problem gelöst hat

Claude Code hat eigenständig folgende Schritte ausgeführt:

  1. FFmpeg installiert (falls nicht vorhanden)
  2. Ca. 300 Screenshots aus dem Video extrahiert – einen alle 0,5 Sekunden
  3. Jeden Screenshot analysiert und die sichtbaren Produkte identifiziert
  4. Eine konsolidierte Liste aller erkannten Lebensmittel erstellt

Nach wenigen Minuten hatte ich die fertige Inventarliste. Ohne eine einzige Zeile Code selbst zu schreiben.

Was zeigt dieses Experiment?

Dieses Experiment demonstriert drei wichtige Prinzipien:

  1. KI-Agenten lösen Probleme kreativ: Wenn der direkte Weg nicht funktioniert (Video-Analyse), findet der Agent einen alternativen Weg (Screenshots + Bildanalyse).
  2. Tool-Nutzung ist der Schlüssel: Das Sprachmodell allein kann kein Video analysieren. Aber in Kombination mit Werkzeugen wie FFmpeg wird aus einer Limitation eine Lösung.
  3. Delegation statt Micromanagement: Ich habe das Ziel beschrieben und einen Lösungshinweis gegeben. Den Rest hat die KI selbst erledigt.

Wo ist das im Unternehmensalltag relevant?

Das Prinzip „Video zu strukturierten Daten” hat viele praktische Anwendungen:

  • Lagerverwaltung: Rundgang durch das Lager filmen, KI erstellt automatisch eine Bestandsliste mit Mengenabschätzung.
  • Baustellen-Dokumentation: Video-Rundgang, KI identifiziert den Baufortschritt und erstellt einen Statusbericht.
  • Qualitätskontrolle: Produktionslinie filmen, KI erkennt Abweichungen und dokumentiert sie.
  • Facility Management: Gebäude-Rundgang filmen, KI erstellt eine Liste aller sichtbaren Mängel oder Wartungspunkte.

Fazit: KI ist kreativer als man denkt

Wenn man KI-Agenten die richtigen Werkzeuge gibt und ihnen Freiraum lässt, finden sie oft überraschend kreative Lösungen. Das Experiment zeigt: Die Grenze liegt nicht bei der KI – sondern bei unserer Vorstellung davon, was möglich ist.

Ob sich der Aufwand bei einer Speisekammer gelohnt hat? Wahrscheinlich nicht. Aber bei einem Lager mit 10.000 Artikeln sieht die Rechnung schon anders aus.

Transkript

[00:00] Versuche gerade Inventar zu führen bei uns in der Speisekammer und brauche natürlich eine Liste für das ganze Vorhaben. Und es würde aber natürlich nur halb so viel Spaß machen, wenn ich das nicht mit KI lösen würde. [00:10] Deswegen bin ich als erstes in Gemini reingegangen, habe das versucht. Das hat aber irgendwie nur semi funktioniert mit dem Video. Entweder das iPhone-Encoding hat nicht gepasst oder zu lang oder einfach keinen Bock gehabt an dem Tag. [00:22] Und deswegen bin ich wieder zurück zu meinem Working Buddy Claude Code gegangen. Und habe das Ganze versucht, das Video einfach in einen Ordner zu packen und habe gesagt: Ich brauche für das Inventar eine ganze Liste aller Lebensmittel. [00:33] Bitte analysiere das Video. Wenn du das Video wahrscheinlich nicht analysieren kannst, mach dir von jeder halben Sekunde einen Snapshot mit FFmpeg. Das ist so ein Tool, mit dem du Videos und Bilder verarbeiten kannst. [00:44] Und aus diesen Bildern machst du mir quasi diese Liste. Das heißt, Claude ist hergegangen, hat ungefähr 300 Bilder hier erstellt aus diesem ganzen Video. Das war glaube ich zwei, drei Minuten lang das ganze Ding. [00:55] Und hat die alle analysiert und nach ein paar Minuten hatte ich auch diese fertige Liste hier.

Transkript anzeigen +

Fragen offen?

Wenn ihr wissen wollt, was davon für euch relevant ist — wir klären das in 30 Minuten.

Gespräch buchen