Claude sieht, was du ihm zeigst – Screenshots, Diagramme, Fotos, gescannte Dokumente. Wie du Bilder richtig fütterst und was Vision zuverlässig kann (und was nicht).
Claude kann Bilder direkt lesen und verstehen – ohne separates OCR-Tool, ohne Vorverarbeitung. Du lädst ein Bild hoch, stellst eine Frage dazu, und Claude analysiert beides zusammen: den visuellen Inhalt und deinen Text im selben Zug. Diese Fähigkeit heißt Vision und ist in allen aktuellen Claude-Modellen (Haiku 4.5, Sonnet 4.6, Opus 4.8) enthalten.
Für alle, die Informationen aus Bildern extrahieren wollen: der Screenshot einer Fehlermeldung, die Tabelle aus einem eingescannten Bericht, das Balkendiagramm aus einer Präsentation, die handschriftliche Notiz vom Meeting-Whiteboard. Überall dort, wo die Information visuell vorliegt, ist Vision der direkteste Weg.
Öffne eine neue Conversation auf claude.ai. Ziehe das Bild direkt in das Texteingabefeld (Drag & Drop) oder klicke auf das Büroklammer-Symbol, um eine Datei auszuwählen. Unterstützte Formate: JPEG, PNG, GIF, WebP.
Schreibe direkt nach dem Upload deine Frage. Sei so spezifisch wie möglich: Statt 'Was ist das?' frage 'Extrahiere alle Zeilen aus dieser Tabelle als Markdown, mit den Spalten Datum, Betrag und Kategorie.'
In der Anthropic-API übergibst du Bilder als Content-Blöcke neben deinen Text-Blöcken in derselben Nachricht. Du kannst das Bild entweder als Base64-kodierte Binärdaten oder als URL angeben. Mehrere Bilder sind möglich: Füge einfach mehrere Image-Blöcke in das content-Array ein – Claude verarbeitet sie gemeinsam mit dem Text-Block.
Du hast eine Fehlermeldung als Screenshot und willst wissen, was sie bedeutet und wie du sie behebst? Vision liest den Text im Bild zuverlässig, versteht den Kontext (z. B. ein Terminal, eine IDE, ein Browserfenster) und gibt dir eine direkte Erklärung. Das funktioniert auch bei mehrsprachigen Fehlertexten.
Balkendiagramme, Liniendiagramme, Tortendiagramme, Flussdiagramme – Claude kann die darin enthaltene Information beschreiben, Trends benennen, Werte abschätzen und die Kernaussage des Diagramms formulieren. Wichtig: Die Werte sind Schätzungen aus dem Bild, keine exakten Messwerte aus einer Rohdatendatei.
Aus einem Foto einer Quittung, einem Scan einer Rechnung oder einem Screenshot einer Tabelle kann Claude die Zeilen und Spalten auslesen und als Markdown-Tabelle, als CSV oder in einem anderen strukturierten Format ausgeben. Das spart den Umweg über ein separates OCR-Tool für viele Alltagsaufgaben.
Schicke zwei oder mehr Bilder in einer Nachricht – Claude kann sie direkt miteinander vergleichen. Welche Unterschiede gibt es zwischen Version A und Version B dieses UI-Screens? Welches der drei Logos passt besser zur Markenidentität? Was hat sich zwischen diesen zwei Diagrammen verändert?
Der schwache Prompt lässt Claude raten, was gefragt ist. Der starke Prompt nennt die gewünschte Aktion, das Ausgabeformat und den Umgang mit Lücken – Claude kann sofort liefern, ohne Rückfragen.
Auflösung entscheidet. Zu kleine oder unscharfe Bilder führen dazu, dass Details verloren gehen. Wenn dein Screenshot zu viel auf einmal zeigt und einzelne Zeichen sehr klein sind, schneide den relevanten Bereich aus und lade nur diesen hoch.
Bilder kosten Token. Ein Bild ist kein kostenloses Anhängsel – es verbraucht Token proportional zu seiner Größe. Sehr große Bilder können einen erheblichen Teil des Context Windows belegen. Wenn du den Text ohnehin kopieren kannst, ist das fast immer die bessere Wahl.
Keine pixelgenauen Messungen. Claude schätzt Positionen, Abstände und Größen aus dem Bild – er misst sie nicht. Für Layout-Checks ist das oft gut genug; für technische Präzisionsanforderungen nicht.
Sehr kleine Schrift ist unzuverlässig. Fußnoten, Wasserzeichen, Mini-Labels in Diagrammen – wenn die Schrift unter einer bestimmten Größe liegt, kann Claude Zeichen falsch lesen oder übersehen. Vergrößere den Ausschnitt oder lies den Text selbst.
Handschrift funktioniert oft – aber nicht immer. Klare Blockschrift liest Claude gut. Schlampige Handschrift oder stark stilisierte Schriften können zu Fehlern führen. Überprüfe das Ergebnis bei kritischen Inhalten.
In welchem Fall ist Vision NICHT das richtige Werkzeug?
Stand Mai 2026: Vision ist in allen aktuellen Modellen verfügbar – Haiku 4.5, Sonnet 4.6 und Opus 4.8. Die unterstützten Bildformate sind JPEG, PNG, GIF und WebP. Sehr große Bilder werden automatisch herunterskaliert. Für die meisten Alltagsaufgaben (Screenshot-Analyse, Tabellen, Diagramme) liefert Sonnet 4.6 ausgezeichnete Ergebnisse; für besonders detailreiche Dokumente oder komplexe Diagrammanalysen lohnt sich Opus 4.8.
Du weißt jetzt, was Vision kann und wo die Grenzen liegen. Wenn du tiefer in die Arbeit mit Prompts einsteigen willst – für Bilder und Text gleichermaßen – ist Prompt Engineering der nächste Guide: dort lernst du, wie du Aufgaben so formulierst, dass Claude beim ersten Versuch liefert.
Wissen testen, Entscheidungen trainieren oder den nächsten Guide starten.