GuideEinsteigerVision

Vision: Bilder, Screenshots & Dokumente verstehen

Claude sieht, was du ihm zeigst – Screenshots, Diagramme, Fotos, gescannte Dokumente. Wie du Bilder richtig fütterst und was Vision zuverlässig kann (und was nicht).

Stable Aktualisiert: Mai 2026 Plattform: Chat / Desktop / API Plan: Free / Pro / Max / Team / API
Für wen
Alle, die Screenshots, Diagramme, Fotos oder gescannte Dokumente von Claude auswerten lassen wollen.
Wann nutzen
Wenn die Information in einem Bild steckt – Fehlermeldung als Screenshot, Diagramm im PDF, Tabelle im Foto, handschriftliche Notiz.
Wann nicht
Für pixelgenaue Messungen, sehr kleine/unscharfe Schrift oder wenn der Text ohnehin schon als kopierbarer Text vorliegt.

Claude kann Bilder direkt lesen und verstehen – ohne separates OCR-Tool, ohne Vorverarbeitung. Du lädst ein Bild hoch, stellst eine Frage dazu, und Claude analysiert beides zusammen: den visuellen Inhalt und deinen Text im selben Zug. Diese Fähigkeit heißt Vision und ist in allen aktuellen Claude-Modellen (Haiku 4.5, Sonnet 4.6, Opus 4.8) enthalten.

Für wen ist das?

Für alle, die Informationen aus Bildern extrahieren wollen: der Screenshot einer Fehlermeldung, die Tabelle aus einem eingescannten Bericht, das Balkendiagramm aus einer Präsentation, die handschriftliche Notiz vom Meeting-Whiteboard. Überall dort, wo die Information visuell vorliegt, ist Vision der direkteste Weg.

Was lernst du?

  • Wie du Bilder in Claude Chat und über die API übergibst
  • Für welche Aufgaben Vision besonders stark ist
  • Was Vision nicht zuverlässig kann – und wann du den Text lieber direkt einfügst
  • Wie du Prompts formulierst, die Vision optimal ausnutzen

Wann nutzen?

  • Screenshot einer Fehlermeldung: Du hast keinen Zugriff auf den Log-Text, aber einen Screenshot – Claude liest ihn direkt
  • Diagramm oder Chart: Daten aus einem Balken- oder Liniendiagramm extrahieren, ohne die Rohdaten zur Hand zu haben
  • Gescanntes Dokument oder Foto: Eine eingescannte Tabelle, ein Foto einer Quittung, ein Handzettel mit Stichpunkten
  • Mehrere Bilder vergleichen: Zwei UI-Screenshots nebeneinander auf Unterschiede prüfen, zwei Versionen eines Layouts vergleichen

Wann nicht?

  • Wenn der Text in der Datei bereits als kopierbarer Text vorliegt: Füge den Text direkt in die Nachricht ein – das ist schneller, günstiger und genauer als das Bild hochzuladen
  • Wenn du pixelgenaue Maße oder exakte Positionen brauchst: Claude schätzt Abstände und Größen visuell, misst sie nicht
  • Wenn die Schrift sehr klein oder das Bild unscharf ist: Unter einer bestimmten Auflösung gehen Details verloren

Bild-Upload: So geht es

1

Im Chat: Drag & Drop oder Büroklammer

Öffne eine neue Conversation auf claude.ai. Ziehe das Bild direkt in das Texteingabefeld (Drag & Drop) oder klicke auf das Büroklammer-Symbol, um eine Datei auszuwählen. Unterstützte Formate: JPEG, PNG, GIF, WebP.

Tipp Du kannst mehrere Bilder in einer einzigen Nachricht hochladen. Claude bekommt alle Bilder zusammen mit deinem Text und kann sie gemeinsam auswerten – ideal für Vergleiche.
2

Konkrete Frage stellen

Schreibe direkt nach dem Upload deine Frage. Sei so spezifisch wie möglich: Statt 'Was ist das?' frage 'Extrahiere alle Zeilen aus dieser Tabelle als Markdown, mit den Spalten Datum, Betrag und Kategorie.'

Tipp Vision reagiert sehr gut auf strukturierte Aufgaben: Extrahieren, Zusammenfassen, Vergleichen, Fehler beschreiben. Je klarer das gewünschte Ausgabeformat, desto besser das Ergebnis.
3

Über die API: Image Content Block

In der Anthropic-API übergibst du Bilder als Content-Blöcke neben deinen Text-Blöcken in derselben Nachricht. Du kannst das Bild entweder als Base64-kodierte Binärdaten oder als URL angeben. Mehrere Bilder sind möglich: Füge einfach mehrere Image-Blöcke in das content-Array ein – Claude verarbeitet sie gemeinsam mit dem Text-Block.

Tipp Sehr große Bilder werden vom Modell automatisch herunterskaliert, bevor sie verarbeitet werden. Das spart Token, kann aber bei sehr detailreichen Bildern (z. B. enggedruckte Tabellen) dazu führen, dass Details verloren gehen. Optimale Größe: 1000–2000 px auf der längsten Seite.

Was Vision gut kann

Fehlermeldungen und UI-Screenshots

Du hast eine Fehlermeldung als Screenshot und willst wissen, was sie bedeutet und wie du sie behebst? Vision liest den Text im Bild zuverlässig, versteht den Kontext (z. B. ein Terminal, eine IDE, ein Browserfenster) und gibt dir eine direkte Erklärung. Das funktioniert auch bei mehrsprachigen Fehlertexten.

Diagramme und Charts lesen

Balkendiagramme, Liniendiagramme, Tortendiagramme, Flussdiagramme – Claude kann die darin enthaltene Information beschreiben, Trends benennen, Werte abschätzen und die Kernaussage des Diagramms formulieren. Wichtig: Die Werte sind Schätzungen aus dem Bild, keine exakten Messwerte aus einer Rohdatendatei.

Dokumente und Tabellen extrahieren

Aus einem Foto einer Quittung, einem Scan einer Rechnung oder einem Screenshot einer Tabelle kann Claude die Zeilen und Spalten auslesen und als Markdown-Tabelle, als CSV oder in einem anderen strukturierten Format ausgeben. Das spart den Umweg über ein separates OCR-Tool für viele Alltagsaufgaben.

Mehrere Bilder vergleichen

Schicke zwei oder mehr Bilder in einer Nachricht – Claude kann sie direkt miteinander vergleichen. Welche Unterschiede gibt es zwischen Version A und Version B dieses UI-Screens? Welches der drei Logos passt besser zur Markenidentität? Was hat sich zwischen diesen zwei Diagrammen verändert?

Gut vs. Schlecht
Was ist das?
Extrahiere die Tabelle aus diesem Screenshot als Markdown. Spalten: Datum, Betrag (in Euro), Kategorie. Fehlende Werte mit – kennzeichnen.

Der schwache Prompt lässt Claude raten, was gefragt ist. Der starke Prompt nennt die gewünschte Aktion, das Ausgabeformat und den Umgang mit Lücken – Claude kann sofort liefern, ohne Rückfragen.

Limits und Best Practices

Verstehen Was Vision nicht kann – und worauf du achten solltest

Auflösung entscheidet. Zu kleine oder unscharfe Bilder führen dazu, dass Details verloren gehen. Wenn dein Screenshot zu viel auf einmal zeigt und einzelne Zeichen sehr klein sind, schneide den relevanten Bereich aus und lade nur diesen hoch.

Bilder kosten Token. Ein Bild ist kein kostenloses Anhängsel – es verbraucht Token proportional zu seiner Größe. Sehr große Bilder können einen erheblichen Teil des Context Windows belegen. Wenn du den Text ohnehin kopieren kannst, ist das fast immer die bessere Wahl.

Keine pixelgenauen Messungen. Claude schätzt Positionen, Abstände und Größen aus dem Bild – er misst sie nicht. Für Layout-Checks ist das oft gut genug; für technische Präzisionsanforderungen nicht.

Sehr kleine Schrift ist unzuverlässig. Fußnoten, Wasserzeichen, Mini-Labels in Diagrammen – wenn die Schrift unter einer bestimmten Größe liegt, kann Claude Zeichen falsch lesen oder übersehen. Vergrößere den Ausschnitt oder lies den Text selbst.

Handschrift funktioniert oft – aber nicht immer. Klare Blockschrift liest Claude gut. Schlampige Handschrift oder stark stilisierte Schriften können zu Fehlern führen. Überprüfe das Ergebnis bei kritischen Inhalten.

Quick Check

In welchem Fall ist Vision NICHT das richtige Werkzeug?

HINWEIS

Stand Mai 2026: Vision ist in allen aktuellen Modellen verfügbar – Haiku 4.5, Sonnet 4.6 und Opus 4.8. Die unterstützten Bildformate sind JPEG, PNG, GIF und WebP. Sehr große Bilder werden automatisch herunterskaliert. Für die meisten Alltagsaufgaben (Screenshot-Analyse, Tabellen, Diagramme) liefert Sonnet 4.6 ausgezeichnete Ergebnisse; für besonders detailreiche Dokumente oder komplexe Diagrammanalysen lohnt sich Opus 4.8.

Typische Fehler

  • Zu vage fragen: „Was siehst du?” gibt Claude keinen Auftrag. Beschreibe die gewünschte Aktion und das Ausgabeformat.
  • Das ganze Bild hochladen, obwohl nur ein Ausschnitt relevant ist: Je kleiner und fokussierter das Bild, desto besser die Detailerkennung.
  • Bild statt Text hochladen: Wenn du die Datei als PDF oder Dokument mit kopierbarem Text hast, ist Copy-paste immer besser als ein Foto oder Screenshot davon.
  • Exakte Zahlenwerte aus Diagrammen erwarten: Claude schätzt aus dem Bild – für genaue Daten brauchst du die Rohdaten.
  • Vision für sehr kleine oder stark komprimierte Bilder nutzen: JPEG-Artefakte und geringe Auflösung reduzieren die Erkennungsqualität deutlich.

Nächster Schritt

Du weißt jetzt, was Vision kann und wo die Grenzen liegen. Wenn du tiefer in die Arbeit mit Prompts einsteigen willst – für Bilder und Text gleichermaßen – ist Prompt Engineering der nächste Guide: dort lernst du, wie du Aufgaben so formulierst, dass Claude beim ersten Versuch liefert.

Lerncoach regelbasiert
Sofort-Hilfe aus dem Inhalt dieser Seite.
War das hilfreich?
Guide abgeschlossen
Damit kannst du jetzt: Bilder mit ausreichender Auflösung hochladen, eine konkrete Frage stellen statt einfach nur "beschreibe das" – Vision für Struktur- und Inhaltsextraktion nutzen, aber nicht für exakte Messungen oder winzige Schrift.
Alle Guides Zur Übersicht →
Lernstatus 25 von 25 Guides
Neu → In Arbeit → Verstanden → Praxis

Gelesen?
Dann anwenden.

Wissen testen, Entscheidungen trainieren oder den nächsten Guide starten.

Esc

Wonach suchst du?

Begriffe wie MCP, Prompt, Desktop oder Haiku probieren.