AI-API-Kosten erklärt: Was GPT, Claude & Gemini wirklich kosten

Die versteckte Sprache der AI-Preise

Wenn OpenAI, Anthropic oder Google ihre API-Preise veröffentlichen, verwenden sie eine Einheit, die den meisten Menschen noch nie begegnet ist: Dollar pro Million Tokens. Wenn man nicht im Bereich der natürlichen Sprachverarbeitung arbeitet, sagt diese Zahl erstmal wenig aus. Sind 2,50 $ pro Million Input-Tokens günstig? Sind 75 $ teuer? Und was ist überhaupt ein Token?

Das Verständnis von AI-Preisen wird immer wichtiger. Ob man einen Chatbot baut, Dokumentenverarbeitung automatisiert oder einfach mit AI-APIs experimentiert — die Kosten können von wenigen Cent bis zu Tausenden von Dollar pro Monat reichen, je nach getroffener Wahl.

Was ist ein Token?

Ein Token ist die grundlegende Einheit, mit der Sprachmodelle Text verarbeiten. Es ist kein Wort, kein Zeichen und keine Silbe — es liegt irgendwo dazwischen. Die meisten modernen Tokenizer (wie OpenAIs tiktoken oder Anthropics Tokenizer) zerlegen Text in Teilwort-Stücke.

Als Faustregel:

Englischer Text: 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter
Deutscher Text: 1 Token ≈ 3 Zeichen ≈ 0,6 Wörter (deutsche Wörter sind im Schnitt länger)
Code: variiert stark, aber typischerweise mehr Tokens pro “Wort” wegen Sonderzeichen

Das bedeutet: Ein 1.000-Wörter-Artikel auf Englisch verbraucht etwa 1.333 Tokens. Eine volle DIN-A4-Seite (ca. 250 Wörter) sind ungefähr 333 Tokens.

Wie AI-API-Preise funktionieren

Jeder große AI-Anbieter berechnet separat für Input-Tokens (was man an das Modell sendet) und Output-Tokens (was das Modell generiert). Output-Tokens sind immer teurer, weil sie mehr Rechenleistung erfordern — das Modell muss jeden Token sequentiell generieren, während Input-Tokens parallel verarbeitet werden.

Hier ein Überblick der aktuellen Preise (Stand Februar 2026):

Modell	Input ($/1M Tokens)	Output ($/1M Tokens)
GPT-4o	2,50 $	10,00 $
GPT-4o Mini	0,15 $	0,60 $
Claude Sonnet 4	3,00 $	15,00 $
Claude Haiku 3.5	0,80 $	4,00 $
Gemini 2.0 Flash	0,10 $	0,40 $

Der Preisunterschied zwischen dem günstigsten und teuersten Modell beträgt über das 100-fache. Die Wahl des richtigen Modells für den eigenen Anwendungsfall ist die wirkungsvollste Kostenoptimierung.

Die realen Kosten eines Chatbots

Machen wir es konkret. Stell dir vor, du betreibst einen Kundenservice-Chatbot, der 500 Gespräche pro Tag führt. Jedes Gespräch umfasst durchschnittlich 2.000 Tokens (Input + Output, ungefähr 60/40 aufgeteilt).

Mit GPT-4o:

Tägliche Tokens: 500 × 2.000 = 1.000.000 Tokens
Tägliche Kosten: ~5,50 $
Monatliche Kosten: ~165 $

Mit GPT-4o Mini:

Gleiches Volumen
Tägliche Kosten: ~0,33 $
Monatliche Kosten: ~10 $

Mit Gemini 2.0 Flash:

Tägliche Kosten: ~0,22 $
Monatliche Kosten: ~6,60 $

Der Unterschied ist enorm. Für viele Chatbot-Anwendungen liefern die günstigeren Modelle ausreichend gute Ergebnisse. Der Schlüssel liegt darin, zu testen, ob die Qualität den Anforderungen genügt, bevor man sich für ein Premium-Modell entscheidet.

Versteckte Kostentreiber

Mehrere Faktoren können die AI-Kosten über die einfache Token-Abrechnung hinaus aufblähen:

System-Prompts verbrauchen Tokens im Verborgenen. Jeder API-Call enthält den System-Prompt. Bei 500 Tokens System-Prompt und 10.000 Calls pro Tag sind das 5 Millionen Tokens täglich — nur für Anweisungen, bevor ein einziger User etwas geschrieben hat.

Gesprächsverläufe wachsen schnell. In Mehrfach-Konversationen sendet man typischerweise den gesamten Verlauf mit jeder neuen Nachricht. Ein 10-Nachrichten-Gespräch sendet die erste Nachricht 10 Mal, die zweite 9 Mal und so weiter. Dieses quadratische Wachstum ist die Hauptursache für unerwartet hohe Rechnungen.

Wiederholungen und Fehlerbehandlung. Fehlgeschlagene Anfragen, die wiederholt werden, zählen trotzdem. Rate-Limiting, das Wiederholungen auslöst, verdoppelt die Kosten für diese Anfragen.

Strategien zur Kostenreduktion

Das richtige Modell wählen. Das günstigste Modell nutzen, das die Qualitätsanforderungen erfüllt. Viele Aufgaben (Zusammenfassung, Klassifizierung, Extraktion) funktionieren hervorragend mit kleineren Modellen.

Gesprächsverlauf kürzen. Statt den gesamten Verlauf zu senden, nur die letzten N Nachrichten behalten oder ältere Nachrichten in einen komprimierten System-Prompt zusammenfassen.

Wiederkehrende Anfragen cachen. Wenn viele Nutzer ähnliche Fragen stellen, die Antworten cachen. Selbst ein einfacher Hash-basierter Cache kann API-Calls dramatisch reduzieren.

Batch-APIs nutzen. Die meisten Anbieter bieten Batch-Verarbeitung mit 50 % Rabatt an. Wenn der Anwendungsfall höhere Latenz toleriert (Stunden statt Sekunden), ist Batch-Verarbeitung deutlich günstiger.

Probier es selbst aus

Neugierig, was dein AI-Projekt kosten wird? Nutze unseren API-Kostenrechner, um ein Modell zu wählen und sofort zu sehen, was dein Token-Verbrauch kostet. Für Chatbot-spezifische Schätzungen probiere den Chatbot-Kostenrechner — gib dein erwartetes Gesprächsvolumen ein und erhalte tägliche, monatliche und jährliche Projektionen.

Alle Modelle nebeneinander vergleichen? Die Modell-Preisvergleich-Tabelle lässt dich nach Input-Preis, Output-Preis oder Kontextfenster sortieren.

Fun Fact: Das Training von GPT-4 hat schätzungsweise über 100 Millionen Dollar gekostet. Ein einzelner API-Call an GPT-4o Mini kostet aber nur etwa 0,0003 $ — ungefähr der Preis eines Reiskorns. Die Ökonomie der AI ist seltsam: astronomische Fixkosten, nahezu null Grenzkosten.