AI-Tokens erklärt: Die Währung großer Sprachmodelle

Die Bausteine der AI-Sprache

Wenn man eine Nachricht an ChatGPT, Claude oder Gemini tippt, erreicht der Text das Modell nicht als Wörter oder Zeichen. Er wird in Tokens zerlegt — kleine Stücke, die das Modell verarbeiten kann. Das Verständnis von Tokens ist essenziell, wenn man Kosten vorhersagen, Prompts optimieren oder verstehen will, warum Modelle sich an bestimmten Zeichengrenzen manchmal seltsam verhalten.

Tokenisierung ist einer jener Hintergrund-Mechanismen, die einen überproportionalen Einfluss darauf haben, wie AI funktioniert, was sie kostet und was sie kann.

Wie Tokenisierung funktioniert

Moderne Sprachmodelle verwenden Subword-Tokenisierung, meist eine Methode namens Byte Pair Encoding (BPE). Die Grundidee ist elegant: Man startet mit einzelnen Zeichen und verschmilzt dann iterativ die häufigsten Paare benachbarter Tokens, bis man eine gewünschte Vokabulargröße erreicht.

Das Ergebnis ist ein Vokabular von etwa 50.000 bis 100.000 Tokens, das Folgendes umfasst:

Häufige Wörter als einzelne Tokens: “the”, “and”, “hello”
Häufige Wortteile: “ing”, “tion”, “un”
Einzelne Zeichen für seltene Kombinationen
Spezial-Tokens für Zahlen, Satzzeichen und Leerzeichen

Zum Beispiel wird das Wort “tokenization” möglicherweise aufgeteilt in: ["token", "ization"] — zwei Tokens. Das Wort “the” ist ein einzelner Token. Aber ein seltenes Wort wie “Grundstücksverkehrsgenehmigungszuständigkeitsübertragungsverordnung” würde in viele kleine Tokens zerlegt.

Warum Sprachen nicht gleich sind

Tokenisierung wurde ursprünglich für englischen Text optimiert. Das hat Konsequenzen:

Englisch ist die am effizientesten tokenisierte Sprache. Ein Token deckt etwa 4 Zeichen oder 0,75 Wörter ab.

Deutsch ist weniger effizient wegen zusammengesetzter Wörter und längerer durchschnittlicher Wortlänge. Ein Token deckt etwa 3 Zeichen oder 0,6 Wörter ab. Das Wort “Donaudampfschifffahrtsgesellschaftskapitän” benötigt möglicherweise 8-10 Tokens, während das englische Äquivalent “Danube steamship company captain” nur etwa 5 braucht.

Chinesisch, Japanisch, Koreanisch können in manchen Tokenizern noch weniger effizient sein, wobei einzelne Zeichen manchmal mehrere Tokens erfordern.

Das bedeutet: Derselbe Inhalt auf Deutsch kostet ungefähr 30 % mehr an Tokens als das englische Äquivalent — ein erheblicher Faktor für mehrsprachige Anwendungen.

Tokens und Kontextfenster

Jedes AI-Modell hat ein Kontextfenster — die maximale Anzahl an Tokens, die es gleichzeitig verarbeiten kann (Input + Output zusammen). Das ist das “Arbeitsgedächtnis” des Modells.

Modell	Kontextfenster
GPT-4o	128.000 Tokens
Claude Sonnet 4	200.000 Tokens
Gemini 2.0 Flash	1.000.000 Tokens
Gemini 2.0 Pro	2.000.000 Tokens

Um das in Perspektive zu setzen:

128K Tokens ≈ 96.000 Wörter ≈ ein 384-seitiges Buch
1M Tokens ≈ 750.000 Wörter ≈ die gesamte Herr-der-Ringe-Trilogie plus Der Hobbit
2M Tokens ≈ 1,5 Millionen Wörter ≈ ungefähr die komplette Harry-Potter-Reihe zweimal

Diese großen Kontextfenster ermöglichen neue Anwendungsfälle wie die Verarbeitung ganzer Codebasen, die Analyse umfangreicher Rechtsdokumente oder extrem lange Konversationen.

Die Kostenauswirkungen

Da AI-APIs pro Token abrechnen, übersetzt sich das Verständnis von Token-Zahlen direkt in Kostenverständnis. Hier einige gängige Referenzpunkte:

Inhalt	Ungefähre Tokens
Ein Tweet (280 Zeichen)	~70
Eine E-Mail (200 Wörter)	~267
Eine DIN-A4-Seite (250 Wörter)	~333
Ein Blogbeitrag (1.000 Wörter)	~1.333
Ein kurzes Buch (50.000 Wörter)	~66.667

Beim GPT-4o-Preis (2,50 $/M Input) kostet die Verarbeitung eines ganzen Buches als Input etwa 0,17 $. Bei Gemini 2.0 Flash (0,10 $/M Input) kostet dasselbe Buch 0,007 $ — weniger als ein Cent.

Praktische Token-Schätzung

Man braucht keinen exakten Tokenizer, um Kosten zu schätzen. Für schnelle Berechnungen:

Wörter zählen im Text
Mit 1,33 multiplizieren für Englisch (oder 1,67 für Deutsch) um ungefähre Tokens zu erhalten
Mit dem Preis pro Token multiplizieren für die Kosten

Beispiel: Ein 500-Wörter-System-Prompt auf Englisch ≈ 665 Tokens. Wenn er mit jedem API-Call gesendet wird und man 1.000 Calls pro Tag macht, sind das 665.000 Tokens pro Tag allein für den System-Prompt.

Probier es selbst aus

Willst du sehen, wie viele Tokens dein Text verbraucht? Füge ihn in unseren Text-zu-Token-Schätzer ein für eine sofortige Zählung. Zwischen Tokens, Wörtern und Zeichen umrechnen? Der Token-Wort-Umrechner rechnet bidirektional um. Und um zu visualisieren, was deine Token-Zahl in der realen Welt bedeutet, probiere den Token-Seiten-Umrechner — sieh deine Tokens als DIN-A4-Seiten, Bücher oder Tweets.

Fun Fact: Der von GPT-4 verwendete Tokenizer behandelt das Leerzeichen vor einem Wort als Teil des Tokens. ” hello” (mit führendem Leerzeichen) ist also ein einzelner Token, aber “hello” am Textanfang ist ein anderer Token. Deshalb produzieren AI-Modelle gelegentlich unerwartete Leerzeichen — sie operieren im Token-Raum, nicht im Zeichen-Raum.