AI-Kontextfenster: Warum Größe zählt (und was es kostet)
Das Gedächtnis-Problem
Stell dir vor, du führst ein Gespräch mit jemandem, der sich nur an die letzten 5 Minuten erinnern kann. Du müsstest ständig Dinge wiederholen, Kontext liefern und Sachen neu erklären. So waren frühe Sprachmodelle im Grunde — ihr “Gedächtnis” war winzig.
Das Kontextfenster ist das Arbeitsgedächtnis eines AI-Modells. Es definiert, wie viel Text das Modell gleichzeitig “sehen” kann, einschließlich allem: System-Prompt, Gesprächsverlauf, eingefügte Dokumente und die eigene Antwort des Modells. Alles muss in dieses Fenster passen.
Das Kontextfenster-Rennen
In den letzten zwei Jahren sind Kontextfenster dramatisch gewachsen:
| Jahr | Modell | Kontextfenster |
|---|---|---|
| 2023 | GPT-3.5 | 4.096 Tokens |
| 2023 | GPT-4 | 8.192 Tokens |
| 2023 | Claude 2 | 100.000 Tokens |
| 2024 | GPT-4 Turbo | 128.000 Tokens |
| 2024 | Gemini 1.5 Pro | 1.000.000 Tokens |
| 2025 | Claude Sonnet 4 | 200.000 Tokens |
| 2026 | Gemini 2.0 Pro | 2.000.000 Tokens |
Eine 500-fache Steigerung in nur drei Jahren. Das 2-Millionen-Token-Kontextfenster von Gemini 2.0 Pro fasst ungefähr 1,5 Millionen Wörter — das sind etwa 6.000 Seiten oder rund 20 Romane durchschnittlicher Länge.
Was große Kontextfenster ermöglichen
Gesamte Codebase-Analyse. Ein mittelgroßes Software-Projekt (50.000-100.000 Zeilen Code) passt bequem in ein 1M-Token-Kontextfenster. Das Modell kann über dateiübergreifende Abhängigkeiten nachdenken, Bugs finden, die sich über mehrere Module erstrecken, und die Gesamtarchitektur verstehen.
Verarbeitung langer Dokumente. Rechtsverträge, Forschungsarbeiten, Finanzberichte — statt Dokumente zu zerstückeln und dabei den Kontext zwischen den Stücken zu verlieren, kann man das gesamte Dokument auf einmal dem Modell übergeben.
Erweiterte Konversationen. Ein 200K-Kontextfenster fasst eine Konversation von ungefähr 150.000 Wörtern — das entspricht Tagen des kontinuierlichen Chattens, ohne dass das Modell frühere Teile des Gesprächs “vergisst”.
RAG-Alternativen. Mit ausreichend großen Kontextfenstern können manche Anwendungsfälle, die früher Retrieval-Augmented Generation (RAG) erforderten, jetzt einfach dadurch gelöst werden, dass man alle Daten ins Kontextfenster packt. Das ist einfacher zu bauen und oft genauer, wenn auch teurer.
Die Kosten des Kontexts
Hier kommt der Haken: Ein großes Kontextfenster zu füllen ist nicht kostenlos. Wenn man den gesamten Kontext als Input nutzt und eine Antwort von etwa 10 % der Kontextlänge generiert:
| Modell | Kontext | Input-Kosten | + 10 % Output | Gesamt |
|---|---|---|---|---|
| GPT-4o Mini | 128K | 0,02 $ | 0,008 $ | 0,03 $ |
| GPT-4o | 128K | 0,32 $ | 0,13 $ | 0,45 $ |
| Claude Sonnet 4 | 200K | 0,60 $ | 0,30 $ | 0,90 $ |
| Gemini 2.0 Flash | 1M | 0,10 $ | 0,04 $ | 0,14 $ |
| Gemini 2.0 Pro | 2M | 2,50 $ | 2,00 $ | 4,50 $ |
Ein einziger Call mit dem vollen Kontextfenster von Claude Opus 4 kostet 3,00 $ allein für den Input — plus 15,00 $ für einen langen Output. Bei Anwendungen mit vielen solcher Calls können die Kosten schnell eskalieren.
Kontextnutzung in der Praxis
Die meisten Anwendungen nutzen nicht das volle Kontextfenster. So wird der Kontext typischerweise verbraucht:
- System-Prompt: 200–2.000 Tokens (Anweisungen, Persona, Regeln)
- Few-Shot-Beispiele: 500–5.000 Tokens (wenn man Beispiele der gewünschten Ausgabe liefert)
- User-Input: 50–50.000 Tokens (eine Frage vs. ein ganzes Dokument)
- Gesprächsverlauf: 0–100.000+ Tokens (wächst mit jedem Turn)
- Modell-Antwort: 100–4.000 Tokens (die meisten Antworten)
Die wichtigste Erkenntnis: Der Gesprächsverlauf ist die größte Variable. In einer Chatbot-Anwendung füllt sich der Kontext über die Zeit. Sobald man das Limit erreicht, braucht man eine Strategie: alte Nachrichten kürzen, zusammenfassen oder ein neues Gespräch beginnen.
Optimierungsstrategien
Kontextnutzung überwachen. Wissen, welchen Prozentsatz des Kontextfensters man gerade nutzt. Nahe am Limit zu operieren kann dazu führen, dass das Modell seine Antwort kürzt oder wichtigen Kontext übersieht.
System-Prompt-Effizienz. Jeder Token im System-Prompt wird mit jedem API-Call gesendet. Ein 1.000-Token-System-Prompt über 10.000 tägliche Calls sind 10 Millionen Tokens pro Tag — etwa 25 $ zu GPT-4o-Preisen. Den System-Prompt knapp zu halten spart über die Zeit erhebliches Geld.
Sliding Window für Konversationen. Statt den gesamten Chatverlauf zu senden, ein Fenster fester Größe mit den letzten Nachrichten behalten. Zum Beispiel immer den System-Prompt + die letzten 10 Nachrichten einschließen. Alles Ältere in einen kurzen Kontext-Absatz zusammenfassen.
Probier es selbst aus
Willst du sehen, wie Kontextfenster über Modelle hinweg im Vergleich stehen? Unser Kontextfenster-Visualisierer zeigt einen Seite-an-Seite-Vergleich aller großen Modelle. Nutze den Kontext-Nutzungsrechner, um zu prüfen, wie viel vom Kontextfenster eines Modells du tatsächlich mit System-Prompt, Verlauf und erwarteter Antwort nutzt. Und der Kontext-Kostenrechner zeigt genau, was es kostet, das Kontextfenster jedes Modells zu füllen.
Fun Fact: Googles Gemini 2.0 Pro mit seinem 2-Millionen-Token-Kontextfenster könnte theoretisch den gesamten Text der ausgezeichneten Wikipedia-Artikel (etwa 1,5 Millionen Wörter) in einem einzigen API-Call verarbeiten. Bei 4,50 $ pro Call würde man das aber wohl nicht allzu oft machen wollen.