AI
Kontekstvinduet
En sprogmodels arbejdshukommelse
Overblik
Kontekstvinduet er den samlede mængde tekst — målt i tokens — som en sprogmodel kan se og ræsonnere over ad gangen. Alt uden for det er usynligt for modellen. Det fungerer som modellens arbejdshukommelse: samtalehistorik, dokumenter, værktøjsoutput og det aktuelle spørgsmål skal alle passe inden for denne grænse. Tidlige GPT-3 havde et 4.096-token vindue; moderne modeller som Claude 3.7 understøtter op til 200.000 tokens (~150.000 ord).
Nøglekoncepter
- Tokenisering: tekst opdeles i underordnede stykker (~0,75 ord per token i gennemsnit for engelsk)
- Positionsindkodning: hvert token modtager information om sin position i sekvensen
- Self-attention over hele konteksten: hvert token opretholder opmærksomhed mod hvert andet token — dette er det, der gør større vinduer dyre (O(n²) hukommelse og beregning)
- Kontekststopning: dokumenter, hentede chunks (RAG), værktøjsresultater og systemprompts sammenkædes i konteksten
- Tabt-i-midten-problem: modeller præsterer dårligere på information placeret i midten af meget lange kontekster end i starten eller slutningen
Fakta
- Et token ≈ 4 tegn ≈ 0,75 ord på engelsk; kode, tal og ikke-latinske skriftsystemer kan være langt mindre effektive
- GPT-3 (2020): 4.096 tokens → GPT-4 Turbo (2024): 128.000 tokens → Claude 3.7 (2025): 200.000 tokens
- Gemini 1.5 Pro demonstrerede et 1-million-token kontekstvindue, der passer hele kodebaser eller spillefilm
- Konteksttilcaching (Anthropic, Google) gemmer behandlet kontekst server-sidigt til genbrug og reducerer omkostninger på gentagne prompts med op til 90%
- Den kvadratiske skalering af opmærksomhed betyder, at fordobling af konteksten cirka firedobler den nødvendige beregning