Kontekstvinduet

En sprogmodels arbejdshukommelse

tokensopmærksomhedhukommelse

Overblik

Kontekstvinduet er den samlede mængde tekst — målt i tokens — som en sprogmodel kan se og ræsonnere over ad gangen. Alt uden for det er usynligt for modellen. Det fungerer som modellens arbejdshukommelse: samtalehistorik, dokumenter, værktøjsoutput og det aktuelle spørgsmål skal alle passe inden for denne grænse. Tidlige GPT-3 havde et 4.096-token vindue; moderne modeller som Claude 3.7 understøtter op til 200.000 tokens (~150.000 ord).

Nøglekoncepter

Tokenisering: tekst opdeles i underordnede stykker (~0,75 ord per token i gennemsnit for engelsk)
Positionsindkodning: hvert token modtager information om sin position i sekvensen
Self-attention over hele konteksten: hvert token opretholder opmærksomhed mod hvert andet token — dette er det, der gør større vinduer dyre (O(n²) hukommelse og beregning)
Kontekststopning: dokumenter, hentede chunks (RAG), værktøjsresultater og systemprompts sammenkædes i konteksten
Tabt-i-midten-problem: modeller præsterer dårligere på information placeret i midten af meget lange kontekster end i starten eller slutningen

Fakta

Et token ≈ 4 tegn ≈ 0,75 ord på engelsk; kode, tal og ikke-latinske skriftsystemer kan være langt mindre effektive
GPT-3 (2020): 4.096 tokens → GPT-4 Turbo (2024): 128.000 tokens → Claude 3.7 (2025): 200.000 tokens
Gemini 1.5 Pro demonstrerede et 1-million-token kontekstvindue, der passer hele kodebaser eller spillefilm
Konteksttilcaching (Anthropic, Google) gemmer behandlet kontekst server-sidigt til genbrug og reducerer omkostninger på gentagne prompts med op til 90%
Den kvadratiske skalering af opmærksomhed betyder, at fordobling af konteksten cirka firedobler den nødvendige beregning

Kontekstvinduet

Overblik

Nøglekoncepter

Fakta

Se også

Store Sprogmodeller

Transformers

RAG

Prompt Engineering