DA EN
AI
AI

Kontekstvinduet

En sprogmodels arbejdshukommelse

tokensopmærksomhedhukommelse

Overblik

Kontekstvinduet er den samlede mængde tekst — målt i tokens — som en sprogmodel kan se og ræsonnere over ad gangen. Alt uden for det er usynligt for modellen. Det fungerer som modellens arbejdshukommelse: samtalehistorik, dokumenter, værktøjsoutput og det aktuelle spørgsmål skal alle passe inden for denne grænse. Tidlige GPT-3 havde et 4.096-token vindue; moderne modeller som Claude 3.7 understøtter op til 200.000 tokens (~150.000 ord).

Nøglekoncepter

  • Tokenisering: tekst opdeles i underordnede stykker (~0,75 ord per token i gennemsnit for engelsk)
  • Positionsindkodning: hvert token modtager information om sin position i sekvensen
  • Self-attention over hele konteksten: hvert token opretholder opmærksomhed mod hvert andet token — dette er det, der gør større vinduer dyre (O(n²) hukommelse og beregning)
  • Kontekststopning: dokumenter, hentede chunks (RAG), værktøjsresultater og systemprompts sammenkædes i konteksten
  • Tabt-i-midten-problem: modeller præsterer dårligere på information placeret i midten af meget lange kontekster end i starten eller slutningen

Fakta

  • Et token ≈ 4 tegn ≈ 0,75 ord på engelsk; kode, tal og ikke-latinske skriftsystemer kan være langt mindre effektive
  • GPT-3 (2020): 4.096 tokens → GPT-4 Turbo (2024): 128.000 tokens → Claude 3.7 (2025): 200.000 tokens
  • Gemini 1.5 Pro demonstrerede et 1-million-token kontekstvindue, der passer hele kodebaser eller spillefilm
  • Konteksttilcaching (Anthropic, Google) gemmer behandlet kontekst server-sidigt til genbrug og reducerer omkostninger på gentagne prompts med op til 90%
  • Den kvadratiske skalering af opmærksomhed betyder, at fordobling af konteksten cirka firedobler den nødvendige beregning