DA EN
AI
AI

Store Sprogmodeller

Forudsigelse af næste token — i civilisationsskala

llmgptskalering

Overblik

En stor sprogmodel (LLM) er et neuralt netværk — næsten altid en Transformer — trænet på hundredvis af milliarder tokens tekst til at forudsige næste token i en sekvens. Dette bedragerisk enkle mål producerer modeller, der kan ræsonnere, kode, oversætte, opsummere og konversere. Skala er den afgørende faktor: flere parametre + mere data + mere beregning giver pålideligt bedre emergente evner.

Nøglekoncepter

  • Forhåndstræning: modellen forudsiger næste token på tværs af et massivt webkorpus og lærer grammatik, fakta og ræsonnementsmønstre
  • Tokenisering: tekst opdeles i underordnede enheder (BPE, SentencePiece); GPT-4 bruger ~100.000-token vokabular
  • Autoregressive generering: modellen genererer output ét token ad gangen ved at sample fra en sandsynlighedsfordeling
  • Temperatur og top-p sampling: styrer tilfældighed — lav temperatur = deterministisk, høj = kreativ
  • Instruktionstilpasning (SFT): finjustering på kurerede prompt–svar-par lærer modellen at følge instruktioner

Fakta

  • Skaleringslovene (Hoffmann et al., "Chinchilla", 2022) viser, at optimal træning kræver ~20 tokens per parameter
  • GPT-4 har anslåede 1,8 billioner parametre på tværs af en mixture-of-experts-arkitektur
  • Emergente evner — evner der dukker pludseligt op ved skala — inkluderer flertringet aritmetik, kæde-af-tanke-ræsonnement og kodegenerering
  • Llama 3 (Meta, 2024) demonstrerede, at open-weight-modeller matcher lukkede proprietære modeller på mange benchmarks
  • Energiomkostninger: træning af GPT-3 forbrugte anslået 1.287 MWh — omtrent det årlige elforbrug for 120 amerikanske hjem