Store Sprogmodeller

Forudsigelse af næste token — i civilisationsskala

llmgptskalering

Overblik

En stor sprogmodel (LLM) er et neuralt netværk — næsten altid en Transformer — trænet på hundredvis af milliarder tokens tekst til at forudsige næste token i en sekvens. Dette bedragerisk enkle mål producerer modeller, der kan ræsonnere, kode, oversætte, opsummere og konversere. Skala er den afgørende faktor: flere parametre + mere data + mere beregning giver pålideligt bedre emergente evner.

Nøglekoncepter

Forhåndstræning: modellen forudsiger næste token på tværs af et massivt webkorpus og lærer grammatik, fakta og ræsonnementsmønstre
Tokenisering: tekst opdeles i underordnede enheder (BPE, SentencePiece); GPT-4 bruger ~100.000-token vokabular
Autoregressive generering: modellen genererer output ét token ad gangen ved at sample fra en sandsynlighedsfordeling
Temperatur og top-p sampling: styrer tilfældighed — lav temperatur = deterministisk, høj = kreativ
Instruktionstilpasning (SFT): finjustering på kurerede prompt–svar-par lærer modellen at følge instruktioner

Fakta

Skaleringslovene (Hoffmann et al., "Chinchilla", 2022) viser, at optimal træning kræver ~20 tokens per parameter
GPT-4 har anslåede 1,8 billioner parametre på tværs af en mixture-of-experts-arkitektur
Emergente evner — evner der dukker pludseligt op ved skala — inkluderer flertringet aritmetik, kæde-af-tanke-ræsonnement og kodegenerering
Llama 3 (Meta, 2024) demonstrerede, at open-weight-modeller matcher lukkede proprietære modeller på mange benchmarks
Energiomkostninger: træning af GPT-3 forbrugte anslået 1.287 MWh — omtrent det årlige elforbrug for 120 amerikanske hjem

Store Sprogmodeller

Overblik

Nøglekoncepter

Fakta

Se også

Transformers

Neurale Netværk

Indlejringer

Finjustering

RLHF

Kontekstvinduet

Hallucination