Transformers

Arkitekturen der ændrede AI

arkitekturopmærksomhedllm

Overblik

Transformer-arkitekturen, introduceret i "Attention is All You Need" (Vaswani et al., 2017), erstattede rekurrente netværk med en fuldt opmærksomhedsbaseret model. Ved at beregne relationer mellem alle tokens simultant (self-attention) skalerer Transformers massivt med data og beregningskraft, hvilket muliggør modeller som GPT, BERT og Claude.

Nøglekoncepter

Self-attention: beregner parvis token-relationer parallelt
Positionsindkodning: injicerer sekvensorden i token-indlejringer
Multi-head attention: opretholder opmærksomhed på flere informationsunderrum simultant
Feed-forward lag: ikke-lineær transformation af behandlede repræsentationer
Lagnormalisering og residuelle forbindelser for stabil træning

Fakta

Det originale paper foreslog arkitekturen til maskinoversættelse
BERT, GPT, T5 og Claude er alle afledt af Transformeren
Transformer-beregningsomkostning skalerer kvadratisk med sekvenslængde (O(n²))
Vision Transformers (ViT) udvidede arkitekturen til billedpatches

Transformers

Overblik

Nøglekoncepter

Fakta

Se også

RAG

Prompt Engineering

Agentiske Workflows

Neurale Netværk

Indlejringer

Store Sprogmodeller