AI
Transformers
Arkitekturen der ændrede AI
Overblik
Transformer-arkitekturen, introduceret i "Attention is All You Need" (Vaswani et al., 2017), erstattede rekurrente netværk med en fuldt opmærksomhedsbaseret model. Ved at beregne relationer mellem alle tokens simultant (self-attention) skalerer Transformers massivt med data og beregningskraft, hvilket muliggør modeller som GPT, BERT og Claude.
Nøglekoncepter
- Self-attention: beregner parvis token-relationer parallelt
- Positionsindkodning: injicerer sekvensorden i token-indlejringer
- Multi-head attention: opretholder opmærksomhed på flere informationsunderrum simultant
- Feed-forward lag: ikke-lineær transformation af behandlede repræsentationer
- Lagnormalisering og residuelle forbindelser for stabil træning
Fakta
- Det originale paper foreslog arkitekturen til maskinoversættelse
- BERT, GPT, T5 og Claude er alle afledt af Transformeren
- Transformer-beregningsomkostning skalerer kvadratisk med sekvenslængde (O(n²))
- Vision Transformers (ViT) udvidede arkitekturen til billedpatches