DA EN
AI
AI

Transformers

Arkitekturen der ændrede AI

arkitekturopmærksomhedllm

Overblik

Transformer-arkitekturen, introduceret i "Attention is All You Need" (Vaswani et al., 2017), erstattede rekurrente netværk med en fuldt opmærksomhedsbaseret model. Ved at beregne relationer mellem alle tokens simultant (self-attention) skalerer Transformers massivt med data og beregningskraft, hvilket muliggør modeller som GPT, BERT og Claude.

Nøglekoncepter

  • Self-attention: beregner parvis token-relationer parallelt
  • Positionsindkodning: injicerer sekvensorden i token-indlejringer
  • Multi-head attention: opretholder opmærksomhed på flere informationsunderrum simultant
  • Feed-forward lag: ikke-lineær transformation af behandlede repræsentationer
  • Lagnormalisering og residuelle forbindelser for stabil træning

Fakta

  • Det originale paper foreslog arkitekturen til maskinoversættelse
  • BERT, GPT, T5 og Claude er alle afledt af Transformeren
  • Transformer-beregningsomkostning skalerer kvadratisk med sekvenslængde (O(n²))
  • Vision Transformers (ViT) udvidede arkitekturen til billedpatches