Multimodal AI
AI der forstår og genererer tekst, billeder, lyd og mere
Overblik
Multimodal AI betegner systemer, der kan behandle og generere information på tværs af mere end én datatype — typisk ved at kombinere tekst med billeder, lyd, video eller strukturerede data. Tidlige AI-systemer var unimodale: en sprogmodel håndterede tekst, en billedklassifikator håndterede pixels, og separate pipelines blev limet sammen. Moderne multimodale arkitekturer deler repræsentationer på tværs af modaliteter, hvilket gør det muligt for en enkelt model at beskrive billeder, transkribere tale, besvare spørgsmål om video eller generere illustrationer ud fra en skriftlig prompt. Denne konvergens skaber generelle AI-assistenter med evner, der opstår af interaktionen mellem modaliteter.
Nøglekoncepter
- Encoder-decoder-fusion: Hver modalitet (tekst, billede, lyd) indkodes først i et fælles embedding-rum. En transformer behandler derefter tokens på tværs af alle modaliteter samlet, så modellen kan ræsonnere over relationerne mellem fx et billede og et spørgsmål om det.
- Kontrastiv forudtræning (CLIP): OpenAI's CLIP-model blev forudtrænet på 400 millioner billed-tekst-par ved at lære at matche billeder med de korrekte undertekster. Det producerede rige visuelle repræsentationer på linje med tekst og understøtter nyere billedgenereringsmodeller.
- Visuelle sprogmodeller (GPT-4V, Gemini, Claude): Disse modeller accepterer billeder eller dokumenter som en del af promptkonteksten sammen med tekst. De kan læse diagrammer, fortolke grafer, besvare spørgsmål om fotografier og kombinere visuel og tekstuel ræsonnement i et enkelt inferenstrin.
- Billed- og videogenerering: Diffusionsmodeller (DALL-E 3, Midjourney, Stable Diffusion) og videomodeller (Sora) genererer visuelt indhold ud fra tekstbeskrivelser. De lærer at omvende en støjpåføringsproces styret af en tekstencoder og oversætter sprog til sammenhængende visuelt output.
- Lyd og tale: Modeller som Whisper (transskription), Eleven Labs (talesyntese) og AudioPaLM (musikforståelse) viser, at lyd kan indlejres og behandles med den samme transformerarkitektur som tekst og billeder.
Fakta
- CLIP blev forudtrænet på 400 millioner billed-tekst-par og introducerede ideen om kontrastiv multimodal læring i stor skala; de fleste tekststyrede billedgeneratorer bruger en CLIP-baseret tekstencoder.
- GPT-4V (udgivet oktober 2023) var den første bredt udbredte multimodale frontlinemodel; den kan løse matematikproblemer fra fotografier af håndskrevne ligninger og beskrive medicinske billeder, når den promptes korrekt.
- Sora, udgivet af OpenAI i 2024, genererer 60 sekunders HD-video fra tekstprompter ved at behandle video som en sekvens af spatiotemporale patches behandlet af en transformer — det udvider den samme arkitektur, der bruges i LLM'er.
- Emergent tværmodal ræsonnering opstår i stor skala: store multimodale modeller viser evner, der ikke er set under træning på nogen enkelt modalitet, fx at udlede tidspunktet på dagen fra et fotografi eller forklare et meme.
- Det globale marked for multimodal AI blev anslået til over 1,2 mia. dollar i 2023 og forventes at vokse med over 35% årligt frem til 2030, drevet af anvendelser inden for medicinsk billeddannelse, autonome køretøjer og indholdsproduktion.