DA EN
AI
AI

Hallucination

Når AI sikkert siger ting, der ikke er sande

HallucinationAI-pålidelighedForankringRAGFaktualitet

Overblik

Hallucination betegner situationer, hvor store sprogmodeller producerer tekst, der er sikker og flydende, men faktisk forkert. Da LLM'er forudsiger hvert ord ud fra statistiske mønstre frem for at slå op i en verificeret vidensbase, kan de producere overbevisende lydende tekst, der simpelthen er forkert. Hallucination spænder fra subtile faktafejl — en forkert publiceringsdato, en opdigtet reference — til fuldstændigt fabrikerede begivenheder eller personer. At forstå årsagerne og reducere hallucination er et af de mest aktivt studerede problemer i anvendt AI.

Nøglekoncepter

  • Autoregressiv generering: LLM'er vælger hvert token baseret på sandsynlighed med optimering for sproglig flydende frem for faktanøjagtighed, hvilket kan føre til, at modellen opfinder detaljer for at fuldføre en plausibel sætning.
  • Mangler i træningsdata: Når en model har set lidt eller ingen træningstekst om et specifikt emne, kan den stadig generere autoritativt lydende tekst ved at ekstrapolere mønstre uden faktuel basis.
  • Overmod uden kalibrering: Modeller ved ikke automatisk, hvornår de ikke ved noget. Uden eksplicit usikkerhedsmodellering er modellen lige flydende og selvsikker, uanset om den tager fejl eller ej.
  • Sycophancy og promptbias: Hvis en prompt antyder et bestemt svar, kan modellen bekræfte det, selv om det er forkert. Systemprompter og brugerformulering kan fordreje output mod det forventede frem for det sande.
  • Afbødningsstrategier — RAG og forankring: Retrieval-Augmented Generation (RAG) leverer verificerede kildedokumenter ved inferenstidspunktet og giver modellen faktuelle ankre, der reducerer opdigtning. Krav om kildehenvisning og lav temperatur forbedrer ligeledes faktualitet.

Fakta

  • Studier viser, at frontline LLM'er hallucinerer på 3–27% af forespørgsler afhængigt af domæne; juridiske og biomedicinske domæner har de højeste rater af konsekvente fejl.
  • Self-consistency-prompting — at stille modellen det samme spørgsmål flere gange og lede efter enighed — kan afsløre usikkerhed og identificere sandsynlige hallucinationer, inden svar vises til brugerne.
  • SelfCheckGPT sammenligner flere uafhængige eksempler fra en model og bedømmer faktualitet ved at måle, hvor ofte eksemplerne er enige; inkonsistente udsagn markeres som sandsynlige hallucinationer.
  • Hallucinationsraterne falder markant, når modeller tvinges til at angive kilder, fordi krav om citater skifter opgaven fra mønstertilpasning til evidenshentning.
  • Menneskelige evalueringsstudier fastslår, at hallucinationer ofte er overbevisende formaterede — korrekte i stil, tone og syntaks — hvilket gør dem sværere at opdage end grammatisk forkerte eller åbenlyst mærkelige output.