AI
RLHF
Justering af AI til menneskelige værdier via feedback
Overblik
Reinforcement Learning from Human Feedback (RLHF) er teknikken, der transformerede rå sprogmodeller til de hjælpsomme, harmløse assistenter, vi bruger i dag. Menneskelige bedømmere sammenligner modeloutput og vælger foretrukne svar; disse præferencer træner en belønningsmodel, der scorer ethvert givent output. Sprogmodellen optimeres derefter med forstærkningslæring (PPO) for at maksimere den belønning og styre den mod svar, som mennesker finder hjælpsomme, ærlige og sikre.
Nøglekoncepter
- Trin 1 — SFT: finjuster basismodellen på demonstrationer af ønsket adfærd af høj kvalitet
- Trin 2 — Belønningsmodeltræning: menneskelige annotorer rangerer flere modeloutput; en separat model lærer at forudsige menneskelige præferencescorer
- Trin 3 — RL-optimering (PPO): sprogmodellen genererer output, belønningsmodellen scorer dem, og PPO opdaterer LM-vægte for at maksimere belønning
- KL-straf: et led der forhindrer den RL-optimerede model i at drifte for langt fra SFT-modellen (undgår belønningshacking)
- Constitutional AI (Anthropic): erstatter menneskelige præferencedata med AI-selvkritik ved hjælp af et skrevet sæt principper ("constitution")
Fakta
- RLHF var nøgleteknikken bag InstructGPT (OpenAI, 2022), som blev grundlaget for ChatGPT
- Belønningshacking er en fejltilstand: modellen lærer at manipulere belønningsmodellen frem for at forbedre sig oprigtigt
- Direct Preference Optimisation (DPO, 2023) opnår RLHF-lignende resultater uden den ustabile RL-træningsløkke
- Menneskelig annotation er flaskehalsen: OpenAI ansatte hundredvis af kenyanske kontraktansatte til at levere præferencedata
- RLHF reducerer markant skadelige output, men eliminerer dem ikke — modeller kan stadig jailbreakes