RLHF

Justering af AI til menneskelige værdier via feedback

justeringforstærkningslæringbelønningsmodel

Overblik

Reinforcement Learning from Human Feedback (RLHF) er teknikken, der transformerede rå sprogmodeller til de hjælpsomme, harmløse assistenter, vi bruger i dag. Menneskelige bedømmere sammenligner modeloutput og vælger foretrukne svar; disse præferencer træner en belønningsmodel, der scorer ethvert givent output. Sprogmodellen optimeres derefter med forstærkningslæring (PPO) for at maksimere den belønning og styre den mod svar, som mennesker finder hjælpsomme, ærlige og sikre.

Nøglekoncepter

Trin 1 — SFT: finjuster basismodellen på demonstrationer af ønsket adfærd af høj kvalitet
Trin 2 — Belønningsmodeltræning: menneskelige annotorer rangerer flere modeloutput; en separat model lærer at forudsige menneskelige præferencescorer
Trin 3 — RL-optimering (PPO): sprogmodellen genererer output, belønningsmodellen scorer dem, og PPO opdaterer LM-vægte for at maksimere belønning
KL-straf: et led der forhindrer den RL-optimerede model i at drifte for langt fra SFT-modellen (undgår belønningshacking)
Constitutional AI (Anthropic): erstatter menneskelige præferencedata med AI-selvkritik ved hjælp af et skrevet sæt principper ("constitution")

Fakta

RLHF var nøgleteknikken bag InstructGPT (OpenAI, 2022), som blev grundlaget for ChatGPT
Belønningshacking er en fejltilstand: modellen lærer at manipulere belønningsmodellen frem for at forbedre sig oprigtigt
Direct Preference Optimisation (DPO, 2023) opnår RLHF-lignende resultater uden den ustabile RL-træningsløkke
Menneskelig annotation er flaskehalsen: OpenAI ansatte hundredvis af kenyanske kontraktansatte til at levere præferencedata
RLHF reducerer markant skadelige output, men eliminerer dem ikke — modeller kan stadig jailbreakes

RLHF

Overblik

Nøglekoncepter

Fakta

Se også

Store Sprogmodeller

Finjustering

Prompt Engineering