Finjustering

Lær en generel model specialistfærdigheder

lorasfttilpasning

Overblik

Finjustering tilpasser en forudtrænet model til en specifik opgave eller et domæne ved at fortsætte træningen på et mindre, kureret datasæt. I stedet for at træne fra bunden — hvilket kræver milliarder af dollars og måneder af beregning — udnytter finjustering den generelle viden, der allerede er kodet i modelvægte, og omdirigerer den. Sådan bliver generiske basismodeller til kundesupportbots, medicinske rådgivere eller kodeassistenter.

Nøglekoncepter

Superviseret finjustering (SFT): træner modellen på kurerede prompt–svar-par, der demonstrerer ønsket adfærd
Fuld finjustering: alle modelvægte opdateres; dyrt men maksimal tilpasning
LoRA (Low-Rank Adaptation): injicerer små trænbare matricer i hvert lag og opdaterer <1% af parametre, mens basismodellens ydeevne bevares
QLoRA: kombinerer LoRA med 4-bit kvantisering, hvilket muliggør finjustering af 70B-modeller på et enkelt forbruger-GPU
PEFT (Parameter-Efficient Fine-Tuning): paraplybegreb der dækker LoRA, prefiks-tuning, adaptere og prompt-tuning

Fakta

LoRA (Hu et al., 2022) gjorde det praktisk at finjustere milliard-parameter-modeller på et enkelt GPU
Katastrofal glemsel er en nøglerisiko: aggressiv finjustering kan overskrive modellens generelle evner
Instruktionstilpasning på blot 1.000 eksempler af høj kvalitet kan dramatisk forbedre opgavejustering
OpenAIs GPT-3.5-turbo finjusterings-API giver organisationer mulighed for at bygge domænespecifikke assistenter uden at røre ved modelinterne
Domænespecifikke finjusterede modeller overgår ofte større generelle modeller på snævre opgaver til en brøkdel af inferensomkostningerne

Finjustering

Overblik

Nøglekoncepter

Fakta

Se også

Store Sprogmodeller

Neurale Netværk

RLHF

Prompt Engineering