Training language models to follow instructions with human feedback
Үлкен модельді жай ғана “үлкейту” жеткіліксіз. Егер модель қолданушы нұсқаулығын дәл орындамаса — өнім болмайды. Бұл мақала RLHF арқылы модельді адам ниетіне жақындатуға болатынын көрсетті.
Авторлар GPT-3-ті адам кері байланысымен fine-tune етеді: алдымен адам жазған “дұрыс жауаптармен” (SFT), кейін адам ранжирлеулерінен үйренген reward model арқылы PPO жасап, нұсқаулыққа бағынатын модель алады — InstructGPT.
GPT-3 сияқты модельдер көп біледі, бірақ жиі “пайдалы” емес: сұрақтан ауытқиды, қауіпті кеңес береді, немесе шындыққа жақындамай кетеді.
InstructGPT көрсеткен нәрсе: дұрыс training сигналы болса, кіші модельдің өзі үлкен базалық модельден жақсырақ сезіледі. Бұл — LLM өнімдерінің практикалық “бетбұрысы”.
Бұрынғы Мәселе
Үлкен модель “ақылды” болуы мүмкін, бірақ “тыңдамайтын” болуы мүмкін.
- Модель сұрақтан ауытқиды
- Форматты ұстамайды
- Токсик/қауіпті жауап беруі мүмкін
- Қолданушы ниетіне сай емес
- Нұсқаулыққа көбірек бағынады
- Қысқа әрі нақты жауап береді
- Қауіпсіздік жақсарады
- Өнімдік сапаға жақындайды
Басты Жаңалық
Адам кері байланысын (feedback) модельге үйрету: “жақсы жауап” ұғымын reward сигналға айналдыру.
Жүйенің Құрылысы
InstructGPT: base LM + alignment training.
Қолданыс аймақтары
Нұсқаулыққа бағыну жақсарған сайын, чат өнімдері сенімдірек болады.
Сыпайы стиль, саясатқа сай жауап, формат — бәрі alignment арқылы реттеледі.
Құрал қолданатын агенттер үшін “тыңдау” қабілеті аса маңызды.
Түсіндіру, қадамдап шығару, стиль сақтау — instruction-following күшейеді.
RLHF — өнімдік LLM-дердің “тәрбие” қабаты.
Мақала дүниені қалай өзгертті?
- “Ақылды”, бірақ “ыңғайсыз” модель
- Prompt көмектеседі, бірақ жеткіліксіз
- Қауіпсіздік/токсик проблемалары
- Alignment — негізгі бағытқа айналды
- RLHF өнімдік стандартқа жақындады
- Instruction-first интерфейс пайда болды
Қорытынды
Тереңдетілген талдау
RLHF не береді, не бермейді, және қандай қауіп бар?
Бұл — “тіл моделін” “адам өнімін” жасауға жақындатқан инженерлік төңкеріс. Негізгі идея — тіл статистикасын адамның бағалауымен түзеу.
Ғылыми мәні: preference сигналын формализациялау және оны оптимизациялау.
Reward hacking қаупі бар: модель reward модельді “алдауы” мүмкін.
Сондай-ақ “жақсы көріну” мен “шын болу” әрдайым бір емес — calibration және факт-чек маңызды.
RLHF кейін “alignment stack” пайда болды: safety policy, eval harness, red-team, system prompts.
Бұл бағыт әлі ашық: “адам қалауы” бірдей емес, мәдениет пен контекстке тәуелді.
Болашақ зерттеу бағыттары
Қатысты мақалалар
Осы explainer-ді кеңейтетін іргелес жұмыстар.
Үлкен pretraining арқылы қабілет өссе де, instruction alignment бөлек проблема екенін осы жұмыспен салыстырып көруге болады.
RL-ді reasoning сапасын өсіретін дербес масштаб осі ретінде қарастырады.
Instruction tuning және ChatGPT дәуірінің кең контекстін береді.
Түсіндірме сөздік
Негізгі терминдерді бір стильде жинақтау.