arXiv • Наурыз 2022

Training language models to follow instructions with human feedback

Үлкен модельді жай ғана “үлкейту” жеткіліксіз. Егер модель қолданушы нұсқаулығын дәл орындамаса — өнім болмайды. Бұл мақала RLHF арқылы модельді адам ниетіне жақындатуға болатынын көрсетті.

НЕ ТУРАЛЫ?

Авторлар GPT-3-ті адам кері байланысымен fine-tune етеді: алдымен адам жазған “дұрыс жауаптармен” (SFT), кейін адам ранжирлеулерінен үйренген reward model арқылы PPO жасап, нұсқаулыққа бағынатын модель алады — InstructGPT.

RLHFSFT + Reward Model + PPOOpenAI

Alignment — “қосымша” емес. Ол өнімнің өзегі.

GPT-3 сияқты модельдер көп біледі, бірақ жиі “пайдалы” емес: сұрақтан ауытқиды, қауіпті кеңес береді, немесе шындыққа жақындамай кетеді.

InstructGPT көрсеткен нәрсе: дұрыс training сигналы болса, кіші модельдің өзі үлкен базалық модельден жақсырақ сезіледі. Бұл — LLM өнімдерінің практикалық “бетбұрысы”.

Негізгі инсайт

“Пайдалы болу” — параметр саны емес, адамның бағалау сигналы.

Себебі ол “адамға ұнайтын жауап” ұғымын training сигналға айналдырады. Модель тек тіл статистикасын емес, нұсқаулыққа бағынуды да үйренеді.

Жоқ. RLHF — күшті құрал, бірақ hallucination, bias, privacy, tooling, retrieval сияқты мәселелер бөлек жұмыс талап етеді.

Бұрынғы Мәселе

Үлкен модель “ақылды” болуы мүмкін, бірақ “тыңдамайтын” болуы мүмкін.

БҰРЫН

Модель сұрақтан ауытқиды
Форматты ұстамайды
Токсик/қауіпті жауап беруі мүмкін
Қолданушы ниетіне сай емес

КЕЙІН

Нұсқаулыққа көбірек бағынады
Қысқа әрі нақты жауап береді
Қауіпсіздік жақсарады
Өнімдік сапаға жақындайды

Басты Жаңалық

Адам кері байланысын (feedback) модельге үйрету: “жақсы жауап” ұғымын reward сигналға айналдыру.

Бұл — жауаптың “адамға ұнауын” шамалайтын бөлек модель. Ол ранжирлеу дерегінен үйренеді және RL кезінде сыйақы береді.

PPO — policy-ді “ақырын” жаңартатын, тұрақты RL алгоритм. Ол reward модельдің сигналына сүйеніп, жауап стилін адамның қалағанына жақындатады.

Жүйенің Құрылысы

InstructGPT: base LM + alignment training.

SFT — адам жазған “дұрыс жауаптарды” көшіру. RLHF — reward модель арқылы “қалаулы жауап стилін” оптимизациялау.

Reward модель кейде сенімді сөйлеуді “жақсы” деп бағалап қоюы мүмкін. Сондықтан бағалау протоколы және қауіпсіздік бақылауы маңызды.

Қолданыс аймақтары

💬 Диалогтық ассистенттер

Нұсқаулыққа бағыну жақсарған сайын, чат өнімдері сенімдірек болады.

🧑‍💼 Қолдау қызметі

Сыпайы стиль, саясатқа сай жауап, формат — бәрі alignment арқылы реттеледі.

🧰 Agent/tool-use

Құрал қолданатын агенттер үшін “тыңдау” қабілеті аса маңызды.

📚 Оқыту

Түсіндіру, қадамдап шығару, стиль сақтау — instruction-following күшейеді.

Осы мақала негізінде дүниеге келген өнімдер

RLHF — өнімдік LLM-дердің “тәрбие” қабаты.

Timeline

Кеңес: картаға басыңыз — кеңейеді.

Мақала дүниені қалай өзгертті?

БҰРЫН

“Ақылды”, бірақ “ыңғайсыз” модель
Prompt көмектеседі, бірақ жеткіліксіз
Қауіпсіздік/токсик проблемалары

КЕЙІН

Alignment — негізгі бағытқа айналды
RLHF өнімдік стандартқа жақындады
Instruction-first интерфейс пайда болды

Қорытынды

Problem

Үлкен LM пайдалы емес болуы мүмкін: нұсқаулықты дәл орындамайды

Method

SFT + reward model + PPO арқылы адам қалауын optimization жасау

Result

Кіші RLHF модель кейде үлкен base модельден артық ұнайды

Impact

Alignment және RLHF — LLM өнімдеріне стандарт болды

Тереңдетілген талдау

RLHF не береді, не бермейді, және қандай қауіп бар?

Профессордың көзқарасы

Бұл — “тіл моделін” “адам өнімін” жасауға жақындатқан инженерлік төңкеріс. Негізгі идея — тіл статистикасын адамның бағалауымен түзеу.

Ғылыми мәні: preference сигналын формализациялау және оны оптимизациялау.

Сын көзбен қарау

Reward hacking қаупі бар: модель reward модельді “алдауы” мүмкін.

Сондай-ақ “жақсы көріну” мен “шын болу” әрдайым бір емес — calibration және факт-чек маңызды.

Үлкен сурет

RLHF кейін “alignment stack” пайда болды: safety policy, eval harness, red-team, system prompts.

Бұл бағыт әлі ашық: “адам қалауы” бірдей емес, мәдениет пен контекстке тәуелді.

Болашақ зерттеу бағыттары

1. Reward моделін жақсарту

Белсенді зерттеу

Бір reward модельге сену қауіпті. Ensemble, uncertainty және автомат eval маңызды.

2. Constitutional / AI feedback

Жаңа бағыт

Адам еңбегін азайту: AI арқылы өзін-өзі түзету, қауіпсіздік принциптерімен жаттықтыру.

3. Grounding + RAG

Белсенді зерттеу

RLHF пайдалы, бірақ фактіге сүйену үшін retrieval және дәлел/сілтеме керек.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2020

Brown et al.

Үлкен pretraining арқылы қабілет өссе де, instruction alignment бөлек проблема екенін осы жұмыспен салыстырып көруге болады.

Оқу →

2025

Kimi Team

RL-ді reasoning сапасын өсіретін дербес масштаб осі ретінде қарастырады.

Оқу →

2023

Zhou et al.

Instruction tuning және ChatGPT дәуірінің кең контекстін береді.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Нұсқаулыққа бағындыру

Instruction tuning

Модельді адам жазған нұсқаулар бойынша пайдалы жауап беруге бейімдеу үшін қосымша оқыту.

Күшейту арқылы кері байланыс

RLHF

Адам таңдауларын reward сигналына айналдырып, модель саясатын соған қарай оңтайландыру тәсілі.

Сыйақы моделі

Reward model

Жауаптардың қайсысы жақсырақ екенін болжайтын, адам преференцияларынан үйренген жеке модель.

Бақыланатын fine-tuning

Supervised Fine-Tuning (SFT)

Дайын кіріс-шығыс үлгілерімен модельді тікелей оқытатын алғашқы бейімдеу кезеңі.

Бұл кімдердің еңбегі?

Авторлар

Барлық авторлар толық көрсетілген.

OpenAI

Long Ouyang

Jeff Wu

Xu Jiang

Diogo Almeida

Carroll L. Wainwright

Pamela Mishkin

Chong Zhang

Sandhini Agarwal

Katarina Slama

Alex Ray

John Schulman

Jacob Hilton

Fraser Kelton

Luke Miller

Maddie Simens

Amanda Askell

Peter Welinder

Paul Christiano

Jan Leike

Ryan Lowe

Publication info

arXiv:2203.02155 · Submitted March 4, 2022 · Published 2022

Түпнұсқа мақаланы оқу (arXiv) →

← Барлық мақалаларға қайту