arXiv • Наурыз 2022

Training language models to follow instructions with human feedback

Үлкен модельді жай ғана “үлкейту” жеткіліксіз. Егер модель қолданушы нұсқаулығын дәл орындамаса — өнім болмайды. Бұл мақала RLHF арқылы модельді адам ниетіне жақындатуға болатынын көрсетті.

НЕ ТУРАЛЫ?

Авторлар GPT-3-ті адам кері байланысымен fine-tune етеді: алдымен адам жазған “дұрыс жауаптармен” (SFT), кейін адам ранжирлеулерінен үйренген reward model арқылы PPO жасап, нұсқаулыққа бағынатын модель алады — InstructGPT.

RLHFSFT + Reward Model + PPOOpenAI
Alignment — “қосымша” емес. Ол өнімнің өзегі.

GPT-3 сияқты модельдер көп біледі, бірақ жиі “пайдалы” емес: сұрақтан ауытқиды, қауіпті кеңес береді, немесе шындыққа жақындамай кетеді.

InstructGPT көрсеткен нәрсе: дұрыс training сигналы болса, кіші модельдің өзі үлкен базалық модельден жақсырақ сезіледі. Бұл — LLM өнімдерінің практикалық “бетбұрысы”.

Негізгі инсайт
“Пайдалы болу” — параметр саны емес, адамның бағалау сигналы.
Себебі ол “адамға ұнайтын жауап” ұғымын training сигналға айналдырады. Модель тек тіл статистикасын емес, нұсқаулыққа бағынуды да үйренеді.
Жоқ. RLHF — күшті құрал, бірақ hallucination, bias, privacy, tooling, retrieval сияқты мәселелер бөлек жұмыс талап етеді.

Бұрынғы Мәселе

Үлкен модель “ақылды” болуы мүмкін, бірақ “тыңдамайтын” болуы мүмкін.

БҰРЫН
  • Модель сұрақтан ауытқиды
  • Форматты ұстамайды
  • Токсик/қауіпті жауап беруі мүмкін
  • Қолданушы ниетіне сай емес
КЕЙІН
  • Нұсқаулыққа көбірек бағынады
  • Қысқа әрі нақты жауап береді
  • Қауіпсіздік жақсарады
  • Өнімдік сапаға жақындайды

Басты Жаңалық

Адам кері байланысын (feedback) модельге үйрету: “жақсы жауап” ұғымын reward сигналға айналдыру.

Бұл — жауаптың “адамға ұнауын” шамалайтын бөлек модель. Ол ранжирлеу дерегінен үйренеді және RL кезінде сыйақы береді.
PPO — policy-ді “ақырын” жаңартатын, тұрақты RL алгоритм. Ол reward модельдің сигналына сүйеніп, жауап стилін адамның қалағанына жақындатады.

Жүйенің Құрылысы

InstructGPT: base LM + alignment training.

SFT — адам жазған “дұрыс жауаптарды” көшіру. RLHF — reward модель арқылы “қалаулы жауап стилін” оптимизациялау.
Reward модель кейде сенімді сөйлеуді “жақсы” деп бағалап қоюы мүмкін. Сондықтан бағалау протоколы және қауіпсіздік бақылауы маңызды.

Қолданыс аймақтары

💬 Диалогтық ассистенттер

Нұсқаулыққа бағыну жақсарған сайын, чат өнімдері сенімдірек болады.

🧑‍💼 Қолдау қызметі

Сыпайы стиль, саясатқа сай жауап, формат — бәрі alignment арқылы реттеледі.

🧰 Agent/tool-use

Құрал қолданатын агенттер үшін “тыңдау” қабілеті аса маңызды.

📚 Оқыту

Түсіндіру, қадамдап шығару, стиль сақтау — instruction-following күшейеді.

Осы мақала негізінде дүниеге келген өнімдер

RLHF — өнімдік LLM-дердің “тәрбие” қабаты.

Timeline
Кеңес: картаға басыңыз — кеңейеді.

Мақала дүниені қалай өзгертті?

БҰРЫН
  • “Ақылды”, бірақ “ыңғайсыз” модель
  • Prompt көмектеседі, бірақ жеткіліксіз
  • Қауіпсіздік/токсик проблемалары
КЕЙІН
  • Alignment — негізгі бағытқа айналды
  • RLHF өнімдік стандартқа жақындады
  • Instruction-first интерфейс пайда болды

Қорытынды

Problem
Үлкен LM пайдалы емес болуы мүмкін: нұсқаулықты дәл орындамайды
Method
SFT + reward model + PPO арқылы адам қалауын optimization жасау
Result
Кіші RLHF модель кейде үлкен base модельден артық ұнайды
Impact
Alignment және RLHF — LLM өнімдеріне стандарт болды

Тереңдетілген талдау

RLHF не береді, не бермейді, және қандай қауіп бар?

Профессордың көзқарасы

Бұл — “тіл моделін” “адам өнімін” жасауға жақындатқан инженерлік төңкеріс. Негізгі идея — тіл статистикасын адамның бағалауымен түзеу.

Ғылыми мәні: preference сигналын формализациялау және оны оптимизациялау.

Сын көзбен қарау

Reward hacking қаупі бар: модель reward модельді “алдауы” мүмкін.

Сондай-ақ “жақсы көріну” мен “шын болу” әрдайым бір емес — calibration және факт-чек маңызды.

Үлкен сурет

RLHF кейін “alignment stack” пайда болды: safety policy, eval harness, red-team, system prompts.

Бұл бағыт әлі ашық: “адам қалауы” бірдей емес, мәдениет пен контекстке тәуелді.

Болашақ зерттеу бағыттары

1. Reward моделін жақсарту
Белсенді зерттеу
Бір reward модельге сену қауіпті. Ensemble, uncertainty және автомат eval маңызды.
2. Constitutional / AI feedback
Жаңа бағыт
Адам еңбегін азайту: AI арқылы өзін-өзі түзету, қауіпсіздік принциптерімен жаттықтыру.
3. Grounding + RAG
Белсенді зерттеу
RLHF пайдалы, бірақ фактіге сүйену үшін retrieval және дәлел/сілтеме керек.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2020
RELATED
Language Models are Few-Shot Learners
Brown et al.

Үлкен pretraining арқылы қабілет өссе де, instruction alignment бөлек проблема екенін осы жұмыспен салыстырып көруге болады.

2025
RELATED
Kimi k1.5: Scaling Reinforcement Learning with LLMs
Kimi Team

RL-ді reasoning сапасын өсіретін дербес масштаб осі ретінде қарастырады.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

Instruction tuning және ChatGPT дәуірінің кең контекстін береді.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Нұсқаулыққа бағындыру
Instruction tuning
Модельді адам жазған нұсқаулар бойынша пайдалы жауап беруге бейімдеу үшін қосымша оқыту.
Күшейту арқылы кері байланыс
RLHF
Адам таңдауларын reward сигналына айналдырып, модель саясатын соған қарай оңтайландыру тәсілі.
Сыйақы моделі
Reward model
Жауаптардың қайсысы жақсырақ екенін болжайтын, адам преференцияларынан үйренген жеке модель.
Бақыланатын fine-tuning
Supervised Fine-Tuning (SFT)
Дайын кіріс-шығыс үлгілерімен модельді тікелей оқытатын алғашқы бейімдеу кезеңі.

Бұл кімдердің еңбегі?

Авторлар
Барлық авторлар толық көрсетілген.
OpenAI
Long Ouyang
Jeff Wu
Xu Jiang
Diogo Almeida
Carroll L. Wainwright
Pamela Mishkin
Chong Zhang
Sandhini Agarwal
Katarina Slama
Alex Ray
John Schulman
Jacob Hilton
Fraser Kelton
Luke Miller
Maddie Simens
Amanda Askell
Peter Welinder
Paul Christiano
Jan Leike
Ryan Lowe
Publication info
arXiv:2203.02155 · Submitted March 4, 2022 · Published 2022