arXiv • 2025

Kimi k1.5: Scaling Reinforcement Learning with LLMs

“Dataset бітсе — модель өсуі тоқтай ма?” деген сұраққа жауап: RL-ді масштабтау арқылы модель “жүлдемен” зерттеп, өзіне жаңа train data сияқты тәжірибе жинай алады.

НЕ ТУРАЛЫ?

Бұл paper Kimi k1.5 деген multi-modal LLM-ді reinforcement learning арқылы үйрету тәжірибесін баяндайды: prompt set қалай жиналады, long context қалай масштабталады, policy optimization қалай тұрақтандырылады, және ұзын-CoT моделін short-CoT режиміне қалай “сығады” (long2short).

RL scaling128k контекстLong-CoT → Short-CoTText + Vision

Неге маңызды?

LLM-дердің классикалық өсуі — көбірек дерек + көбірек параметр. Бірақ сапалы дерек шексіз емес: бір жерде “data wall” пайда болады. K1.5 логикасы — RL арқылы модельге reward сигналын беріп, модельді зерттеуге (exploration) итермелеу: яғни “жаңа тәжірибе” жинау осі.

БҰРЫН
Pretrain scaling ғана: “көбірек мәтін табу”
  • Жоғары сапалы дерек шектеледі
  • Reasoning жақсаруы баяу болуы мүмкін
  • RL туралы жария жұмыс көбіне “өндірістік” емес
КЕЙІН
RL scaling: reward → exploration → reasoning ↑
  • Контекстті өсіріп, ұзын ойлау trace-тарын үйрету
  • Жеңіл рамкамен-ақ SOTA reasoning көрсету
  • Long2short арқылы өнімдік “қысқа режим” жасау

Басты жаңалық (paper идеясы)

K1.5 “күрделі трюктерсіз” RL масштабтауға болатынын көрсетеді: ұзын контекст, тұрақты policy optimization және дұрыс prompt set — жеткілікті күшті комбинация.

K1.5 training recipe — интерактив карта

Ішкі детальдар көп болса да, логикасы қарапайым: pretrain → SFT → long-CoT SFT → RL → long2short.

Pipeline
Қадамдар
Long context + policy optimization
4) RL (core масштаб осі)
оқу үшін

RL prompt set: домендер әртүрлі, қиындық балансты, verifier арқылы тексерілетін тапсырмалар.

Long context scaling: RL контекст терезесі 128k-қа дейін өседі; partial rollouts арқылы бұрынғы траекторияның бөлігін қайта пайдаланып, генерация құнын азайтады.

Policy optimization: online mirror descent-ке ұқсас тұрақты жаңарту; sampling стратегиялары және length penalty маңызды.

Маңыздысы: күрделі жүйесіз-ақ (MCTS/value/process reward жоқ) күшті reasoning нәтижесі алынады.

Интуиция
Long context → көбірек “іздеу қадамдары”
Нәтиже мини-chart: reasoning бенчмарктері

Мақаланың абстрактындағы негізгі сандар. Төмендегі чиппен long-CoT және short-CoT режимдерін ауыстырып көріңіз.

Mini chart
AIME
77.5
MATH500
96.2
Codeforces
94-th pct
MathVista
74.9
Ескерту: бұл визуализация paper ішіндегі толық кестелерді алмастырмайды — “бір қарағанда түсіну” үшін ғана.
Paper-дің айтуынша, RL prompt set сапасы reward hacking тәуекелін азайтады және model-дің reasoning қабілетін кеңейтеді. Үш негізгі қасиет: домен әртүрлілігі, қиындық балансы, және verifier арқылы объективті бағалануы.
Контекст ұзара бастағанда модель бір тапсырма ішінде көбірек “аралық қадам” (CoT) жаза алады: жоспарлау, қайта тексеру, түзету сияқты мінез-құлық пайда болады. Paper partial rollouts идеясын қолданады: бұрынғы траекторияның үлкен бөлігін қайта пайдаланып, жаңа генерация құнын қысқартады.
Ұзын reasoning — қымбат: latency, токен құны, және контекст лимиті. Long2short тәсілдері ұзын-CoT модельден қысқа-CoT режиміне білім “сығып”, өнімдік режимде жылдам әрі арзан жауап алуға көмектеседі.

Архитектура: “LLM + RL” деген не?

Мақала нақты бір “жаңа нейрондық блок” емес, training recipe туралы. Бірақ базасы бәрібір Transformer — төмендегі диаграмма осы “негізгі қабатты” еске салатын қысқа фон. (Ескерту: бұл диаграмма paper-дің негізгі жаңалығы емес; paper-дің өзегі — RL масштабы мен training recipe.)

RL бөлігін 1 сөйлемге сыйғызсақ

“Бір prompt → модель бірнеше шешім шығарады → verifier дұрысын/дұрысқа жақынын reward-пен белгілейді → policy update модельді келесі жолы жақсы шешімге итермелейді.”

Өнімдер: бұл идея қайда қолданылады?

Paper-дің тікелей әсері — reasoning-і мықты ассистенттер мен агенттер. Төмендегі timeline кемі 3 “lineage” мысал береді.

Өнеркәсіптік өнімдер (lineage)

“RL масштабтау” идеясы қай өнімдерге тікелей әсер етеді?

Timeline
Кеңес: картаға басыңыз — lineage түсіндірмесі кеңейеді.

Терең талдау

Бұл paper-дің “жасырын” сабағы: RL — тек алгоритм емес, дерек + верификация + инфрақұрылым проблемасы. Егер verifier әлсіз болса — reward hacking; егер prompt set біржақты болса — overfit; егер throughput төмен болса — масштаб жоқ.

PERSPECTIVE 1
Compute экономикасы

RL-дің құны “генерация+тексеру+жаңарту” циклінде. Partial rollouts және token-efficient short modes — өнімдік экономикаға тікелей әсер.

PERSPECTIVE 2
“Reward design” тәуекелі

Дұрыс reward болмаса, модель shortcut табады. Сондықтан evaluability-і жоғары тапсырмалар, objective verifiers және difficulty balancing — critical.

PERSPECTIVE 3
Long context = planning кеңістігі

Контекст ұзарған сайын модель көбірек “аралық қадам” ұстай алады. Бұл агенттік сценарийлерге (tool use, multi-step reasoning) тікелей жанасады.

Before vs After (нақты салыстыру)
BEFORE
RL for LLMs жария жұмысында “competitive” нәтиже аз

RL-дің масштабталуы қиын: prompt, verifier, sampling және инфрақұрылым bottleneck.

AFTER
K1.5: SOTA reasoning + long2short token efficiency

Long-CoT және short-CoT режимдерінде бірдей күшті нәтиже көрсетуге болатынын демонстрациялайды.

Қорытынды инфографика: Problem → Method → Result → Impact
PROBLEM
Pretraining data шегі: “data wall”.
METHOD
RL scaling: long context + stable policy optimization + good prompt set.
RESULT
Long-CoT және short-CoT reasoning бенчмарктерінде күшті нәтижелер.
IMPACT
Өнімдік reasoning ассистенттері: long және token-efficient short режимдері.
Болашақ зерттеу бағыттары
  • Verifier сенімділігі: multimodal және open-ended тапсырмада reward-ты қалай объектив етуге болады?
  • Token экономикасы: long2short-ты бұдан да “агрессивті” қысқарту (latency/құн) үшін қалай дамытуға болады?
  • Safety: RL reasoning күшейген сайын мақсатқа жету “айласы” артуы мүмкін — reward hacking пен alignment тәуекелін қалай бақылау керек?

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2022
RELATED
Training language models to follow instructions with human feedback
Ouyang et al.

RLHF арқылы пайдалы мінез-құлық қалыптастырудың ертерек және ықпалды формасын береді.

2024
RELATED
Can Large Language Models Reason and Plan?
Kambhampati

Reasoning жақсаруының шын мәні не деген сұраққа скептик инженерлік контекст береді.

2024
RELATED
NExT-GPT: Any-to-Any Multimodal LLM
Wu et al.

K1.5 мультимодаль reasoning жағын any-to-any generation бағытымен салыстыруға болады.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Күшейту арқылы үйрету
Reinforcement Learning
Модель әрекеттерін reward сигналы бойынша жақсартуға бағытталған оқыту парадигмасы.
Саясат
Policy
Берілген контекстте модельдің қандай жауап шығаруы ықтимал екенін анықтайтын үлестірім.
Ұзын ойлау ізі
Long Chain-of-Thought
Жоспарлау, тексеру және түзету сияқты көпқадамды reasoning аралықтарын ұзын формада сақтау.
Тексергiш
Verifier
Жауаптың дұрыстығын не сапасын өлшейтін rule-based немесе model-based тексеру механизмі.

Авторлар және жарияланым дерегі

arXiv: 2501.12599 (v4: 2025-06-03). Primary subject: cs.AI.

Авторлар
Барлық авторлар толық көрсетілген.
Moonshot AI
Kimi Team
Moonshot AI
Angang Du
Moonshot AI
Bofei Gao
Moonshot AI
Bowei Xing
Moonshot AI
Changjiu Jiang
Moonshot AI
Cheng Chen
Moonshot AI
Cheng Li
Moonshot AI
Chenjun Xiao
Moonshot AI
Chenzhuang Du
Moonshot AI
Chonghua Liao
Moonshot AI
Chuning Tang
Moonshot AI
Congcong Wang
Moonshot AI
Dehao Zhang
Moonshot AI
Enming Yuan
Moonshot AI
Enzhe Lu
Moonshot AI
Fengxiang Tang
Moonshot AI
Flood Sung
Moonshot AI
Guangda Wei
Moonshot AI
Guokun Lai
Moonshot AI
Haiqing Guo
Moonshot AI
Han Zhu
Moonshot AI
Hao Ding
Moonshot AI
Hao Hu
Moonshot AI
Hao Yang
Moonshot AI
Hao Zhang
Moonshot AI
Haotian Yao
Moonshot AI
Haotian Zhao
Moonshot AI
Haoyu Lu
Moonshot AI
Haoze Li
Moonshot AI
Haozhen Yu
Moonshot AI
Hongcheng Gao
Moonshot AI
Huabin Zheng
Moonshot AI
Huan Yuan
Moonshot AI
Jia Chen
Moonshot AI
Jianhang Guo
Moonshot AI
Jianlin Su
Moonshot AI
Jianzhou Wang
Moonshot AI
Jie Zhao
Moonshot AI
Jin Zhang
Moonshot AI
Jingyuan Liu
Moonshot AI
Junjie Yan
Moonshot AI
Junyan Wu
Moonshot AI
Lidong Shi
Moonshot AI
Ling Ye
Moonshot AI
Longhui Yu
Moonshot AI
Mengnan Dong
Moonshot AI
Neo Zhang
Moonshot AI
Ningchen Ma
Moonshot AI
Qiwei Pan
Moonshot AI
Qucheng Gong
Moonshot AI
Shaowei Liu
Moonshot AI
Shengling Ma
Moonshot AI
Shupeng Wei
Moonshot AI
Sihan Cao
Moonshot AI
Siying Huang
Moonshot AI
Tao Jiang
Moonshot AI
Weihao Gao
Moonshot AI
Weimin Xiong
Moonshot AI
Weiran He
Moonshot AI
Weixiao Huang
Moonshot AI
Weixin Xu
Moonshot AI
Wenhao Wu
Moonshot AI
Wenyang He
Moonshot AI
Xianghui Wei
Moonshot AI
Xianqing Jia
Moonshot AI
Xingzhe Wu
Moonshot AI
Xinran Xu
Moonshot AI
Xinxing Zu
Moonshot AI
Xinyu Zhou
Moonshot AI
Xuehai Pan
Moonshot AI
Y. Charles
Moonshot AI
Yang Li
Moonshot AI
Yangyang Hu
Moonshot AI
Yangyang Liu
Moonshot AI
Yanru Chen
Moonshot AI
Yejie Wang
Moonshot AI
Yibo Liu
Moonshot AI
Yidao Qin
Moonshot AI
Yifeng Liu
Moonshot AI
Ying Yang
Moonshot AI
Yiping Bao
Moonshot AI
Yulun Du
Moonshot AI
Yuxin Wu
Moonshot AI
Yuzhi Wang
Moonshot AI
Zaida Zhou
Moonshot AI
Zhaoji Wang
Moonshot AI
Zhaowei Li
Moonshot AI
Zhen Zhu
Moonshot AI
Zheng Zhang
Moonshot AI
Zhexu Wang
Moonshot AI
Zhilin Yang
Moonshot AI
Zhiqi Huang
Moonshot AI
Zihao Huang
Moonshot AI
Ziyao Xu
Moonshot AI
Zonghan Yang
Moonshot AI
Zongyu Lin
Moonshot AI