arXiv • 2025

Kimi k1.5: Scaling Reinforcement Learning with LLMs

“Dataset бітсе — модель өсуі тоқтай ма?” деген сұраққа жауап: RL-ді масштабтау арқылы модель “жүлдемен” зерттеп, өзіне жаңа train data сияқты тәжірибе жинай алады.

НЕ ТУРАЛЫ?

Бұл paper Kimi k1.5 деген multi-modal LLM-ді reinforcement learning арқылы үйрету тәжірибесін баяндайды: prompt set қалай жиналады, long context қалай масштабталады, policy optimization қалай тұрақтандырылады, және ұзын-CoT моделін short-CoT режиміне қалай “сығады” (long2short).

RL scaling128k контекстLong-CoT → Short-CoTText + Vision

Неге маңызды?

LLM-дердің классикалық өсуі — көбірек дерек + көбірек параметр. Бірақ сапалы дерек шексіз емес: бір жерде “data wall” пайда болады. K1.5 логикасы — RL арқылы модельге reward сигналын беріп, модельді зерттеуге (exploration) итермелеу: яғни “жаңа тәжірибе” жинау осі.

БҰРЫН

Pretrain scaling ғана: “көбірек мәтін табу”

Жоғары сапалы дерек шектеледі
Reasoning жақсаруы баяу болуы мүмкін
RL туралы жария жұмыс көбіне “өндірістік” емес

КЕЙІН

RL scaling: reward → exploration → reasoning ↑

Контекстті өсіріп, ұзын ойлау trace-тарын үйрету
Жеңіл рамкамен-ақ SOTA reasoning көрсету
Long2short арқылы өнімдік “қысқа режим” жасау

Басты жаңалық (paper идеясы)

K1.5 “күрделі трюктерсіз” RL масштабтауға болатынын көрсетеді: ұзын контекст, тұрақты policy optimization және дұрыс prompt set — жеткілікті күшті комбинация.

K1.5 training recipe — интерактив карта

Ішкі детальдар көп болса да, логикасы қарапайым: pretrain → SFT → long-CoT SFT → RL → long2short.

Pipeline

Қадамдар

Long context + policy optimization

4) RL (core масштаб осі)

оқу үшін

RL prompt set: домендер әртүрлі, қиындық балансты, verifier арқылы тексерілетін тапсырмалар.

Long context scaling: RL контекст терезесі 128k-қа дейін өседі; partial rollouts арқылы бұрынғы траекторияның бөлігін қайта пайдаланып, генерация құнын азайтады.

Policy optimization: online mirror descent-ке ұқсас тұрақты жаңарту; sampling стратегиялары және length penalty маңызды.

Маңыздысы: күрделі жүйесіз-ақ (MCTS/value/process reward жоқ) күшті reasoning нәтижесі алынады.

Интуиция

Long context → көбірек “іздеу қадамдары”

Нәтиже мини-chart: reasoning бенчмарктері

Мақаланың абстрактындағы негізгі сандар. Төмендегі чиппен long-CoT және short-CoT режимдерін ауыстырып көріңіз.

Mini chart

AIME

77.5

MATH500

96.2

Codeforces

94-th pct

MathVista

74.9

Ескерту: бұл визуализация paper ішіндегі толық кестелерді алмастырмайды — “бір қарағанда түсіну” үшін ғана.

Paper-дің айтуынша, RL prompt set сапасы reward hacking тәуекелін азайтады және model-дің reasoning қабілетін кеңейтеді. Үш негізгі қасиет: домен әртүрлілігі, қиындық балансы, және verifier арқылы объективті бағалануы.

Контекст ұзара бастағанда модель бір тапсырма ішінде көбірек “аралық қадам” (CoT) жаза алады: жоспарлау, қайта тексеру, түзету сияқты мінез-құлық пайда болады. Paper partial rollouts идеясын қолданады: бұрынғы траекторияның үлкен бөлігін қайта пайдаланып, жаңа генерация құнын қысқартады.

Ұзын reasoning — қымбат: latency, токен құны, және контекст лимиті. Long2short тәсілдері ұзын-CoT модельден қысқа-CoT режиміне білім “сығып”, өнімдік режимде жылдам әрі арзан жауап алуға көмектеседі.

Архитектура: “LLM + RL” деген не?

Мақала нақты бір “жаңа нейрондық блок” емес, training recipe туралы. Бірақ базасы бәрібір Transformer — төмендегі диаграмма осы “негізгі қабатты” еске салатын қысқа фон. (Ескерту: бұл диаграмма paper-дің негізгі жаңалығы емес; paper-дің өзегі — RL масштабы мен training recipe.)

RL бөлігін 1 сөйлемге сыйғызсақ

“Бір prompt → модель бірнеше шешім шығарады → verifier дұрысын/дұрысқа жақынын reward-пен белгілейді → policy update модельді келесі жолы жақсы шешімге итермелейді.”

Өнімдер: бұл идея қайда қолданылады?

Paper-дің тікелей әсері — reasoning-і мықты ассистенттер мен агенттер. Төмендегі timeline кемі 3 “lineage” мысал береді.

Өнеркәсіптік өнімдер (lineage)

“RL масштабтау” идеясы қай өнімдерге тікелей әсер етеді?

Timeline

Кеңес: картаға басыңыз — lineage түсіндірмесі кеңейеді.

Терең талдау

Бұл paper-дің “жасырын” сабағы: RL — тек алгоритм емес, дерек + верификация + инфрақұрылым проблемасы. Егер verifier әлсіз болса — reward hacking; егер prompt set біржақты болса — overfit; егер throughput төмен болса — масштаб жоқ.

PERSPECTIVE 1

Compute экономикасы

RL-дің құны “генерация+тексеру+жаңарту” циклінде. Partial rollouts және token-efficient short modes — өнімдік экономикаға тікелей әсер.

PERSPECTIVE 2

“Reward design” тәуекелі

Дұрыс reward болмаса, модель shortcut табады. Сондықтан evaluability-і жоғары тапсырмалар, objective verifiers және difficulty balancing — critical.

PERSPECTIVE 3

Long context = planning кеңістігі

Контекст ұзарған сайын модель көбірек “аралық қадам” ұстай алады. Бұл агенттік сценарийлерге (tool use, multi-step reasoning) тікелей жанасады.

Before vs After (нақты салыстыру)

BEFORE

RL for LLMs жария жұмысында “competitive” нәтиже аз

RL-дің масштабталуы қиын: prompt, verifier, sampling және инфрақұрылым bottleneck.

AFTER

K1.5: SOTA reasoning + long2short token efficiency

Long-CoT және short-CoT режимдерінде бірдей күшті нәтиже көрсетуге болатынын демонстрациялайды.

Қорытынды инфографика: Problem → Method → Result → Impact

PROBLEM

Pretraining data шегі: “data wall”.

METHOD

RL scaling: long context + stable policy optimization + good prompt set.

RESULT

Long-CoT және short-CoT reasoning бенчмарктерінде күшті нәтижелер.

IMPACT

Өнімдік reasoning ассистенттері: long және token-efficient short режимдері.

Болашақ зерттеу бағыттары

Verifier сенімділігі: multimodal және open-ended тапсырмада reward-ты қалай объектив етуге болады?
Token экономикасы: long2short-ты бұдан да “агрессивті” қысқарту (latency/құн) үшін қалай дамытуға болады?
Safety: RL reasoning күшейген сайын мақсатқа жету “айласы” артуы мүмкін — reward hacking пен alignment тәуекелін қалай бақылау керек?

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2022

Ouyang et al.

RLHF арқылы пайдалы мінез-құлық қалыптастырудың ертерек және ықпалды формасын береді.

Оқу →

2024

Kambhampati

Reasoning жақсаруының шын мәні не деген сұраққа скептик инженерлік контекст береді.

Оқу →

2024

Wu et al.

K1.5 мультимодаль reasoning жағын any-to-any generation бағытымен салыстыруға болады.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Күшейту арқылы үйрету

Reinforcement Learning

Модель әрекеттерін reward сигналы бойынша жақсартуға бағытталған оқыту парадигмасы.

Саясат

Policy

Берілген контекстте модельдің қандай жауап шығаруы ықтимал екенін анықтайтын үлестірім.

Ұзын ойлау ізі

Long Chain-of-Thought

Жоспарлау, тексеру және түзету сияқты көпқадамды reasoning аралықтарын ұзын формада сақтау.

Тексергiш

Verifier

Жауаптың дұрыстығын не сапасын өлшейтін rule-based немесе model-based тексеру механизмі.

Авторлар және жарияланым дерегі

arXiv: 2501.12599 (v4: 2025-06-03). Primary subject: cs.AI.

Авторлар

Барлық авторлар толық көрсетілген.

Moonshot AI

Kimi Team

Moonshot AI

Angang Du

Moonshot AI

Bofei Gao

Moonshot AI

Bowei Xing

Moonshot AI

Changjiu Jiang

Moonshot AI

Cheng Chen

Moonshot AI

Cheng Li

Moonshot AI

Chenjun Xiao

Moonshot AI

Chenzhuang Du

Moonshot AI

Chonghua Liao

Moonshot AI

Chuning Tang

Moonshot AI

Congcong Wang

Moonshot AI

Dehao Zhang

Moonshot AI

Enming Yuan

Moonshot AI

Enzhe Lu

Moonshot AI

Fengxiang Tang

Moonshot AI

Flood Sung

Moonshot AI

Guangda Wei

Moonshot AI

Guokun Lai

Moonshot AI

Haiqing Guo

Moonshot AI

Han Zhu

Moonshot AI

Hao Ding

Moonshot AI

Hao Hu

Moonshot AI

Hao Yang

Moonshot AI

Hao Zhang

Moonshot AI

Haotian Yao

Moonshot AI

Haotian Zhao

Moonshot AI

Haoyu Lu

Moonshot AI

Haoze Li

Moonshot AI

Haozhen Yu

Moonshot AI

Hongcheng Gao

Moonshot AI

Huabin Zheng

Moonshot AI

Huan Yuan

Moonshot AI

Jia Chen

Moonshot AI

Jianhang Guo

Moonshot AI

Jianlin Su

Moonshot AI

Jianzhou Wang

Moonshot AI

Jie Zhao

Moonshot AI

Jin Zhang

Moonshot AI

Jingyuan Liu

Moonshot AI

Junjie Yan

Moonshot AI

Junyan Wu

Moonshot AI

Lidong Shi

Moonshot AI

Ling Ye

Moonshot AI

Longhui Yu

Moonshot AI

Mengnan Dong

Moonshot AI

Neo Zhang

Moonshot AI

Ningchen Ma

Moonshot AI

Qiwei Pan

Moonshot AI

Qucheng Gong

Moonshot AI

Shaowei Liu

Moonshot AI

Shengling Ma

Moonshot AI

Shupeng Wei

Moonshot AI

Sihan Cao

Moonshot AI

Siying Huang

Moonshot AI

Tao Jiang

Moonshot AI

Weihao Gao

Moonshot AI

Weimin Xiong

Moonshot AI

Weiran He

Moonshot AI

Weixiao Huang

Moonshot AI

Weixin Xu

Moonshot AI

Wenhao Wu

Moonshot AI

Wenyang He

Moonshot AI

Xianghui Wei

Moonshot AI

Xianqing Jia

Moonshot AI

Xingzhe Wu

Moonshot AI

Xinran Xu

Moonshot AI

Xinxing Zu

Moonshot AI

Xinyu Zhou

Moonshot AI

Xuehai Pan

Moonshot AI

Y. Charles

Moonshot AI

Yang Li

Moonshot AI

Yangyang Hu

Moonshot AI

Yangyang Liu

Moonshot AI

Yanru Chen

Moonshot AI

Yejie Wang

Moonshot AI

Yibo Liu

Moonshot AI

Yidao Qin

Moonshot AI

Yifeng Liu

Moonshot AI

Ying Yang

Moonshot AI

Yiping Bao

Moonshot AI

Yulun Du

Moonshot AI

Yuxin Wu

Moonshot AI

Yuzhi Wang

Moonshot AI

Zaida Zhou

Moonshot AI

Zhaoji Wang

Moonshot AI

Zhaowei Li

Moonshot AI

Zhen Zhu

Moonshot AI

Zheng Zhang

Moonshot AI

Zhexu Wang

Moonshot AI

Zhilin Yang

Moonshot AI

Zhiqi Huang

Moonshot AI

Zihao Huang

Moonshot AI

Ziyao Xu

Moonshot AI

Zonghan Yang

Moonshot AI

Zongyu Lin

Moonshot AI