arXiv • 7–8 Наурыз 2024

Can Large Language Models Reason and Plan?

Автордың негізгі тезисі: LLM көп жағдайда «principled reasoning/planning» емес, approximate retrieval жасайды; ал нақты жоспарлау үшін сыртқы verifier/solver керек.

НЕ ТУРАЛЫ?

Бұл жұмыс LLM-дардың жоспар құрастыруы мен reasoning қабілеттері туралы «қатты» пікірталасқа қосылады: сырттай дұрыс көрінетін жауап жоспардың орындалатынын білдірмейді. Автор planning домендеріндегі тәжірибелерді, action/object атауларын obfuscate ету сияқты тексерістерді, және human-in-the-loop итератив prompting-тің Clever Hans тәуекелін талқылайды.

Planning vs RetrievalObfuscation тестіLLM‑Modulo (verifier)

Агенттер дәуірінде ең қымбат қате — «жоспар бар сияқты көрінді, бірақ орындалмайды».

Көп демо LLM-ның reasoning жасайтындай әсер береді. Бірақ бұл — модельдің есепті “шығаруы” ма, әлде үйренген үлгіні қайта құрастыруы ма — бөлек сұрақ.

Автордың ұсынатын негізгі ойы: «ақылды мәтін» жеткіліксіз — жоспарлау/дәл reasoning үшін тексерілетін механизм керек (симулятор, solver, формалды verifier).

Практикалық takeaway

• «LLM жоспар құрастырды» ≠ «жоспар дұрыс және орындалады».

• Итератив prompting кейде нәтижені жақсартса да, дұрыс жауапқа адам «жетектеп» апаруы мүмкін.

• Сенімді агент құру үшін generate‑test‑critique циклына сыртқы тексергішті қосу қажет.

Жаңалық (идеялар)

Бұл paper “бір benchmark” емес — reasoning туралы дұрыс сұрақ қою тәсілін үйретеді.

Негізгі аргументтер

• LLM-ды “non‑veridical memory / System‑1” сияқты қарастыру: ол дәлелмен емес, ықтимал жалғастырумен жұмыс істейді.

• Planning домендерінде (мысалы Blocks World) performance толық автономды planner деңгейіне жетпейді.

• Объект/әрекет атауларын obfuscate етсеңіз, retrieval әсері азаяды — сонда жоспарлау қабілеті туралы иллюзия бұзылады.

• “Self‑critique / self‑verification” міндетті түрде көмектеспейді: verifier рөлінде LLM өзі де hallucinate етуі мүмкін.

Бұл — жүйе «өздігінен шешті» деп ойлауымыз мүмкін, бірақ шын мәнінде адам (саналы/санасыз) дұрыс жауапқа бағыттап отырған жағдай. Итератив prompting кезінде бұл қауіп күшейеді.

Егер жоспарлау “нақты reasoning” болса, атауларды ауыстыру көп әсер етпеуі керек. Ал retrieval‑ге сүйенсе, атаулар өзгергенде нәтижесі құлауы мүмкін.

Архитектура: LLM‑Modulo (идея)

“Generate → Verify → Feedback → Try again” циклы: LLM идея шығарады, ал дұрыстығын сыртқы жүйе растайды.

1) Generate

LLM кандидат жоспар/дәлел/қадамдар тізбегін ұсынады.

2) Verify

Сыртқы verifier (симулятор, solver, constraint checker) орындалуын немесе дұрыстығын тексереді.

3) Critique

Қате болса, verifier нақты фидбек береді; LLM қайта генерациялайды. Дұрыс болса — сертификатталған нәтиже.

LLM‑Modulo: интерактив “Generate → Verify → Critique” демо

Бұл бөлім paper-дің негізгі идеясын көзбен көруге көмектеседі: жоспарлау міндеттерінде LLM “жоспар құрастырды” деп ойлату мүмкін, бірақ verifier жоқ болса орындалмайтын қадамдар оңай кетеді.

Interactive

Ашық атаулар (retrieval-ге ыңғайлы)

Prompt

Міндет: “Ас бөлмеден кесені ал да, үстелге қой.” Қоршаған орта: {room:kitchen, objects:[cup, table]}

Цикл

Шығыс (қадам: generate)

Step

1) Ас бөлмеге бар.
2) Кесені тап.
3) Кесені ал.
4) Үстелге жақында.
5) Кесені үстелге қой.

Paper идеясы: ашық атауларда нәтиже жақсы көрінуі мүмкін — бірақ бұл әрқашан “нақты жоспарлау” дегенді білдірмейді.

Before vs After: “жоспар” vs “орындалатын жоспар”

Агенттік жүйеде ең қауіпті нәрсе — жоспар “әдемі” көрінеді, бірақ бір-екі қадамы жарамсыз болып шығады. Бұл демо paper-дің “verifier керек” тезисін интуитив деңгейде көрсетеді.

LLM output: тек мәтін → verifier‑мен түзету

Before/After

Мысал prompt

демо

Міндет: “R1 бөлмеден O7 объектісін ал да, O2 объектісіне қой.”

БҰРЫН (тексерілмеген жоспар)

Hallucination risk

1) R1-ге бар.
2) O2-ні ал.
3) O7-ні тап.
4) O7-ні O2-ге қой.

КЕЙІН (verifier‑мен түзетілген)

Verified

1) R1-ге бар.
2) O7-ні ал.
3) O2-ге жақында.
4) O7-ні O2-ге қой.
(Verifier: OK ✅)

Араласу деңгейі: 70%

Негізгі айырма: “әдемі мәтін” емес, орындалу шарттарының сақталуы.

Өнімдер: «агент» қалай сенімді болады?

Бұл жұмыстың message-і: автономды жүйе құруда тек “prompting” емес, тексеру контуры шешуші.

Қолдану сценарийлері

• Құрал‑қолданатын агенттер (tool-use): нәтижені API арқылы тексеру.

• Код генерация: тест/тип‑чек/линт арқылы валидация.

• Логистика/жоспарлау: симулятор/оптимизатор арқылы орындалуын тексеру.

• Құжат/есеп: фактілерді дереккөзден верификациялау.

Антипаттерн

• “Өзіңді‑өзің тексер” (self‑verification) стратегиясына толық сену: verifier әлсіз болса, қате «бекіп» қалуы мүмкін.

• “Жауап сенімді естіледі” дегенге алдану: орындалатын жоспар үшін формалды критерий керек.

Талдау

Күшті жағы — “LLM reasoning” дегенді метафорамен емес, эксперименттік сигналдармен талқылайды: obfuscation, planning домендері, verifier тақырыбы.

Әлсіз жағы — бұл позициялық/синтез мақала: ол «LLM міндетті түрде ешқашан reasoning жасай алмайды» деп математикалық түрде дәлелдемейді, бірақ бізге инженерлік тұрғыдан сенімділік қайдан келеді деген сұрақты айқындайды.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2022

Training language models to follow instructions with human feedback

Ouyang et al.

Пайдалы сөйлейтін модельдер әрқашан сенімді reasoning жасайды дегенді білдірмейтінін контраст ретінде көрсетеді.

Оқу →

2024

The AI Scientist

Lu et al.

Агенттік workflow-ларда verifier-дің неге шешуші екенін практикалық мысалмен жалғайды.

Оқу →

2025

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Kimi Team

Reasoning-ті RL арқылы күшейту бағытындағы оптимистік инженерлік жауапты көрсетеді.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Жоспарлау

Planning

Мақсатқа жету үшін аралық қадамдарды, шектеулерді және рет-ретімен әрекеттерді құру қабілеті.

Тексергiш

Verifier

Модель ұсынған шешімнің орындалатын не дұрыс екенін формалды немесе сыртқы сигналмен тексеретін контур.

Бұрмалау сынағы

Obfuscation test

Мәселенің беткі үлгісін өзгертіп, модель шынымен reasoning жасай ма әлде pattern retrieval ғана ма дегенді тексеру тәсілі.

LLM-Modulo

LLM-Modulo framework

Кандидат шешімді LLM ұсынады, ал correctness-ті сыртқы модуль немесе verifier бекітеді деген инженерлік үлгі.

Автор

arXiv жазбасында бір автор көрсетілген.

Авторлар

Барлық авторлар толық көрсетілген.

Arizona State University

Subbarao Kambhampati

School of Computing & Augmented Intelligence

← Барлық мақалаларға қайту