arXiv • Тамыз 2024

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

“Ғалым-агент”: идея ұсынудан бастап, код жазып, эксперимент жүргізіп, толық paper жазып, соңында симуляцияланған peer review-тен өткізетін толық автоматтанған research loop.

НЕ ТУРАЛЫ?

Бұл paper LLM-ді “көмекші құрал” емес, “процестің толық иесі” ретінде қарайды: ол ғылыми идеяны генерациялап, экспериментті іске асырып, нәтижені визуалдап, paper жазып және автомат reviewer арқылы бағалап, қайта итерация жасай алады.

Open-ended discoveryCode execution + experimentsAutomated review (simulated)
Бұл paper-дің мәні: “LLM жазсын” емес — “ғылымды өзі жасасын”.

Бүгін AI көп нәрсені жаза алады. Бірақ ғылым — жазу ғана емес: гипотеза, эксперимент дизайны, код, лог, анализ, және “біреу сенеді ме?” деген сұрақ.

“AI Scientist” осы бөліктердің бәрін бір циклға біріктіреді. Егер бұл цикл арзан әрі тұрақты болса, “идея → дәлел” жылдамдығы күрт өседі.

Негізгі инсайт
Толық цикл автоматтанса, ең қымбат ресурс — адам уақыты — идея табу мен тексеруге қайта бөлінуі мүмкін.
Жоқ. Paper “автомат reviewer” қолданатынын айтады — бұл симуляцияланған бағалау. Ол қызық, бірақ нақты конференция/журнал шешімін алмастырмайды.
Себебі агент код жазады да, оны іске қосады. Егер шектеу болмаса, қауіпсіздік, құпия дерек және ресурстарға зиян келтіру тәуекелі бар.

Бұрынғы Мәселе

Ғылыми циклдың “аралық” жұмысы тым көп: код, debugging, график, жазу, форматтау. Бұл уақытты “ойлаудан” алып қояды.

БҰРЫН
  • Идеяны кодқа айналдыру баяу
  • Эксперимент орнату/жөндеу көп уақыт
  • Paper жазу — бөлек “проекта” айналады
  • Review үшін көп адам уақыты кетеді
КЕЙІН (идея)
  • Агент кодты өзі жазады
  • Экспериментті өзі жүргізеді
  • Нәтижені өзі визуалдайды
  • Paper-ді өзі жазады және бағалайды

Басты Жаңалық

Бір агентке “толық цикл” беру: идея → дәлел → paper → review → итерация. Бұл — open-ended discovery-ге жақын архитектуралық қадам.

Бір ғана тапсырманы орындау емес, жаңа сұрақ табу және оны тексеру — ғылымның өзегі. Open-ended цикл адам зерттеушінің жұмыс стиліне жақын.
Ол пайдалы proxy болуы мүмкін, бірақ “ойлаудың” орнына жүрмеуі керек. Метріканы “алдау” және жалған позитив қауіптері бар.

Қолданыс аймақтары

🧪 Fast prototyping

Идеяны тез тексеру: көп экспериментті parallel жүргізу.

📊 Auto analysis

Нәтижені автомат талдау/график: адамға decision time үнем.

📝 Paper drafting

Құрылым, кіріспе, related work, нәтижені баяндау — сапалы draft шығару.

🔁 Iterative discovery

Сәтсіздіктен үйреніп, келесі гипотезаны автомат ұсыну.

Осы идеядан туған өнімдік бағыт

Бұл paper нақты “бір өнім” емес, бірақ трендті бекітеді: зерттеу агенттері (coding + experiments + writing) және олардың қауіпсіз орындау инфрақұрылымы.

Research agents
Зерттеуді жоспарлайтын, эксперимент жүргізетін агенттер.
Safe execution
LLM-кодты sandbox-та орындау, рұқсатты шектеу.
Auto review & eval
Жұмысты тез бағалау үшін прокси-ревьюер/метрика.

Мақала дүниені қалай өзгертті?

БҰРЫН
  • LLM “жазады”, бірақ эксперимент “адамда”
  • Tooling бөлек-бөлек
  • Итерация баяу
КЕЙІН (идея)
  • LLM зерттеудің “толық циклін” ұстайды
  • Execution + analysis + writing бірігеді
  • Open-ended цикл мүмкін

Қорытынды

Problem
Ғылыми цикл қол еңбегіне тәуелді
Method
Агенттік pipeline: идея→код→run→paper→review
Result
Толық paper генерациялау + симуляцияланған бағалау
Impact
Research agents + safe execution бағытын күшейтті

Тереңдетілген талдау

Бұл идеяның ғылыми және қауіпсіздік салдары қандай?

Профессордың көзқарасы

Бұл paper “agentic science” бағытын нақты pipeline ретінде көрсетеді: тек чат емес, нақты артефакт (код, график, paper) шығару.

Ғылыми жағынан ең қызығы — open-ended ізденіс пен бағалау механизмі.

Сын көзбен қарау

Авто-ревьюер — proxy: ол novelty/rigor-ды толық ұстамауы мүмкін.

Код орындау қауіпті: қауіпсіз орта, аудит, және шектеулер міндетті.

Үлкен сурет

Егер мұндай агенттер көбейсе, ғылымда “идея өндірісі” өседі. Бірақ noise та өседі: фильтрлеу/верификация жаңа инфрақұрылым сұрайды.

Болашақ: репликация, автомат тексеру, және ғылыми жауапкершілікті бекіту.

Болашақ зерттеу бағыттары

1. Қауіпсіз орындау стандарттары
Белсенді зерттеу
LLM-код орындалса: sandbox, permissions, secrets, data governance қалай болады?
2. Авто-ревьюердің валидтілігі
Белсенді зерттеу
Reviewer прокси-шкала қаншалық сенімді? Human eval мен correlation қалай?
3. Noise vs discovery
Жаңа бағыт
Көп paper шығару ғылымды жылдамдата ма, әлде “шуды” көбейте ме? Фильтр қалай құрылады?

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2024
RELATED
Can Large Language Models Reason and Plan?
Kambhampati

Автономды зерттеу циклінде verifier және planning шектеулерін түсіну үшін маңызды контр-нүкте.

2025
RELATED
Kimi k1.5: Scaling Reinforcement Learning with LLMs
Kimi Team

Агенттік сценарийлерге маңызды long-context reasoning пен RL масштабтау жағын көрсетеді.

2024
RELATED
NExT-GPT: Any-to-Any Multimodal LLM
Wu et al.

Ғылыми агенттер тек мәтін емес, мультимодаль input/output қажет болатын бағытқа апарады.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Агенттік цикл
Agent loop
Идея ұсыну, код жазу, эксперимент жүргізу, бағалау және қайта жоспарлау сияқты қайталанатын жұмыс ағыны.
Абляция
Ablation study
Жүйенің бір бөлігін алып тастап немесе өзгертіп, сол компоненттің нақты үлесін өлшеу тәсілі.
Peer review симуляциясы
Simulated peer review
LLM немесе модельдер тобының ғылыми жұмысқа рецензент секілді кері байланыс беруі.
Ашық бағытты ізденіс
Open-ended discovery
Нақты бір дұрыс жауабы жоқ, жаңа гипотеза немесе бағыт табуға бағытталған зерттеу режимі.

Бұл кімдердің еңбегі?

Авторлар
Барлық авторлар толық көрсетілген.
Sakana AI / arXiv
Chris Lu
Cong Lu
Robert Tjarko Lange
Jakob Foerster
Jeff Clune
David Ha
Publication info
arXiv:2408.06292 · Submitted Aug 12, 2024 · Revised Sep 1, 2024 (v3)