arXiv • Тамыз 2024

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

“Ғалым-агент”: идея ұсынудан бастап, код жазып, эксперимент жүргізіп, толық paper жазып, соңында симуляцияланған peer review-тен өткізетін толық автоматтанған research loop.

НЕ ТУРАЛЫ?

Бұл paper LLM-ді “көмекші құрал” емес, “процестің толық иесі” ретінде қарайды: ол ғылыми идеяны генерациялап, экспериментті іске асырып, нәтижені визуалдап, paper жазып және автомат reviewer арқылы бағалап, қайта итерация жасай алады.

Open-ended discoveryCode execution + experimentsAutomated review (simulated)

Бұл paper-дің мәні: “LLM жазсын” емес — “ғылымды өзі жасасын”.

Бүгін AI көп нәрсені жаза алады. Бірақ ғылым — жазу ғана емес: гипотеза, эксперимент дизайны, код, лог, анализ, және “біреу сенеді ме?” деген сұрақ.

“AI Scientist” осы бөліктердің бәрін бір циклға біріктіреді. Егер бұл цикл арзан әрі тұрақты болса, “идея → дәлел” жылдамдығы күрт өседі.

Негізгі инсайт

Толық цикл автоматтанса, ең қымбат ресурс — адам уақыты — идея табу мен тексеруге қайта бөлінуі мүмкін.

Жоқ. Paper “автомат reviewer” қолданатынын айтады — бұл симуляцияланған бағалау. Ол қызық, бірақ нақты конференция/журнал шешімін алмастырмайды.

Себебі агент код жазады да, оны іске қосады. Егер шектеу болмаса, қауіпсіздік, құпия дерек және ресурстарға зиян келтіру тәуекелі бар.

Бұрынғы Мәселе

Ғылыми циклдың “аралық” жұмысы тым көп: код, debugging, график, жазу, форматтау. Бұл уақытты “ойлаудан” алып қояды.

БҰРЫН

Идеяны кодқа айналдыру баяу
Эксперимент орнату/жөндеу көп уақыт
Paper жазу — бөлек “проекта” айналады
Review үшін көп адам уақыты кетеді

КЕЙІН (идея)

Агент кодты өзі жазады
Экспериментті өзі жүргізеді
Нәтижені өзі визуалдайды
Paper-ді өзі жазады және бағалайды

Басты Жаңалық

Бір агентке “толық цикл” беру: идея → дәлел → paper → review → итерация. Бұл — open-ended discovery-ге жақын архитектуралық қадам.

Бір ғана тапсырманы орындау емес, жаңа сұрақ табу және оны тексеру — ғылымның өзегі. Open-ended цикл адам зерттеушінің жұмыс стиліне жақын.

Ол пайдалы proxy болуы мүмкін, бірақ “ойлаудың” орнына жүрмеуі керек. Метріканы “алдау” және жалған позитив қауіптері бар.

Қолданыс аймақтары

🧪 Fast prototyping

Идеяны тез тексеру: көп экспериментті parallel жүргізу.

📊 Auto analysis

Нәтижені автомат талдау/график: адамға decision time үнем.

📝 Paper drafting

Құрылым, кіріспе, related work, нәтижені баяндау — сапалы draft шығару.

🔁 Iterative discovery

Сәтсіздіктен үйреніп, келесі гипотезаны автомат ұсыну.

Осы идеядан туған өнімдік бағыт

Бұл paper нақты “бір өнім” емес, бірақ трендті бекітеді: зерттеу агенттері (coding + experiments + writing) және олардың қауіпсіз орындау инфрақұрылымы.

Research agents

Зерттеуді жоспарлайтын, эксперимент жүргізетін агенттер.

Safe execution

LLM-кодты sandbox-та орындау, рұқсатты шектеу.

Auto review & eval

Жұмысты тез бағалау үшін прокси-ревьюер/метрика.

Мақала дүниені қалай өзгертті?

БҰРЫН

LLM “жазады”, бірақ эксперимент “адамда”
Tooling бөлек-бөлек
Итерация баяу

КЕЙІН (идея)

LLM зерттеудің “толық циклін” ұстайды
Execution + analysis + writing бірігеді
Open-ended цикл мүмкін

Қорытынды

Problem

Ғылыми цикл қол еңбегіне тәуелді

Method

Агенттік pipeline: идея→код→run→paper→review

Result

Толық paper генерациялау + симуляцияланған бағалау

Impact

Research agents + safe execution бағытын күшейтті

Тереңдетілген талдау

Бұл идеяның ғылыми және қауіпсіздік салдары қандай?

Профессордың көзқарасы

Бұл paper “agentic science” бағытын нақты pipeline ретінде көрсетеді: тек чат емес, нақты артефакт (код, график, paper) шығару.

Ғылыми жағынан ең қызығы — open-ended ізденіс пен бағалау механизмі.

Сын көзбен қарау

Авто-ревьюер — proxy: ол novelty/rigor-ды толық ұстамауы мүмкін.

Код орындау қауіпті: қауіпсіз орта, аудит, және шектеулер міндетті.

Үлкен сурет

Егер мұндай агенттер көбейсе, ғылымда “идея өндірісі” өседі. Бірақ noise та өседі: фильтрлеу/верификация жаңа инфрақұрылым сұрайды.

Болашақ: репликация, автомат тексеру, және ғылыми жауапкершілікті бекіту.

Болашақ зерттеу бағыттары

1. Қауіпсіз орындау стандарттары

Белсенді зерттеу

LLM-код орындалса: sandbox, permissions, secrets, data governance қалай болады?

2. Авто-ревьюердің валидтілігі

Белсенді зерттеу

Reviewer прокси-шкала қаншалық сенімді? Human eval мен correlation қалай?

3. Noise vs discovery

Жаңа бағыт

Көп paper шығару ғылымды жылдамдата ма, әлде “шуды” көбейте ме? Фильтр қалай құрылады?

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2024

Kambhampati

Автономды зерттеу циклінде verifier және planning шектеулерін түсіну үшін маңызды контр-нүкте.

Оқу →

2025

Kimi Team

Агенттік сценарийлерге маңызды long-context reasoning пен RL масштабтау жағын көрсетеді.

Оқу →

2024

Wu et al.

Ғылыми агенттер тек мәтін емес, мультимодаль input/output қажет болатын бағытқа апарады.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Агенттік цикл

Agent loop

Идея ұсыну, код жазу, эксперимент жүргізу, бағалау және қайта жоспарлау сияқты қайталанатын жұмыс ағыны.

Абляция

Ablation study

Жүйенің бір бөлігін алып тастап немесе өзгертіп, сол компоненттің нақты үлесін өлшеу тәсілі.

Peer review симуляциясы

Simulated peer review

LLM немесе модельдер тобының ғылыми жұмысқа рецензент секілді кері байланыс беруі.

Ашық бағытты ізденіс

Open-ended discovery

Нақты бір дұрыс жауабы жоқ, жаңа гипотеза немесе бағыт табуға бағытталған зерттеу режимі.

Бұл кімдердің еңбегі?

Авторлар

Барлық авторлар толық көрсетілген.

Sakana AI / arXiv

Chris Lu

Cong Lu

Robert Tjarko Lange

Jakob Foerster

Jeff Clune

David Ha

Publication info

arXiv:2408.06292 · Submitted Aug 12, 2024 · Revised Sep 1, 2024 (v3)

Түпнұсқа мақаланы оқу (arXiv) →

← Барлық мақалаларға қайту