arXiv • 2024

NExT-GPT: Any-to-Any Multimodal LLM

Көп MM-LLM “көре алады”, бірақ көбіне тек мәтін қайтарады. NExT-GPT мақсаты — адам сияқты: кез келген модальды қабылдап, кез келген модальда жауап беру.

НЕ ТУРАЛЫ?

NExT-GPT LLM-ді multimodal adaptor-лармен және әр модальға арналған diffusion decoder-лермен байланыстырады. Нәтижесінде жүйе text/image/video/audio комбинацияларында түсініп қана қоймай, сол модальдардың өзінде контент шығара алады.

4 модаль: Text/Image/Video/AudioMosIT instruction tuning~1% trainable параметрLLM + diffusion decoders

Неге маңызды?

“Мультимодаль” деген тек input емес. Егер ассистент суретті түсініп, бірақ сізге тек мәтінмен жауап берсе — коммуникация жартылай ғана. Any-to-any жүйе: түсіну + генерация + router логикасын бір UX-ке жинайды.

БҰРЫН

Input-only multimodal

Сурет/видео/аудионы түсінеді
Бірақ көбіне тек мәтін береді
Any-to-any “pipeline” сыртқы tool-дармен жамалады

КЕЙІН

Any-to-any multimodal agent

Кіріс/шығыс модалі еркін
LLM — reasoning + routing
Decoder-лер — генерация “қозғалтқышы”

Бұрынғы мәселе

“Tool soup” проблема: кез келген модальға жауап беру үшін бөлек генераторлар қажет, ал оларды LLM мәтін арқылы ғана басқарса — каскад қателері және ақпарат жоғалуы пайда болады.

Басты жаңалық

Негізгі тезис: LLM-ді “универсал контроллер” қылып, ал мультимодаль генерацияны diffusion decoder-лерге беру. Соның үстіне MosIT сияқты instruction tuning — дұрыс output modality таңдауды үйретеді.

Signature viz: Any-to-any “маршрут матрицасы”

NExT-GPT идеясы — кіріс модалі мен шығыс модалі кез келген комбинация. Ұяшықтарды басып, жүйе қандай “түтік” арқылы жұмыс істейтінін көріңіз.

Any→Any

From \\ To

TEXT

IMAGE

VIDEO

AUDIO

TEXT

IMAGE

VIDEO

AUDIO

Маршрут: Text → Image

Text → Image

T2I

LLM “ниет/семантика” шығарады, ал diffusion decoder оны суретке айналдырады.

Идея: LLM тек “сурет салмайды”; ол генерацияны басқаратын latent/text-conditioned сигнал береді.

Қарапайым формула

encoder(Text) → adaptor → LLM → adaptor → decoder(Image)

Себебі image/video/audio генерациясы көбіне басқа “representation” пен decoder архитектурасын талап етеді. NExT-GPT мұны diffusion decoder-лерге аутсорс етеді: LLM семантика/жоспарды шешеді, decoder контентті салады.

Бұл тәсіл train cost-ты төмендетіп, жаңа модаль қосқанда жүйені кеңейтуді жеңілдетеді: ауыр backbone-ты қайта үйретпей, тек bridge қабаттарын баптайсыз.

Жүйенің құрылысы

NExT-GPT-ті “бір модель” емес, құрастырылған жүйе деп қараған дұрыс.

Жүйе диаграммасы: LLM + adaptors + diffusion decoders

Бұл — NExT-GPT-тің “end-to-end” логикасы: көпмодальды түсіну және көпмодальды генерацияны бір жүйеге біріктіру.

Architecture

Блоктар

Projection layers (~1%)

2) Multimodal adaptors

оқу үшін

Encoder embedding-терін LLM токен кеңістігіне картаға түсіреді.

Trainable параметрдің көп бөлігі дәл осы projection/adaptor қабаттарында.

Қысқа интуиция

Frozen backbone + tiny trainable bridge

Mini chart: “1% trainable” интуициясы

NExT-GPT heavy backbone-тарды көбіне freeze етіп, тек projection/adaptor сияқты қабаттарды (шамамен ~1%) үйретуді көздейді.

Mini chart

Параметр бөлінісі

1% vs 99%

Trainable: projection/adaptors

Frozen: encoders + diffusion decoders + (көбіне) LLM backbone

Қолданыс аймақтары

CREATIVE ASSISTANT

Тексттен сурет/видео/аудио жасап, сценарийді бір диалогта итерациялау.

MULTIMODAL SEARCH & SUMMARIZE

Видео/аудио/суретті түсініп, қысқаша мәтін, слайд немесе визуал жауап жасау.

EDUCATION

Есепті түсіндіріп қана қоймай, диаграмманы қайта салып беру немесе аудиомен түсіндіру.

MEDIA OPS

Субтитр/дубляж/тизер: video↔audio↔text конверсиялары.

Өнеркәсіптік өнімдер

Өнеркәсіптік өнімдер (lineage)

Any-to-any идеясы — мультимодаль агенттерге апаратын “платформа” ойы.

Timeline

Before vs After

BEFORE

Multimodal in, text out

Генерация бөлек tool chain
Каскад қателері көбейеді
Output modality router көбіне ad-hoc

AFTER

Any-to-any agent

LLM routing + diffusion decoders
Тиімді tuning: frozen + ~1% trainable
MosIT арқылы cross-modal instruction

Қорытынды

Problem → Method → Result → Impact

PROBLEM

MM-LLM көбіне input-only; any-to-any жоқ.

METHOD

LLM + adaptors + diffusion decoders + MosIT.

RESULT

Text/Image/Video/Audio комбинацияларында түсіну+генерация.

IMPACT

Multimodal агенттер және creative pipeline UX.

Терең талдау

Any-to-any жүйелерде bottleneck көбіне “LLM күшінде” емес, router, dataset, decoder сапасында.

Болашақ бағыт

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2023

Zhou et al.

Мультимодаль foundation model эволюциясының кең контекстін береді.

Оқу →

2024

Saab et al.

Мультимодаль түсіну жағын кез келген модальда жауап беру бағытымен салыстыруға ыңғайлы.

Оқу →

2022

Ouyang et al.

NExT-GPT-дегі instruction-following қабатының түбірін түсіндіреді.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Кез келгеннен кез келгенге

Any-to-any

Кіріс модалі мен шығыс модалі еркін болатын мультимодальды өзара әрекет режимі.

Көпмодаль адаптор

Multimodal adaptor

Encoder немесе LLM кеңістіктерін бір-біріне жалғайтын projection қабаты.

Диффузиялық декодер

Diffusion decoder

Сурет, видео немесе аудио сияқты сигналды шу кеңістігінен біртіндеп қалпына келтіріп генерациялайтын модель.

Модаль ауыстыру нұсқауы

Modality-switching instruction tuning

Қай модальда жауап беру керегін және сол модальға сай нұсқауды түсінуге үйрететін tuning сатысы.

Авторлар

arXiv: 2309.05519v3 (updated: 2024-06-25). Primary subject: cs.AI.

Авторлар

Барлық авторлар толық көрсетілген.

NExT++ • National University of Singapore

Shengqiong Wu