arXiv • 2024

NExT-GPT: Any-to-Any Multimodal LLM

Көп MM-LLM “көре алады”, бірақ көбіне тек мәтін қайтарады. NExT-GPT мақсаты — адам сияқты: кез келген модальды қабылдап, кез келген модальда жауап беру.

НЕ ТУРАЛЫ?

NExT-GPT LLM-ді multimodal adaptor-лармен және әр модальға арналған diffusion decoder-лермен байланыстырады. Нәтижесінде жүйе text/image/video/audio комбинацияларында түсініп қана қоймай, сол модальдардың өзінде контент шығара алады.

4 модаль: Text/Image/Video/AudioMosIT instruction tuning~1% trainable параметрLLM + diffusion decoders

Неге маңызды?

“Мультимодаль” деген тек input емес. Егер ассистент суретті түсініп, бірақ сізге тек мәтінмен жауап берсе — коммуникация жартылай ғана. Any-to-any жүйе: түсіну + генерация + router логикасын бір UX-ке жинайды.

БҰРЫН
Input-only multimodal
  • Сурет/видео/аудионы түсінеді
  • Бірақ көбіне тек мәтін береді
  • Any-to-any “pipeline” сыртқы tool-дармен жамалады
КЕЙІН
Any-to-any multimodal agent
  • Кіріс/шығыс модалі еркін
  • LLM — reasoning + routing
  • Decoder-лер — генерация “қозғалтқышы”

Бұрынғы мәселе

“Tool soup” проблема: кез келген модальға жауап беру үшін бөлек генераторлар қажет, ал оларды LLM мәтін арқылы ғана басқарса — каскад қателері және ақпарат жоғалуы пайда болады.

Басты жаңалық

Негізгі тезис: LLM-ді “универсал контроллер” қылып, ал мультимодаль генерацияны diffusion decoder-лерге беру. Соның үстіне MosIT сияқты instruction tuning — дұрыс output modality таңдауды үйретеді.

Signature viz: Any-to-any “маршрут матрицасы”

NExT-GPT идеясы — кіріс модалі мен шығыс модалі кез келген комбинация. Ұяшықтарды басып, жүйе қандай “түтік” арқылы жұмыс істейтінін көріңіз.

Any→Any
From \\ To
TEXT
IMAGE
VIDEO
AUDIO
TEXT
IMAGE
VIDEO
AUDIO
Маршрут: TextImage
Text → Image
T2I

LLM “ниет/семантика” шығарады, ал diffusion decoder оны суретке айналдырады.

Идея: LLM тек “сурет салмайды”; ол генерацияны басқаратын latent/text-conditioned сигнал береді.

Қарапайым формула
encoder(Text) → adaptor → LLM → adaptor → decoder(Image)
Себебі image/video/audio генерациясы көбіне басқа “representation” пен decoder архитектурасын талап етеді. NExT-GPT мұны diffusion decoder-лерге аутсорс етеді: LLM семантика/жоспарды шешеді, decoder контентті салады.
Бұл тәсіл train cost-ты төмендетіп, жаңа модаль қосқанда жүйені кеңейтуді жеңілдетеді: ауыр backbone-ты қайта үйретпей, тек bridge қабаттарын баптайсыз.

Жүйенің құрылысы

NExT-GPT-ті “бір модель” емес, құрастырылған жүйе деп қараған дұрыс.

Жүйе диаграммасы: LLM + adaptors + diffusion decoders

Бұл — NExT-GPT-тің “end-to-end” логикасы: көпмодальды түсіну және көпмодальды генерацияны бір жүйеге біріктіру.

Architecture
Блоктар
Projection layers (~1%)
2) Multimodal adaptors
оқу үшін

Encoder embedding-терін LLM токен кеңістігіне картаға түсіреді.

Trainable параметрдің көп бөлігі дәл осы projection/adaptor қабаттарында.

Қысқа интуиция
Frozen backbone + tiny trainable bridge
Mini chart: “1% trainable” интуициясы

NExT-GPT heavy backbone-тарды көбіне freeze етіп, тек projection/adaptor сияқты қабаттарды (шамамен ~1%) үйретуді көздейді.

Mini chart
Параметр бөлінісі
1% vs 99%
Trainable: projection/adaptors
Frozen: encoders + diffusion decoders + (көбіне) LLM backbone

Қолданыс аймақтары

CREATIVE ASSISTANT

Тексттен сурет/видео/аудио жасап, сценарийді бір диалогта итерациялау.

MULTIMODAL SEARCH & SUMMARIZE

Видео/аудио/суретті түсініп, қысқаша мәтін, слайд немесе визуал жауап жасау.

EDUCATION

Есепті түсіндіріп қана қоймай, диаграмманы қайта салып беру немесе аудиомен түсіндіру.

MEDIA OPS

Субтитр/дубляж/тизер: video↔audio↔text конверсиялары.

Өнеркәсіптік өнімдер

Өнеркәсіптік өнімдер (lineage)

Any-to-any идеясы — мультимодаль агенттерге апаратын “платформа” ойы.

Timeline

Before vs After

BEFORE
Multimodal in, text out
  • Генерация бөлек tool chain
  • Каскад қателері көбейеді
  • Output modality router көбіне ad-hoc
AFTER
Any-to-any agent
  • LLM routing + diffusion decoders
  • Тиімді tuning: frozen + ~1% trainable
  • MosIT арқылы cross-modal instruction

Қорытынды

Problem → Method → Result → Impact
PROBLEM
MM-LLM көбіне input-only; any-to-any жоқ.
METHOD
LLM + adaptors + diffusion decoders + MosIT.
RESULT
Text/Image/Video/Audio комбинацияларында түсіну+генерация.
IMPACT
Multimodal агенттер және creative pipeline UX.

Терең талдау

Any-to-any жүйелерде bottleneck көбіне “LLM күшінде” емес, router, dataset, decoder сапасында.

Болашақ бағыт

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

Мультимодаль foundation model эволюциясының кең контекстін береді.

2024
RELATED
Capabilities of Gemini Models in Medicine
Saab et al.

Мультимодаль түсіну жағын кез келген модальда жауап беру бағытымен салыстыруға ыңғайлы.

2022
RELATED
Training language models to follow instructions with human feedback
Ouyang et al.

NExT-GPT-дегі instruction-following қабатының түбірін түсіндіреді.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Кез келгеннен кез келгенге
Any-to-any
Кіріс модалі мен шығыс модалі еркін болатын мультимодальды өзара әрекет режимі.
Көпмодаль адаптор
Multimodal adaptor
Encoder немесе LLM кеңістіктерін бір-біріне жалғайтын projection қабаты.
Диффузиялық декодер
Diffusion decoder
Сурет, видео немесе аудио сияқты сигналды шу кеңістігінен біртіндеп қалпына келтіріп генерациялайтын модель.
Модаль ауыстыру нұсқауы
Modality-switching instruction tuning
Қай модальда жауап беру керегін және сол модальға сай нұсқауды түсінуге үйрететін tuning сатысы.

Авторлар

arXiv: 2309.05519v3 (updated: 2024-06-25). Primary subject: cs.AI.

Авторлар
Барлық авторлар толық көрсетілген.
NExT++ • National University of Singapore
Shengqiong Wu
NExT++, School of Computing, National University of Singapore
Hao Fei
NExT++, School of Computing, National University of Singapore
Leigang Qu
NExT++, School of Computing, National University of Singapore
Wei Ji
NExT++, School of Computing, National University of Singapore
Tat-Seng Chua
NExT++, School of Computing, National University of Singapore