arXiv • 2023

A Comprehensive Survey of AI‑Generated Content (AIGC)

GAN‑нан Diffusion мен Transformer‑ге, әрі ChatGPT дәуіріне дейін: генеративті AI тарихын жүйелейтін кең шолу (survey).

НЕ ТУРАЛЫ?

Бұл мақала — «бір жаңа модель» емес. Бұл — AIGC‑тің үлкен картасы: модель отбасылары (GAN/Diffusion/Transformer), модальдылықтар (мәтін/сурет/мультимодаль), қолданба сценарийлері және қауіпсіздік/бағалау сияқты ашық сұрақтар.

7 авторSurvey paperarXiv:2303.04226
AIGC‑ті түсінудің ең жылдам жолы — «жеке модельдерді» емес, тұтас эволюцияны көру.

Соңғы он жылда генеративті AI бірнеше рет парадигма ауыстырды: GAN сапаны көтерді, diffusion сурет генерациясын стандартқа айналдырды, Transformer мәтіннің масштабын ашты, ал RLHF пен өнім интерфейсі ChatGPT‑ті «жаппай» технология қылды.

Бұл survey дәл осы ауысуларды бір «оқу картасына» жинайды: қай жерде қандай идея маңызды болды, қандай trade‑off бар, және бүгінгі өнімдер қандай ғылыми линиядан шықты.

Негізгі инсайт
Генеративті AI‑ді «бір модель» деп ойлау қателік: бұл — дерек, модель отбасы, conditioning, sampling, бағалау және қауіпсіздік сияқты толық жүйе.
Жиі қойылатын сұрақтар
Себебі AIGC туралы ақпарат тым бытыраңқы: біреу тек diffusion айтады, біреу тек LLM, біреу қауіпсіздік туралы. Survey — осының бәрін бір құрылымға жинайды.
Иә. Ол сізге өнім/зерттеу үшін дұрыс шешім қабылдауға көмектеседі: қай модель отбасы қай міндетке лайық, қандай бағалау керек, қауіпсіздік тәуекелі қай жерде шығады.

Бұрынғы мәселе

Генеративті AI әлемі тым көп бағытқа бөлінді — «үлкен сурет» жоғалып кетті.

БҰРЫН
«Әр модель — өз әлемі»
  • GAN, diffusion, LLM — бөлек қауымдастықтар.
  • Evaluation метрикалары бір-бірімен сөйлеспейді.
  • Қауіпсіздік пен құқық мәселелері «соңында» ғана қосылады.
КЕЙІН
«AIGC — толық жүйе»
  • Taxonomy: модель отбасылары мен міндеттер байланысады.
  • Модальдылықтар: текст/сурет/мультимодаль бір картада.
  • Safety/ethics/copyright — негізгі ось ретінде енгізіледі.
Неге бұл визуал керек?

Бұл paper‑дің негізгі contribution‑ы — «классификация» мен «тарихи контекст». Төмендегі интерактив timeline сол ойды бірден ұстатады.

Басты жаңалық

Бұл survey‑дің «жаңалығы» — бір идея емес, бір құрылым: AIGC‑ті дәуірлерге, модель отбасыларына, модальдылықтарға және қауіптерге бөліп, бір картаға жинауы.

Мини‑FAQ
GAN бәсекелес екі желімен үйренеді (generator vs discriminator), ал diffusion шу қосып/тазалау арқылы үлгі жасайды. Практикада diffusion сурет сапасында өте тұрақты стандартқа айналды.
Себебі модель мүмкіндігіне қоса alignment (instruction/RLHF) және қарапайым диалог интерфейсі қосылды. Бұл генерацияны «демо» емес, күнделікті құралға айналдырды.

Архитектура (жүйелік көзқарас)

Бұл paper архитектураны «бір модельдің блок‑схемасы» ретінде емес, AIGC‑тің толық pipeline‑ы ретінде көрсетеді: дерек → модель отбасы → conditioning → sampling → бағалау/қауіпсіздік → өнім.

FAQ
Себебі бұл paper‑дің мақсаты бір жаңа архитектура ұсыну емес, бар архитектуралар әлемін түсіндіру. Сол үшін ол блок‑схема емес, taxonomy + pipeline логикасын береді.
Көп жағдайда: дерек сапасы/лицензия және evaluation. Модельді жақсарту мүмкін, бірақ «нені өлшейміз?» және «неге рұқсат?» деген сұрақтар шешілмесе өнім тұрақсыз болады.

Қолданыс аймақтары

Survey әр модаль бойынша сценарийлер береді. Төмендегілер — AIGC‑тің ең типтік қолданбалары.

🖼️ Сурет генерациясы

Text‑to‑image, стиль трансфері, өнім дизайны прототипі, иллюстрация. Diffusion модельдері бұл жерде стандартқа айналды.

✍️ Мәтін генерациясы

Копирайтинг, қысқа мазмұндама емес — құрылым жасау, жоспар, рефакторинг, аудармаға көмек. LLM‑дер prompt арқылы басқарылатын болды.

🎬 Видео/аудио

Кадр генерациясы, дыбыс синтезі, музыка, дубляж. Бұл бағыттарда қауіпсіздік пен құқық мәселелері әсіресе өткір.

💻 Код және құрал қолдану

IDE‑ға кіріккен көмекші, тест жазу, рефакторинг, құрал шақыру (tool‑use) арқылы агенттік workflow.

🧠 Білім беру

Жекелендірілген түсіндіру, жаттығу генерациясы, кері байланыс. Бірақ академиялық адалдық тәуекелі бар — evaluation маңызды.

🏭 Контент өндірісі

Маркетинг, медиа, ойын индустриясы: контент пайплайны жылдамдайды, бірақ watermark/copyright сияқты міндеттер күшейеді.

Өнеркәсіптік өнімдер

Survey‑дің практикалық жағы: ол өнімдерді «атаумен» емес, олардың артындағы модель отбасы мен жүйелік шешімдермен байланыстыруға үйретеді.

Before vs After

AIGC‑тің «өрісі» қалай өзгерді? Тек модель сапасы емес — қабылдау, UX, құқық және қауіпсіздік те өзгерді.

БҰРЫН (шамамен 2018‑ге дейін)
  • Генерация — зертханалық демоға көбірек ұқсайды.
  • Модальдар бөлінген: мәтін бөлек, сурет бөлек.
  • Бағалау метрикасы тар, қауіпсіздік кейде еленбейді.
КЕЙІН (2020+)
  • AIGC — өнім және платформа (API + интерфейс).
  • Multimodal тренді: бір модель бірнеше сигналды өңдейді.
  • Safety/copyright/watermark — негізгі талапқа айналды.
Аналогия

Ертеректе генеративті модель — «жеке аспап» сияқты еді. Қазір AIGC — толық оркестр: дерек, модель, интерфейс, бағалау, қауіпсіздік бәрі бірге ойнайды.

Қорытынды

Қорытынды инфографика: Problem → Method → Result → Impact
PROBLEM
AIGC туралы білім тым бытыраңқы: модельдер, модальдар, бағалау, қауіпсіздік — әрқайсысы бөлек сөйлейді.
METHOD
Survey: тарих + taxonomy + қолданба сценарийлері + challenges бір картаға жиналады.
RESULT
GAN/Diffusion/Transformer/RLHF линияларының айырмасы мен байланысы айқындалады.
IMPACT
Зерттеу мен өнім үшін дұрыс сұрақтар: evaluation, safety, құқық, тиімділік — бәрі дизайн шешіміне айналады.

Тереңдетілген талдау

Survey‑дің күші — «үлкен суретті» ұстату. Бірақ дәл осы жерде оның әлсіз тұстары да көрінеді: бәрін қамту оңай, бәрін терең қазу қиын.

Профессордың көзқарасы
Бұл paper — генеративті AI‑дің «оқулық картасы»: дәуірлерді, негізгі ұғымдарды және зерттеу сұрақтарын бір жерге жинайды. Егер сіз бір салаға кіріп жатсаңыз, дәл осындай карта уақытты үнемдейді.
Сын көзбен қарау
Survey міндетті түрде «жалпылайды». Кей тарауларда: ең жаңа evaluation, watermarking немесе құқықтық практика тез өзгеріп кеткен болуы мүмкін. Сондықтан paper‑ді «соңғы сөз» емес, «құрылым» ретінде қабылдаған дұрыс.
Үлкен сурет
AIGC зерттеуі енді «модель сапасы» ғана емес: дерек саясаты, өнім UX, қауіпсіздік және қоғамға әсер — бәрі зерттеу тақырыбы. Survey осы көпосьті ойлауды заңдастырады.
Болашақ зерттеу бағыттары
  1. Бағалау (evaluation) — open‑ended контент сапасын және қауіпсіздігін «сенімді» өлшейтін жаңа методология қалай жасалады?
  2. Дерек және құқық — лицензия/прованенс/сутаңба (watermark) өндірістік стандартқа қалай айналады?
  3. Тиімділік — diffusion қадамдарын азайту, multimodal inference latency‑ін қысқарту, memory‑ді үнемдеу: «арзан AIGC» қалай құрылады?
  4. Мультимодаль reasoning — тек генерация емес, дәлел/дәйекпен жұмыс істейтін жүйелер қалай жасалады?

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

Foundation model эволюциясын BERT-тен ChatGPT-ке дейін жүйелейді, AIGC панорамасын толықтырады.

2024
RELATED
NExT-GPT: Any-to-Any Multimodal LLM
Wu et al.

AIGC-тің next step бағыты: тек text-to-image емес, any-to-any multimodal generation.

2017
RELATED
Attention Is All You Need
Vaswani et al.

Қазіргі генеративті multimodal жүйелердің көпшілігі сүйенетін Transformer бастауын береді.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

ЖИ-генерацияланған контент
AIGC
Мәтін, сурет, аудио немесе видео секілді контентті ЖИ арқылы синтездеу экожүйесі.
Диффузиялық модель
Diffusion model
Шудан бастап біртіндеп сапалы сигнал құратын генеративті модельдер отбасы.
Авто-регрессивті генерация
Autoregressive generation
Контентті келесі токенді немесе келесі элементті біртіндеп болжау арқылы шығару тәсілі.
Көпмодальды туралау
Multimodal alignment
Мәтін, сурет, аудио сияқты әртүрлі модальдардың мағынасын ортақ кеңістікте сәйкестендіру.

Авторлар және жарияланым

Авторлар толық көрсетіледі және түпнұсқа дереккөзге сілтеме беріледі.

Авторлар
Барлық авторлар толық көрсетілген.
arXiv • 2023
Yihan Cao
Siyu Li
Yixin Liu
Zhiling Yan
Yutong Dai
Philip S. Yu
Lichao Sun
Publication info
arXiv:2303.04226
Жылы: 2023