arXiv • 2023

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Бұл мақала — “бір модель туралы” емес. Бұл мақала — бүкіл дәуірдің картасы: Foundation model-дер (BERT→ChatGPT) қалай пайда болды, қалай кеңейді (text/vision/graph), және қандай “fundamentals” проблемалар (efficiency, security, privacy) алға шықты.

НЕ ТУРАЛЫ?

Pretrained Foundation Model (PFM) — көп дерекпен алдын ала үйретілген, кейін downstream міндеттерге fine-tune/prompt арқылы бейімделетін “негіз” модель. Survey paper PFMs-тің базалық компоненттерін (Transformer, learning mechanisms, pretraining tasks), модаль бойынша эволюциясын (NLP/CV/Graph), сондай-ақ efficiency, security, privacy сияқты “ядролық” тақырыптарын жинақтайды.

arXiv:2302.09419v3Text + Vision + GraphHistory + TaxonomySecurity / Privacy / Efficiency

Неге маңызды?

Foundation model-дер тез дамыды: objective, дерек, архитектура, alignment, serving — бәрі бір-бірімен байланысып кетті. Бұл survey — зерттеушіге де, инженерге де “қай жерден бастау керек?” деген сұраққа жауап беретін карта.

БҰРЫН

“Paper jungle”: бәрі шашыраңқы

NLP/CV/Graph бағыттары бөлек “тілде” сөйлейді
Objective, data, evaluation ұғымдары араласып кетеді
Security/privacy көбіне “қосымша бөлім” болып қалады

КЕЙІН

“System thinking”: taxonomy + history + fundamentals

Компоненттерді жүйелейді: data/arch/objective/adaptation
Модальаралық байланыс береді: unified PFMs
Efficiency/security/privacy-ді core тақырып қылады

Mini chart: парадигма және тәуекел

Survey “тарих” пен “fundamentals”-ты қатар ұстайды: capability өссе, қауіп-қатер де өседі.

Mini chart

Representation (BERT)

60

MLM + fine-tune дәуірі

Generation (GPT‑3)

78

AR LM + prompting күшейді

Alignment (ChatGPT)

92

Instruction + RLHF + өнімдік UX

Бұл шкала “нақты өлшем” емес — оқуға көмектесетін визуалды метафора.

Басты жаңалық

Бұл paper-дің жаңалығы — жаңа loss немесе жаңа архитектура емес. Оның “core innovation”-ы — PFMs туралы ойлаудың дұрыс жүйесін беру: (1) тарих, (2) taxonomy, (3) open problems.

BERT → ChatGPT: тарихты “бір картаға” сыйғызу

Бұл survey-дің негізгі құндылығы — PFMs эволюциясын модаль бойынша жүйелеу. Төменде track ауыстырып, milestone-дарды басып көріңіз.

Signature interactive

NLP тарихы

Bidirectional encoder

BERT (2018)

NLP

Masked language modeling арқылы контексті екі жақтан “оқиды”.

Downstream міндеттерге fine-tune жасау оңай болды.

PFM taxonomy: “нені ойлау керек?”

Survey paper-дің ең пайдалы жағы — ұғымдарды реттеу. Бұл диаграмма PFMs туралы сөйлескенде негізгі “осьтерді” көрсетеді.

Interactive diagram

Тораптар

MLM / AR / contrastive / ...

Pretraining objectives

survey lens

Міндет (objective) модельдің “қалай ойлайтынын” анықтайды: MLM vs autoregressive, contrastive alignment, denoising, т.б.

Survey NLP/CV/Graph үшін pretraining task-тарды жүйелейді.

One-liner

PFMs = data + transformer + objective + adaptation + evaluation + fundamentals

Егер сіз foundation model-дерге кірісіп жатсаңыз (RAG, fine-tuning, evaluation, multimodal), бұл survey “жалпы суретті” тез жинауға көмектеседі. Зерттеушіге — taxonomy, инженерге — fundamentals (cost/security/privacy) бөлімі пайдалы.

Ортақ идея — үлкен дерекпен алдын ала үйретіп, кейін аз дерекпен бейімдеу. Тек “токен” ұғымы өзгеруі мүмкін: сөздер, image patches, граф тораптары — бәрі Transformer стиліндегі representation-ға айналады.

Архитектура (негізгі building blocks)

Survey Transformer-ді PFM-дердің базалық компоненті ретінде сипаттайды. Төмендегі интерактивтер архитектура интуициясын ұстап тұруға көмектеседі.

Нақты takeaway

“Foundation model” — бір ғана модель емес; бұл толық pipeline: дерек → objective → training → adaptation → evaluation → serving + қауіпсіздік/құпиялылық.

Қолданыс аймақтары және өнімдер

PFMs — downstream өнімдерге “платформа” береді. Survey әр модаль үшін әдістер мен бенчмарктерді жинап, өнеркәсіптік мысалдарға жалғайды.

NLP

QA, summarization, translation, code generation — prompting/fine-tuning арқылы.

Vision

Classification, retrieval, generation (text-to-image) — multimodal alignment арқылы.

Graph

Recommendation, chemistry, knowledge graphs — structure-aware pretraining арқылы.

Unified

Text+image+graph бір модельде: дерек сапасы, alignment, serving bottleneck.

Өнімдер (survey-ден шығатын lineage)

Бұл paper “бір модель” емес — бүкіл дәуірді жинақтайды. Бірақ оның практикалық салдары өнімдерге тікелей көрінеді.

Timeline

Кеңес: картаға басыңыз — түсіндірме кеңейеді.

Терең талдау

Survey-дің негізгі “ақылды” ойы: capability өсімін тек “жақсы жауап” деп қарамау керек — ол cost, қауіпсіздік және құпиялылық мәселелерін де күшейтеді.

PERSPECTIVE 1

Efficiency = өнімдік шарт

Model сапасы артқан сайын inference құны өседі. Compression, distillation, caching, serving инженериясы — core research.

PERSPECTIVE 2

Security surface кеңейеді

Prompt injection/jailbreak сияқты шабуылдар “модель қабілетінің” өзіне тәуелді болуы мүмкін. Red-teaming және eval методологиясы маңызды.

PERSPECTIVE 3

Privacy — dataset мәселесі

Memorization және leakage тәуекелі дерек жинаудан басталады. Data governance + training-time/privacy техникасы қатар керек.

Before vs After (нақты салыстыру)

BEFORE

“Тек accuracy” ойлау

Модельдің “жақсы” болуы көбіне benchmark ұпайымен ғана өлшенеді.

AFTER

“Foundation fundamentals” ойлау

Capability + cost + safety + privacy — бір жүйе ретінде қаралады.

Қорытынды инфографика: Problem → Method → Result → Impact

PROBLEM

PFM әдебиеті тым кең: бағыттар, objective, модаль, metrics.

METHOD

Survey: taxonomy + history + challenges жинағы.

RESULT

NLP/CV/Graph және unified PFMs туралы бір карта.

IMPACT

Зерттеу/өнім шешімдері үшін “дұрыс сұрақтар” тізімі.

Болашақ зерттеу бағыттары

Data governance: лицензия, сапа, leakage — foundation деңгейінде қалай басқарылуы керек?
Evaluation: open-ended reasoning + multimodal сценарийлер үшін “сенімді” бағалау қалай құрылады?
Efficiency: high-quality short modes (latency/құн) және compression-ның келесі буыны.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2017

Vaswani et al.

PFM дәуірінің архитектуралық бастау нүктесі.

Оқу →

2020

Brown et al.

Prompting және scale парадигмасын mainstream еткен кезең.

Оқу →

2022

Ouyang et al.

ChatGPT бағытының alignment жағын түсіндіреді.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Негіз модель

Foundation Model

Көп дерекпен алдын ала үйретіліп, кейін көптеген міндетке бейімделетін жалпы модель.

Алдын ала үйрету міндеті

Pretraining objective

MLM, autoregressive LM, contrastive alignment сияқты loss немесе оқу мақсаты.

Бейімдеу

Adaptation

Fine-tuning, prompting, instruction tuning немесе RLHF арқылы downstream қолдану тәсілдері.

Қысу

Compression

Serving құнын төмендету үшін quantization, distillation немесе pruning қолдану әдістері.

Авторлар және жарияланым дерегі

arXiv: 2302.09419 (v3: 2023-05-01). Primary subject: cs.AI. PDF: 2302.09419v3.

Авторлар

Барлық авторлар толық көрсетілген.

Ce Zhou

Michigan State University

Qian Li

Beihang University

Chen Li

Beihang University

Jun Yu

Lehigh University

Yixin Liu

Lehigh University

Guangjing Wang

Michigan State University

Kai Zhang

Lehigh University

Cheng Ji

Beihang University

Qiben Yan

Michigan State University

Lifang He

Lehigh University

Hao Peng

Beihang University

Jianxin Li

Beihang University

Jia Wu

Macquarie University

Ziwei Liu

Nanyang Technological University

Pengtao Xie

University of California San Diego

Caiming Xiong

Salesforce AI Research

Jian Pei

Duke University

Philip S. Yu

University of Illinois at Chicago

Lichao Sun

Lehigh University