arXiv • 2023

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Бұл мақала — “бір модель туралы” емес. Бұл мақала — бүкіл дәуірдің картасы: Foundation model-дер (BERT→ChatGPT) қалай пайда болды, қалай кеңейді (text/vision/graph), және қандай “fundamentals” проблемалар (efficiency, security, privacy) алға шықты.

НЕ ТУРАЛЫ?

Pretrained Foundation Model (PFM) — көп дерекпен алдын ала үйретілген, кейін downstream міндеттерге fine-tune/prompt арқылы бейімделетін “негіз” модель. Survey paper PFMs-тің базалық компоненттерін (Transformer, learning mechanisms, pretraining tasks), модаль бойынша эволюциясын (NLP/CV/Graph), сондай-ақ efficiency, security, privacy сияқты “ядролық” тақырыптарын жинақтайды.

arXiv:2302.09419v3Text + Vision + GraphHistory + TaxonomySecurity / Privacy / Efficiency

Неге маңызды?

Foundation model-дер тез дамыды: objective, дерек, архитектура, alignment, serving — бәрі бір-бірімен байланысып кетті. Бұл survey — зерттеушіге де, инженерге де “қай жерден бастау керек?” деген сұраққа жауап беретін карта.

БҰРЫН
“Paper jungle”: бәрі шашыраңқы
  • NLP/CV/Graph бағыттары бөлек “тілде” сөйлейді
  • Objective, data, evaluation ұғымдары араласып кетеді
  • Security/privacy көбіне “қосымша бөлім” болып қалады
КЕЙІН
“System thinking”: taxonomy + history + fundamentals
  • Компоненттерді жүйелейді: data/arch/objective/adaptation
  • Модальаралық байланыс береді: unified PFMs
  • Efficiency/security/privacy-ді core тақырып қылады
Mini chart: парадигма және тәуекел

Survey “тарих” пен “fundamentals”-ты қатар ұстайды: capability өссе, қауіп-қатер де өседі.

Mini chart
Representation (BERT)
60
MLM + fine-tune дәуірі
Generation (GPT‑3)
78
AR LM + prompting күшейді
Alignment (ChatGPT)
92
Instruction + RLHF + өнімдік UX
Бұл шкала “нақты өлшем” емес — оқуға көмектесетін визуалды метафора.

Басты жаңалық

Бұл paper-дің жаңалығы — жаңа loss немесе жаңа архитектура емес. Оның “core innovation”-ы — PFMs туралы ойлаудың дұрыс жүйесін беру: (1) тарих, (2) taxonomy, (3) open problems.

BERT → ChatGPT: тарихты “бір картаға” сыйғызу

Бұл survey-дің негізгі құндылығы — PFMs эволюциясын модаль бойынша жүйелеу. Төменде track ауыстырып, milestone-дарды басып көріңіз.

Signature interactive
NLP тарихы
Bidirectional encoder
BERT (2018)
NLP

Masked language modeling арқылы контексті екі жақтан “оқиды”.

Downstream міндеттерге fine-tune жасау оңай болды.

PFM taxonomy: “нені ойлау керек?”

Survey paper-дің ең пайдалы жағы — ұғымдарды реттеу. Бұл диаграмма PFMs туралы сөйлескенде негізгі “осьтерді” көрсетеді.

Interactive diagram
Тораптар
MLM / AR / contrastive / ...
Pretraining objectives
survey lens

Міндет (objective) модельдің “қалай ойлайтынын” анықтайды: MLM vs autoregressive, contrastive alignment, denoising, т.б.

Survey NLP/CV/Graph үшін pretraining task-тарды жүйелейді.

One-liner
PFMs = data + transformer + objective + adaptation + evaluation + fundamentals
Егер сіз foundation model-дерге кірісіп жатсаңыз (RAG, fine-tuning, evaluation, multimodal), бұл survey “жалпы суретті” тез жинауға көмектеседі. Зерттеушіге — taxonomy, инженерге — fundamentals (cost/security/privacy) бөлімі пайдалы.
Ортақ идея — үлкен дерекпен алдын ала үйретіп, кейін аз дерекпен бейімдеу. Тек “токен” ұғымы өзгеруі мүмкін: сөздер, image patches, граф тораптары — бәрі Transformer стиліндегі representation-ға айналады.

Архитектура (негізгі building blocks)

Survey Transformer-ді PFM-дердің базалық компоненті ретінде сипаттайды. Төмендегі интерактивтер архитектура интуициясын ұстап тұруға көмектеседі.

Нақты takeaway

“Foundation model” — бір ғана модель емес; бұл толық pipeline: дерек → objective → training → adaptation → evaluation → serving + қауіпсіздік/құпиялылық.

Қолданыс аймақтары және өнімдер

PFMs — downstream өнімдерге “платформа” береді. Survey әр модаль үшін әдістер мен бенчмарктерді жинап, өнеркәсіптік мысалдарға жалғайды.

NLP
QA, summarization, translation, code generation — prompting/fine-tuning арқылы.
Vision
Classification, retrieval, generation (text-to-image) — multimodal alignment арқылы.
Graph
Recommendation, chemistry, knowledge graphs — structure-aware pretraining арқылы.
Unified
Text+image+graph бір модельде: дерек сапасы, alignment, serving bottleneck.
Өнімдер (survey-ден шығатын lineage)

Бұл paper “бір модель” емес — бүкіл дәуірді жинақтайды. Бірақ оның практикалық салдары өнімдерге тікелей көрінеді.

Timeline
Кеңес: картаға басыңыз — түсіндірме кеңейеді.

Терең талдау

Survey-дің негізгі “ақылды” ойы: capability өсімін тек “жақсы жауап” деп қарамау керек — ол cost, қауіпсіздік және құпиялылық мәселелерін де күшейтеді.

PERSPECTIVE 1
Efficiency = өнімдік шарт

Model сапасы артқан сайын inference құны өседі. Compression, distillation, caching, serving инженериясы — core research.

PERSPECTIVE 2
Security surface кеңейеді

Prompt injection/jailbreak сияқты шабуылдар “модель қабілетінің” өзіне тәуелді болуы мүмкін. Red-teaming және eval методологиясы маңызды.

PERSPECTIVE 3
Privacy — dataset мәселесі

Memorization және leakage тәуекелі дерек жинаудан басталады. Data governance + training-time/privacy техникасы қатар керек.

Before vs After (нақты салыстыру)
BEFORE
“Тек accuracy” ойлау

Модельдің “жақсы” болуы көбіне benchmark ұпайымен ғана өлшенеді.

AFTER
“Foundation fundamentals” ойлау

Capability + cost + safety + privacy — бір жүйе ретінде қаралады.

Қорытынды инфографика: Problem → Method → Result → Impact
PROBLEM
PFM әдебиеті тым кең: бағыттар, objective, модаль, metrics.
METHOD
Survey: taxonomy + history + challenges жинағы.
RESULT
NLP/CV/Graph және unified PFMs туралы бір карта.
IMPACT
Зерттеу/өнім шешімдері үшін “дұрыс сұрақтар” тізімі.
Болашақ зерттеу бағыттары
  • Data governance: лицензия, сапа, leakage — foundation деңгейінде қалай басқарылуы керек?
  • Evaluation: open-ended reasoning + multimodal сценарийлер үшін “сенімді” бағалау қалай құрылады?
  • Efficiency: high-quality short modes (latency/құн) және compression-ның келесі буыны.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2017
RELATED
Attention Is All You Need
Vaswani et al.

PFM дәуірінің архитектуралық бастау нүктесі.

2020
RELATED
Language Models are Few-Shot Learners
Brown et al.

Prompting және scale парадигмасын mainstream еткен кезең.

2022
RELATED
Training language models to follow instructions with human feedback
Ouyang et al.

ChatGPT бағытының alignment жағын түсіндіреді.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Негіз модель
Foundation Model
Көп дерекпен алдын ала үйретіліп, кейін көптеген міндетке бейімделетін жалпы модель.
Алдын ала үйрету міндеті
Pretraining objective
MLM, autoregressive LM, contrastive alignment сияқты loss немесе оқу мақсаты.
Бейімдеу
Adaptation
Fine-tuning, prompting, instruction tuning немесе RLHF арқылы downstream қолдану тәсілдері.
Қысу
Compression
Serving құнын төмендету үшін quantization, distillation немесе pruning қолдану әдістері.

Авторлар және жарияланым дерегі

arXiv: 2302.09419 (v3: 2023-05-01). Primary subject: cs.AI. PDF: 2302.09419v3.

Авторлар
Барлық авторлар толық көрсетілген.
Ce Zhou
Michigan State University
Qian Li
Beihang University
Chen Li
Beihang University
Jun Yu
Lehigh University
Yixin Liu
Lehigh University
Guangjing Wang
Michigan State University
Kai Zhang
Lehigh University
Cheng Ji
Beihang University
Qiben Yan
Michigan State University
Lifang He
Lehigh University
Hao Peng
Beihang University
Jianxin Li
Beihang University
Jia Wu
Macquarie University
Ziwei Liu
Nanyang Technological University
Pengtao Xie
University of California San Diego
Caiming Xiong
Salesforce AI Research
Jian Pei
Duke University
Philip S. Yu
University of Illinois at Chicago
Lichao Sun
Lehigh University