A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
Бұл мақала — “бір модель туралы” емес. Бұл мақала — бүкіл дәуірдің картасы: Foundation model-дер (BERT→ChatGPT) қалай пайда болды, қалай кеңейді (text/vision/graph), және қандай “fundamentals” проблемалар (efficiency, security, privacy) алға шықты.
Pretrained Foundation Model (PFM) — көп дерекпен алдын ала үйретілген, кейін downstream міндеттерге fine-tune/prompt арқылы бейімделетін “негіз” модель. Survey paper PFMs-тің базалық компоненттерін (Transformer, learning mechanisms, pretraining tasks), модаль бойынша эволюциясын (NLP/CV/Graph), сондай-ақ efficiency, security, privacy сияқты “ядролық” тақырыптарын жинақтайды.
Неге маңызды?
Foundation model-дер тез дамыды: objective, дерек, архитектура, alignment, serving — бәрі бір-бірімен байланысып кетті. Бұл survey — зерттеушіге де, инженерге де “қай жерден бастау керек?” деген сұраққа жауап беретін карта.
- NLP/CV/Graph бағыттары бөлек “тілде” сөйлейді
- Objective, data, evaluation ұғымдары араласып кетеді
- Security/privacy көбіне “қосымша бөлім” болып қалады
- Компоненттерді жүйелейді: data/arch/objective/adaptation
- Модальаралық байланыс береді: unified PFMs
- Efficiency/security/privacy-ді core тақырып қылады
Survey “тарих” пен “fundamentals”-ты қатар ұстайды: capability өссе, қауіп-қатер де өседі.
Басты жаңалық
Бұл paper-дің жаңалығы — жаңа loss немесе жаңа архитектура емес. Оның “core innovation”-ы — PFMs туралы ойлаудың дұрыс жүйесін беру: (1) тарих, (2) taxonomy, (3) open problems.
Бұл survey-дің негізгі құндылығы — PFMs эволюциясын модаль бойынша жүйелеу. Төменде track ауыстырып, milestone-дарды басып көріңіз.
Masked language modeling арқылы контексті екі жақтан “оқиды”.
Downstream міндеттерге fine-tune жасау оңай болды.
Survey paper-дің ең пайдалы жағы — ұғымдарды реттеу. Бұл диаграмма PFMs туралы сөйлескенде негізгі “осьтерді” көрсетеді.
Міндет (objective) модельдің “қалай ойлайтынын” анықтайды: MLM vs autoregressive, contrastive alignment, denoising, т.б.
Survey NLP/CV/Graph үшін pretraining task-тарды жүйелейді.
Архитектура (негізгі building blocks)
Survey Transformer-ді PFM-дердің базалық компоненті ретінде сипаттайды. Төмендегі интерактивтер архитектура интуициясын ұстап тұруға көмектеседі.
“Foundation model” — бір ғана модель емес; бұл толық pipeline: дерек → objective → training → adaptation → evaluation → serving + қауіпсіздік/құпиялылық.
Қолданыс аймақтары және өнімдер
PFMs — downstream өнімдерге “платформа” береді. Survey әр модаль үшін әдістер мен бенчмарктерді жинап, өнеркәсіптік мысалдарға жалғайды.
Бұл paper “бір модель” емес — бүкіл дәуірді жинақтайды. Бірақ оның практикалық салдары өнімдерге тікелей көрінеді.
Терең талдау
Survey-дің негізгі “ақылды” ойы: capability өсімін тек “жақсы жауап” деп қарамау керек — ол cost, қауіпсіздік және құпиялылық мәселелерін де күшейтеді.
Model сапасы артқан сайын inference құны өседі. Compression, distillation, caching, serving инженериясы — core research.
Prompt injection/jailbreak сияқты шабуылдар “модель қабілетінің” өзіне тәуелді болуы мүмкін. Red-teaming және eval методологиясы маңызды.
Memorization және leakage тәуекелі дерек жинаудан басталады. Data governance + training-time/privacy техникасы қатар керек.
Модельдің “жақсы” болуы көбіне benchmark ұпайымен ғана өлшенеді.
Capability + cost + safety + privacy — бір жүйе ретінде қаралады.
- Data governance: лицензия, сапа, leakage — foundation деңгейінде қалай басқарылуы керек?
- Evaluation: open-ended reasoning + multimodal сценарийлер үшін “сенімді” бағалау қалай құрылады?
- Efficiency: high-quality short modes (latency/құн) және compression-ның келесі буыны.
Қатысты мақалалар
Осы explainer-ді кеңейтетін іргелес жұмыстар.
Prompting және scale парадигмасын mainstream еткен кезең.
ChatGPT бағытының alignment жағын түсіндіреді.
Түсіндірме сөздік
Негізгі терминдерді бір стильде жинақтау.
Авторлар және жарияланым дерегі
arXiv: 2302.09419 (v3: 2023-05-01). Primary subject: cs.AI. PDF: 2302.09419v3.