Attention Is All You Need
Рекурентті желілерсіз, тек «назар аудару» (Attention) механизмдеріне негізделген революциялық архитектура.
Бұл мақала тілді өңдеуде рекурентті (RNN/LSTM) қабаттарды толық алып тастап, мәтіндегі барлық сөздің өзара байланысын бір уақытта есептейтін Transformer архитектурасын ұсынады — оның өзегі: өздігінен назар аудару (Self-Attention).
Бұл мақала бастапқыда машиналық аударманы жақсарту мақсатында жазылды. Бірақ оның әсері күтпеген деңгейге жетті: бүгін «үлкен тілдік модель» (LLM) дегеніміз — іс жүзінде Трансформердің әртүрлі нұсқалары.
Ең қызығы: бұл идея тек NLP-ді емес, Vision, Bio, Robotics секілді салаларды да өзгертіп жіберді. Себебі ол GPU-дің күшін толық пайдалануға мүмкіндік беретін параллельді матрицалық есептеулерге өте үйлесімді болды.
Бұрынғы Мәселе
Тізбекті өңдеудің шектеуі
RNN модельдері мәтінді сөзбе-сөз кезекпен өңдейді. Бұл параллельді есептеуге келмейді. Ұзын мәтінде «ұзақ мерзімді тәуелділікті» ұстай алмай, сөйлем соңына қарай басын «ұмытып» қалады.
Трансформер бүкіл сөйлемді бір уақытта қарап, self-attention арқылы әр сөздің қалғандарымен байланысын есептейді. GPU-ге «дәмді» матрицалық көбейтулер — жылдам әрі масштабталады.
Басты Жаңалық
Өздігінен назар аудару (Self-Attention) әр сөздің басқа сөздермен байланысын бір уақытта өлшейді. Ол грамматика, синтаксис және мағынаны контекст арқылы үйренеді.
«ол» есімдігі қайсысына қатысты? «жануарға» ма, әлде «көшеге» ме?
Жүйенің Құрылысы
Трансформер архитектурасы
Модель екі үлкен бөліктен тұрады: Кодтаушы (Encoder) және Декодтаушы (Decoder).
Қолданыс аймақтары
Google Translate сапасы еселеп өсті. Трансформер алғаш рет осы мақсатта қолданылды.
ChatGPT, Gemini — бұлардың бәрі Трансформер негізінде жұмыс істейді.
GitHub Copilot кодты контекст бойынша болжайды.
DALL-E, Midjourney — Трансформер суреттерді де «түсінеді».
AlphaFold белок құрылымын болжауда Трансформер қолданады.
Suno, Udio секілді жүйелер дыбыстарды тізбек ретінде өңдейді.
Бір ғылыми мақаланың практикалық нәтижелері:
Бұл мақала дүниені қалай өзгертті?
- RNN/LSTM — тек тізбекті өңдеу
- Машиналық аударма сапасы шектеулі
- Жаттығу апталарға созылды
- GPU параллелизмін пайдалану мүмкін емес
- Ұзақ мәтін өңдеу мүмкін емес
- Параллельді өңдеу — GPU толық пайдаланылады
- BLEU score еселеп өсті
- Жаттығу сағаттарға қысқарды
- Ұзын контекст жетік сақталды
- NLP, Vision, Bio — бәрінде стандартқа айналды
Қорытынды
Тереңдетілген талдау
Мақаланың ғылымдағы орны, келесі зерттеу қадамдары және практикалық маңызы.
Bahdanau et al. 2014 attention → Vaswani 2017 толық ауыстыру.
Бұл жұмыс 3 жылдық арканың логикалық шыңы болды: attention бастапқыда RNN-ге «қосымша» еді, ал мұнда ол — бүкіл жүйенің өзегі.
Авторлар толық сезінбеген тұс: O(N²) жады/есеп күрделілігі.
Ұзын контекстті өңдеу әлі де үлкен VRAM талап етеді. Сол үшін бүгін «ұзын контекст» мәселесін шешетін жаңа attention нұсқалары — өте өзекті.
Матрицалық көбейту + GPU = мінсіз одақ. Трансформер дәл осы аппараттық шындыққа керемет бейімделді.
Сондықтан ол NLP-ден асып, vision, robotics, bioinformatics салаларында стандартқа айналды.
Келесі қадам: «Квадраттық тиімсіздікті жою — болашақ бағыты. O(N) қиындығы бар тез Attention жасай алсаңыз, келесі AI төңкерісінің авторы сіз боласыз.»
Болашақ зерттеушіге арналған бағыттар
Қатысты мақалалар
Осы explainer-ді кеңейтетін іргелес жұмыстар.
Decoder-only Transformer масштабталғанда prompting және in-context learning қалай ашылатынын көрсетеді.
Transformer негізіндегі үлкен модельдерді адамға ыңғайлы ету үшін instruction tuning пен RLHF қолданады.
Transformer-ден кейінгі foundation model дәуірін жүйелі картаға түсіреді.
Түсіндірме сөздік
Негізгі терминдерді бір стильде жинақтау.