NeurIPS • Желтоқсан 2017

Attention Is All You Need

Рекурентті желілерсіз, тек «назар аудару» (Attention) механизмдеріне негізделген революциялық архитектура.

НЕ ТУРАЛЫ?

Бұл мақала тілді өңдеуде рекурентті (RNN/LSTM) қабаттарды толық алып тастап, мәтіндегі барлық сөздің өзара байланысын бір уақытта есептейтін Transformer архитектурасын ұсынады — оның өзегі: өздігінен назар аудару (Self-Attention).

100,000+ сілтеме8 авторGoogle Brain & Research

Төменге жылжытыңыз

Бұл мақала болмаса, бізде ChatGPT, Gemini немесе Claude болмас еді.

Бұл мақала бастапқыда машиналық аударманы жақсарту мақсатында жазылды. Бірақ оның әсері күтпеген деңгейге жетті: бүгін «үлкен тілдік модель» (LLM) дегеніміз — іс жүзінде Трансформердің әртүрлі нұсқалары.

Ең қызығы: бұл идея тек NLP-ді емес, Vision, Bio, Robotics секілді салаларды да өзгертіп жіберді. Себебі ол GPU-дің күшін толық пайдалануға мүмкіндік беретін параллельді матрицалық есептеулерге өте үйлесімді болды.

Негізгі инсайт

Бүгінгі барлық үлкен тілдік модельдер (LLMs) осы мақалада сипатталған Трансформер архитектурасын пайдаланады.

Өнімдер каскады (идея → индустрия)

ChatGPTGeminiClaudeGitHub CopilotMidjourney

Себебі ол тілді өңдеуде «тізбектік міндеттілікті» алып тастады: енді модель барлық сөзді бір уақытта көріп, байланысын есептей алады. Бұл — жылдамдық, масштаб және сапа үшін шешуші қадам.

RNN/LSTM ұзын мәтінде ерте сөздерді «ұмытып», параллель есептеуге мүмкіндік бермейтін. Трансформер self-attention арқылы ұзақ контекстті жақсы сақтап, GPU-параллелизмді толық ашады.

Бұрынғы Мәселе

Тізбекті өңдеудің шектеуі

БҰРЫН

RNN тізбекті: сөзден сөзге

RNN модельдері мәтінді сөзбе-сөз кезекпен өңдейді. Бұл параллельді есептеуге келмейді. Ұзын мәтінде «ұзақ мерзімді тәуелділікті» ұстай алмай, сөйлем соңына қарай басын «ұмытып» қалады.

КЕЙІН

Transformer параллель: бәрі бірге

Трансформер бүкіл сөйлемді бір уақытта қарап, self-attention арқылы әр сөздің қалғандарымен байланысын есептейді. GPU-ге «дәмді» матрицалық көбейтулер — жылдам әрі масштабталады.

Визуалды интуиция: тізбекті vs параллель

RNN: бірінен кейін бірі (баяу)

Жануаркөшеденөтпеді,өйткеніолөтешаршағанеді.

Ерте сөздер «күңгірттеніп» қалады.

Transformer: бәрі бір сәтте (жылдам)

Жануаркөшеденөтпеді,өйткеніолөтешаршағанеді.

Барлық сөз «жанып» тұр: параллель өңдеу.

Pull quote: Google зерттеушілері батыл шешім қабылдады: барлық рекурентті қабаттарды алып тастап, тек назар аудару механизмдерімен жүйе құру.

Себебі ол әр қадамды алдыңғы қадамға тәуелді етеді: 1-сөз аяқталмайынша 2-сөз өңделмейді. GPU толық параллель жұмыс істей алмайды.

Self-attention арқылы сөйлемдегі барлық сөздің өзара байланысын бір уақытта есептейді. Бұл — матрицалық операциялар, GPU үшін ең тиімді жол.

Басты Жаңалық

Өздігінен назар аудару (Self-Attention) әр сөздің басқа сөздермен байланысын бір уақытта өлшейді. Ол грамматика, синтаксис және мағынаны контекст арқылы үйренеді.

Нақты мысал

«ол» есімдігі қайсысына қатысты? «жануарға» ма, әлде «көшеге» ме?

Қарапайым түрде: әр сөз басқа сөздердің «маңызын» өлшейді. Нәтижесінде сөйлемнің құрылымы мен мағынасы матрица ретінде көрінеді — модель қай жерге назар аудару керегін өзі үйренеді.

Бір «назар» жеткіліксіз болуы мүмкін. Multi-Head бірнеше параллель назарды үйренеді: бір head грамматикалық байланысқа, екіншісі мағыналық тәуелділікке, үшіншісі ұзақ контекстке көңіл бөлуі мүмкін.

Жүйенің Құрылысы

Трансформер архитектурасы

Модель екі үлкен бөліктен тұрады: Кодтаушы (Encoder) және Декодтаушы (Decoder).

Кодтаушы (Encoder) — кіріс мәтіннің контекстін «түсіндіретін» бөлік. Декодтаушы (Decoder) — сол контекстке сүйеніп, шығатын мәтінді біртіндеп құратын бөлік.

Жоқ. Декодтаушыдағы Masked Attention болашақ токендерге қарауға тыйым салады. Сондықтан модель тек өткен контекстке сүйеніп, келесіні болжайды.

Қолданыс аймақтары

🌐 Машиналық аударма

Google Translate сапасы еселеп өсті. Трансформер алғаш рет осы мақсатта қолданылды.

💬 Диалогтық жүйелер

ChatGPT, Gemini — бұлардың бәрі Трансформер негізінде жұмыс істейді.

💻 Код жазу

GitHub Copilot кодты контекст бойынша болжайды.

🖼️ Суреттер генерациясы

DALL-E, Midjourney — Трансформер суреттерді де «түсінеді».

🧬 Биоинформатика

AlphaFold белок құрылымын болжауда Трансформер қолданады.

🎵 Музыка генерациясы

Suno, Udio секілді жүйелер дыбыстарды тізбек ретінде өңдейді.

Осы мақала негізінде дүниеге келген өнімдер

Бір ғылыми мақаланың практикалық нәтижелері:

Timeline

Кеңес: картаға басыңыз — кеңейіп, байланысы тереңірек түсіндіріледі.

Бұл мақала дүниені қалай өзгертті?

БҰРЫН (2016 және ертерек)

RNN/LSTM — тек тізбекті өңдеу
Машиналық аударма сапасы шектеулі
Жаттығу апталарға созылды
GPU параллелизмін пайдалану мүмкін емес
Ұзақ мәтін өңдеу мүмкін емес

КЕЙІН (2017+)

Параллельді өңдеу — GPU толық пайдаланылады
BLEU score еселеп өсті
Жаттығу сағаттарға қысқарды
Ұзын контекст жетік сақталды
NLP, Vision, Bio — бәрінде стандартқа айналды

Practical Analogy: Рекурентті желі (RNN) — кітапты бет-бетімен оқитын адам. Трансформер — барлық беттерді бір уақытта көре алатын 1000 оқырманның жиынтығы.

Қорытынды

«Біз толығымен назар аударуға (attention) негізделген, тізбекті туралауда ең көп қолданылатын рекурентті қабаттарды алмастыратын жаңа қарапайым желілік архитектура — Transformer-ді ұсынамыз.» — Vaswani et al., 2017

Problem

RNN тізбекті болғандықтан баяу және ұзақ контекстті ұмытады

Method

RNN-ді алып тастап, тек Self-Attention-ға негізделген Transformer

Result

BLEU score артты, жаттығу уақыты еселеп қысқарды

Impact

Барлық заманауи LLM-дердің негізі; ЖИ саласында төңкеріс

100K+ сілтеме7+ жыл1 триллион+ параметр (GPT-4 etc.)Барлық LLM

Тереңдетілген талдау

Мақаланың ғылымдағы орны, келесі зерттеу қадамдары және практикалық маңызы.

Профессордың көзқарасы

«Ғылыми шежіре»

Bahdanau et al. 2014 attention → Vaswani 2017 толық ауыстыру.

Бұл жұмыс 3 жылдық арканың логикалық шыңы болды: attention бастапқыда RNN-ге «қосымша» еді, ал мұнда ол — бүкіл жүйенің өзегі.

Сын көзбен қарау

Авторлар толық сезінбеген тұс: O(N²) жады/есеп күрделілігі.

Ұзын контекстті өңдеу әлі де үлкен VRAM талап етеді. Сол үшін бүгін «ұзын контекст» мәселесін шешетін жаңа attention нұсқалары — өте өзекті.

Үлкен сурет

Матрицалық көбейту + GPU = мінсіз одақ. Трансформер дәл осы аппараттық шындыққа керемет бейімделді.

Сондықтан ол NLP-ден асып, vision, robotics, bioinformatics салаларында стандартқа айналды.

Жас зерттеушінің көзқарасы

Келесі қадам: «Квадраттық тиімсіздікті жою — болашақ бағыты. O(N) қиындығы бар тез Attention жасай алсаңыз, келесі AI төңкерісінің авторы сіз боласыз.»

Counter-argument prompts

«Егер тіл тек ықтималдыққа ғана емес, нақты логикалық ережелерге тәуелді болса ше?» / «Қазіргі модельдер — «ақылды тотықұстар». Нағыз reasoning қабілетін қалай кіріктіреміз?»

The So What? Factor: Бұл мақала — барлық заманауи AI жүйелерінің «аналық платасы».

Controversy Level: Машина шын түсіне ме, әлде тамаша статистикалық ұқсатқыш па?

Болашақ зерттеушіге арналған бағыттар

1. Linear Attention

Белсенді зерттеу

O(N²) → O(N) complexity reduction. Ұзын контекстті арзан өңдеуге талпыныс.

2. Sparse Attention

Белсенді зерттеу

Process only relevant token pairs. Барлық жұпты емес, «маңызды» байланыстарды ғана есептеу.

3. State Space Models (Mamba)

Жаңа бағыт

Recurrence without RNN's drawbacks. Ұзын тізбектерде тиімді балама архитектуралар.

4. Mechanistic Interpretability

Жаңа бағыт

Understanding what attention heads actually learn. Модель ішіндегі «микро-механиканы» ашу.

5. Retrieval-Augmented Transformers

Белсенді зерттеу

External memory without context length limits. Контекст шегін ақпаратты іздеу арқылы кеңейту.

6. Multimodal Transformers

Белгіленген бағыт

Unifying vision, audio, text, code. Барлық модальдылықты бір жүйеде біріктіру.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2020

Brown et al.

Decoder-only Transformer масштабталғанда prompting және in-context learning қалай ашылатынын көрсетеді.

Оқу →

2022

Ouyang et al.

Transformer негізіндегі үлкен модельдерді адамға ыңғайлы ету үшін instruction tuning пен RLHF қолданады.

Оқу →

2023

Zhou et al.

Transformer-ден кейінгі foundation model дәуірін жүйелі картаға түсіреді.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Өздігінен назар аудару

Self-Attention

Әр токен басқа токендердің маңызын бағалап, контексті бір қадамда жинайтын механизм.

Көпбасты назар

Multi-Head Attention

Назар аударудың бірнеше параллель арнасын үйретіп, әрқайсысы тәуелділіктің басқа түрін ұстайды.

Позициялық кодтау

Positional Encoding

Transformer реттілікті табиғи білмегендіктен, токен позициясын вектор түрінде қосатын тәсіл.

Кодтаушы-декодтаушы

Encoder-Decoder

Encoder кірісті түсінеді, decoder сол түсінуге сүйеніп шығысты біртіндеп генерациялайды.

Бұл кімдердің еңбегі?

Ashish Vaswani

Google Brain

Noam Shazeer

Google Brain

Niki Parmar

Google Research

Jakob Uszkoreit

Google Research

Llion Jones

Google Research

Aidan N. Gomez

University of Toronto

Łukasz Kaiser

Google Brain

Illia Polosukhin

(Independent)

Publication info

NeurIPS 2017 · arXiv:1706.03762 · Submitted June 12, 2017 · Published December 2017

Түпнұсқа мақаланы оқу (arXiv) →