NeurIPS • Желтоқсан 2017

Attention Is All You Need

Рекурентті желілерсіз, тек «назар аудару» (Attention) механизмдеріне негізделген революциялық архитектура.

НЕ ТУРАЛЫ?

Бұл мақала тілді өңдеуде рекурентті (RNN/LSTM) қабаттарды толық алып тастап, мәтіндегі барлық сөздің өзара байланысын бір уақытта есептейтін Transformer архитектурасын ұсынады — оның өзегі: өздігінен назар аудару (Self-Attention).

100,000+ сілтеме8 авторGoogle Brain & Research
Төменге жылжытыңыз
Бұл мақала болмаса, бізде ChatGPT, Gemini немесе Claude болмас еді.

Бұл мақала бастапқыда машиналық аударманы жақсарту мақсатында жазылды. Бірақ оның әсері күтпеген деңгейге жетті: бүгін «үлкен тілдік модель» (LLM) дегеніміз — іс жүзінде Трансформердің әртүрлі нұсқалары.

Ең қызығы: бұл идея тек NLP-ді емес, Vision, Bio, Robotics секілді салаларды да өзгертіп жіберді. Себебі ол GPU-дің күшін толық пайдалануға мүмкіндік беретін параллельді матрицалық есептеулерге өте үйлесімді болды.

Негізгі инсайт
Бүгінгі барлық үлкен тілдік модельдер (LLMs) осы мақалада сипатталған Трансформер архитектурасын пайдаланады.
Өнімдер каскады (идея → индустрия)
ChatGPTGeminiClaudeGitHub CopilotMidjourney
Себебі ол тілді өңдеуде «тізбектік міндеттілікті» алып тастады: енді модель барлық сөзді бір уақытта көріп, байланысын есептей алады. Бұл — жылдамдық, масштаб және сапа үшін шешуші қадам.
RNN/LSTM ұзын мәтінде ерте сөздерді «ұмытып», параллель есептеуге мүмкіндік бермейтін. Трансформер self-attention арқылы ұзақ контекстті жақсы сақтап, GPU-параллелизмді толық ашады.

Бұрынғы Мәселе

Тізбекті өңдеудің шектеуі

БҰРЫН
RNN тізбекті: сөзден сөзге

RNN модельдері мәтінді сөзбе-сөз кезекпен өңдейді. Бұл параллельді есептеуге келмейді. Ұзын мәтінде «ұзақ мерзімді тәуелділікті» ұстай алмай, сөйлем соңына қарай басын «ұмытып» қалады.

КЕЙІН
Transformer параллель: бәрі бірге

Трансформер бүкіл сөйлемді бір уақытта қарап, self-attention арқылы әр сөздің қалғандарымен байланысын есептейді. GPU-ге «дәмді» матрицалық көбейтулер — жылдам әрі масштабталады.

Визуалды интуиция: тізбекті vs параллель
RNN: бірінен кейін бірі (баяу)
Жануаркөшеденөтпеді,өйткеніолөтешаршағанеді.
Ерте сөздер «күңгірттеніп» қалады.
Transformer: бәрі бір сәтте (жылдам)
Жануаркөшеденөтпеді,өйткеніолөтешаршағанеді.
Барлық сөз «жанып» тұр: параллель өңдеу.
Pull quote: Google зерттеушілері батыл шешім қабылдады: барлық рекурентті қабаттарды алып тастап, тек назар аудару механизмдерімен жүйе құру.
Себебі ол әр қадамды алдыңғы қадамға тәуелді етеді: 1-сөз аяқталмайынша 2-сөз өңделмейді. GPU толық параллель жұмыс істей алмайды.
Self-attention арқылы сөйлемдегі барлық сөздің өзара байланысын бір уақытта есептейді. Бұл — матрицалық операциялар, GPU үшін ең тиімді жол.

Басты Жаңалық

Өздігінен назар аудару (Self-Attention) әр сөздің басқа сөздермен байланысын бір уақытта өлшейді. Ол грамматика, синтаксис және мағынаны контекст арқылы үйренеді.

Нақты мысал

«ол» есімдігі қайсысына қатысты? «жануарға» ма, әлде «көшеге» ме?

Қарапайым түрде: әр сөз басқа сөздердің «маңызын» өлшейді. Нәтижесінде сөйлемнің құрылымы мен мағынасы матрица ретінде көрінеді — модель қай жерге назар аудару керегін өзі үйренеді.
Бір «назар» жеткіліксіз болуы мүмкін. Multi-Head бірнеше параллель назарды үйренеді: бір head грамматикалық байланысқа, екіншісі мағыналық тәуелділікке, үшіншісі ұзақ контекстке көңіл бөлуі мүмкін.

Жүйенің Құрылысы

Трансформер архитектурасы

Модель екі үлкен бөліктен тұрады: Кодтаушы (Encoder) және Декодтаушы (Decoder).

Кодтаушы (Encoder) — кіріс мәтіннің контекстін «түсіндіретін» бөлік. Декодтаушы (Decoder) — сол контекстке сүйеніп, шығатын мәтінді біртіндеп құратын бөлік.
Жоқ. Декодтаушыдағы Masked Attention болашақ токендерге қарауға тыйым салады. Сондықтан модель тек өткен контекстке сүйеніп, келесіні болжайды.

Қолданыс аймақтары

🌐 Машиналық аударма

Google Translate сапасы еселеп өсті. Трансформер алғаш рет осы мақсатта қолданылды.

💬 Диалогтық жүйелер

ChatGPT, Gemini — бұлардың бәрі Трансформер негізінде жұмыс істейді.

💻 Код жазу

GitHub Copilot кодты контекст бойынша болжайды.

🖼️ Суреттер генерациясы

DALL-E, Midjourney — Трансформер суреттерді де «түсінеді».

🧬 Биоинформатика

AlphaFold белок құрылымын болжауда Трансформер қолданады.

🎵 Музыка генерациясы

Suno, Udio секілді жүйелер дыбыстарды тізбек ретінде өңдейді.

Осы мақала негізінде дүниеге келген өнімдер

Бір ғылыми мақаланың практикалық нәтижелері:

Timeline
Кеңес: картаға басыңыз — кеңейіп, байланысы тереңірек түсіндіріледі.

Бұл мақала дүниені қалай өзгертті?

БҰРЫН (2016 және ертерек)
  • RNN/LSTM — тек тізбекті өңдеу
  • Машиналық аударма сапасы шектеулі
  • Жаттығу апталарға созылды
  • GPU параллелизмін пайдалану мүмкін емес
  • Ұзақ мәтін өңдеу мүмкін емес
КЕЙІН (2017+)
  • Параллельді өңдеу — GPU толық пайдаланылады
  • BLEU score еселеп өсті
  • Жаттығу сағаттарға қысқарды
  • Ұзын контекст жетік сақталды
  • NLP, Vision, Bio — бәрінде стандартқа айналды
Practical Analogy: Рекурентті желі (RNN) — кітапты бет-бетімен оқитын адам. Трансформер — барлық беттерді бір уақытта көре алатын 1000 оқырманның жиынтығы.

Қорытынды

«Біз толығымен назар аударуға (attention) негізделген, тізбекті туралауда ең көп қолданылатын рекурентті қабаттарды алмастыратын жаңа қарапайым желілік архитектура — Transformer-ді ұсынамыз.» — Vaswani et al., 2017
Problem
RNN тізбекті болғандықтан баяу және ұзақ контекстті ұмытады
Method
RNN-ді алып тастап, тек Self-Attention-ға негізделген Transformer
Result
BLEU score артты, жаттығу уақыты еселеп қысқарды
Impact
Барлық заманауи LLM-дердің негізі; ЖИ саласында төңкеріс
100K+ сілтеме7+ жыл1 триллион+ параметр (GPT-4 etc.)Барлық LLM

Тереңдетілген талдау

Мақаланың ғылымдағы орны, келесі зерттеу қадамдары және практикалық маңызы.

Профессордың көзқарасы
«Ғылыми шежіре»

Bahdanau et al. 2014 attention → Vaswani 2017 толық ауыстыру.

Бұл жұмыс 3 жылдық арканың логикалық шыңы болды: attention бастапқыда RNN-ге «қосымша» еді, ал мұнда ол — бүкіл жүйенің өзегі.

Сын көзбен қарау

Авторлар толық сезінбеген тұс: O(N²) жады/есеп күрделілігі.

Ұзын контекстті өңдеу әлі де үлкен VRAM талап етеді. Сол үшін бүгін «ұзын контекст» мәселесін шешетін жаңа attention нұсқалары — өте өзекті.

Үлкен сурет

Матрицалық көбейту + GPU = мінсіз одақ. Трансформер дәл осы аппараттық шындыққа керемет бейімделді.

Сондықтан ол NLP-ден асып, vision, robotics, bioinformatics салаларында стандартқа айналды.

Жас зерттеушінің көзқарасы

Келесі қадам: «Квадраттық тиімсіздікті жою — болашақ бағыты. O(N) қиындығы бар тез Attention жасай алсаңыз, келесі AI төңкерісінің авторы сіз боласыз.»

Counter-argument prompts
«Егер тіл тек ықтималдыққа ғана емес, нақты логикалық ережелерге тәуелді болса ше?» / «Қазіргі модельдер — «ақылды тотықұстар». Нағыз reasoning қабілетін қалай кіріктіреміз?»
The So What? Factor: Бұл мақала — барлық заманауи AI жүйелерінің «аналық платасы».
Controversy Level: Машина шын түсіне ме, әлде тамаша статистикалық ұқсатқыш па?

Болашақ зерттеушіге арналған бағыттар

1. Linear Attention
Белсенді зерттеу
O(N²) → O(N) complexity reduction. Ұзын контекстті арзан өңдеуге талпыныс.
2. Sparse Attention
Белсенді зерттеу
Process only relevant token pairs. Барлық жұпты емес, «маңызды» байланыстарды ғана есептеу.
3. State Space Models (Mamba)
Жаңа бағыт
Recurrence without RNN's drawbacks. Ұзын тізбектерде тиімді балама архитектуралар.
4. Mechanistic Interpretability
Жаңа бағыт
Understanding what attention heads actually learn. Модель ішіндегі «микро-механиканы» ашу.
5. Retrieval-Augmented Transformers
Белсенді зерттеу
External memory without context length limits. Контекст шегін ақпаратты іздеу арқылы кеңейту.
6. Multimodal Transformers
Белгіленген бағыт
Unifying vision, audio, text, code. Барлық модальдылықты бір жүйеде біріктіру.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2020
RELATED
Language Models are Few-Shot Learners
Brown et al.

Decoder-only Transformer масштабталғанда prompting және in-context learning қалай ашылатынын көрсетеді.

2022
RELATED
Training language models to follow instructions with human feedback
Ouyang et al.

Transformer негізіндегі үлкен модельдерді адамға ыңғайлы ету үшін instruction tuning пен RLHF қолданады.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

Transformer-ден кейінгі foundation model дәуірін жүйелі картаға түсіреді.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Өздігінен назар аудару
Self-Attention
Әр токен басқа токендердің маңызын бағалап, контексті бір қадамда жинайтын механизм.
Көпбасты назар
Multi-Head Attention
Назар аударудың бірнеше параллель арнасын үйретіп, әрқайсысы тәуелділіктің басқа түрін ұстайды.
Позициялық кодтау
Positional Encoding
Transformer реттілікті табиғи білмегендіктен, токен позициясын вектор түрінде қосатын тәсіл.
Кодтаушы-декодтаушы
Encoder-Decoder
Encoder кірісті түсінеді, decoder сол түсінуге сүйеніп шығысты біртіндеп генерациялайды.

Бұл кімдердің еңбегі?

Ashish Vaswani
Google Brain
Noam Shazeer
Google Brain
Niki Parmar
Google Research
Jakob Uszkoreit
Google Research
Llion Jones
Google Research
Aidan N. Gomez
University of Toronto
Łukasz Kaiser
Google Brain
Illia Polosukhin
(Independent)
Publication info
NeurIPS 2017 · arXiv:1706.03762 · Submitted June 12, 2017 · Published December 2017