NAACL-HLT • Маусым 2019

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT NLP-ді бір сәтте өзгертті: мәтінді тек солдан оңға емес, екі жақтан бірдей оқып, бір ғана кодтаушы (encoder) арқылы сұрақ-жауап, NLI, іздеу мағынасын түсіну, NER сияқты көптеген міндетке бейімделуге болатынын көрсетті.

НЕ ТУРАЛЫ?

Бұл paper Transformer кодтаушысын (encoder) үлкен таңбаланбаған мәтін корпусында алдын ала үйретіп, кейін әр міндетке тек бір кішкентай шығыс қабатын (output head) қосып fine-tune жасауға болатынын көрсетті. Негізгі pretraining трюгі — Маскаланған тілдік модельдеу (Masked Language Modeling) және Келесі сөйлемді болжау (Next Sentence Prediction).

4 авторGoogle AI LanguageBERTBASE 110M / BERTLARGE 340M
BERT «тағы бір model» емес — NLP-дің әдепкі платформасына айналды.

BERT-ке дейін инженерлік ой жиі былай болатын: әр міндетке бөлек architecture, бөлек feature pipeline, бөлек training recipe. BERT осыны backbone + tiny head формуласына қысқартты.

Сондықтан оның impact-і тек benchmark емес. Search, enterprise NLP, domain adaptation, multilingual understanding — бәрі encoder pretraining-ді стандарт деп қабылдай бастады.

Негізгі инсайт
BERT-тің жаңалығы attention формуласында емес; оны bidirectional pretraining + universal fine-tuning рецептіне айналдыруында.
Paper-ден шыққан негізгі нәтижелер
11 task-та SOTA
GLUE
80.5
+7.7 point absolute improvement
MultiNLI
86.7%
+4.6 point absolute improvement
SQuAD v1.1
93.2 F1
+1.5 point absolute improvement
SQuAD v2.0
83.1 F1
+5.1 point absolute improvement
Себебі ол «бір рет pretrain, көп міндетке transfer» идеясын өнімге жақын қылды. Яғни research novelty инженерлік қарапайымдылықпен бірге келді.
Ол — encoder-only Transformer-дің pretraining recipe-і. Архитектуралық өзек Transformer-ден келеді, бірақ bidirectional objective және fine-tuning paradigмасы BERT-ті бөлек дәуірге айналдырды.

Бұрынғы мәселе

BERT-ке дейін contextual embedding бар еді, Transformer де бар еді. Бірақ «көп міндетке бірдей жақсы қызмет ететін bidirectional encoder» рецепті әлі қалыптаспаған болатын.

БҰРЫН
Feature-based тәсіл немесе біржақты оқу recipe-і
  • ELMo: контекстік вектор күшті, бірақ көбіне feature ретінде қосылады.
  • GPT: pretraining жақсы, бірақ left-to-right шектеуі бар.
  • Көп міндет architecture-specific tuning талап етеді.
  • Sentence pair understanding үшін input design онша бірізді емес.
КЕЙІН
Universal encoder backbone
  • Bidirectional self-attention барлық қабатта қолданылады.
  • Input форматында [CLS] және [SEP] арқылы pair tasks табиғи шешіледі.
  • Fine-tuning жиі тек бір output layer қосудан тұрады.
  • Benchmark progress пен инженерлік қарапайымдылық бір жерге түйісті.
Қысқа аналогия

GPT сол кезде мәтінді алдыңғы сөздер арқылы болжайтын жақсы жазушы болса, BERT сөйлемді екі жақтан бірдей қарап, «осы жердегі сөздің орнына не дәл келеді?» деп ойлайтын жақсы редактор іспетті болды.

Басты жаңалық

BERT-тің серпілісі екі сөзбен айтылады: deep bidirectionality. Яғни модель mask-ті болжағанда сол жақ пен оң жақ контекстті бірге пайдаланады; ал sentence pair міндеттерінде document-level байланыс үйренеді.

MLM-де prediction тек сол жақтан келмейді: mask-тің екі жағындағы контекст қолжетімді. Сондықтан model token-level understanding үшін әлдеқайда бай сигнал алады.
Кейінгі еңбектер оның үлесі шектеулі болуы мүмкін екенін көрсетті; мысалы RoBERTa NSP-ны алып тастап та күшті нәтижелер алды. Бірақ BERT paper-де NSP sentence-pair міндеттері үшін пайдалы design choice болды.

Жүйенің құрылысы

BERT — decoder емес. Ол мәтінді шығару үшін емес, мәтінді терең түсіну үшін жасалған encoder stack.

Себебі paper-дің мақсаты generation емес, representation learning. MLM objective encoder-ге perfect fit: ол барлық позицияны бірден қарап, mask-ті қалпына келтіреді.
[CLS] — sentence-level summary token, ал [SEP] — сөйлем шекарасы. Бұл екеуі BERT-тің classification және sentence-pair міндеттерін бір форматқа сыйғызуына көмектеседі.

Қолданыс аймақтары

🔎 Іздеу және сұранымды түсіну

Қысқа query-дің нақты мағынасын ұстау. Search ranking және query rewriting жүйелері үшін өте ыңғайлы encoder backbone.

❓ Question Answering

Passage ішінен нақты span табу. SQuAD секілді extractive QA benchmark-терде BERT өте күшті секіріс берді.

⚖️ Entailment / sentence pairs

Екі сөйлемнің логикалық байланысын бағалау: entailment, contradiction, relevance. MultiNLI және QNLI дәл осы санатқа жатады.

🏷️ Токенді таңбалау

NER, POS tagging, slot filling. Әр токенге жеке context-aware vector берілуі sequence tagging-ті айтарлықтай жақсартты.

🏥 Domain NLP

BioBERT, SciBERT, ClinicalBERT сияқты туындылар BERT-ті домендік мәтіндерге бейімдеу қаншалықты тиімді екенін дәлелдеді.

🌍 Multilingual understanding

mBERT және кейінгі көптілді encoder-лер cross-lingual transfer-ге мықты baseline болды: zero-shot және low-resource сценарийлерде ерекше пайдалы.

Өнеркәсіптік өнімдер

BERT-тің пайдаланушыға тікелей көрінетін әсері көбіне «көрінбейді» — ол көптеген жүйенің ішінде жұмыс істейтін түсіну қабаты болды.

BERT-тен туған өнімдік желі

Бұл paper-дің басты мұрасы — чатботтан да кең: ол NLP инфрақұрылымын қайта жазған encoder экожүйесі.

Ізбасарлар

Бұл мақала дүниені қалай өзгертті?

2018-ге дейін
  • NLP pipeline-ы fragmented болды.
  • Feature extraction пен task-specific head көп болды.
  • Bidirectional understanding жүйелі recipe емес еді.
  • Pretraining бар, бірақ «бәріне бір backbone» әлі орнықпады.
2019-дан кейін
  • Encoder pretraining NLP-дің әдепкі жолына айналды.
  • Fine-tuning recipe инженерлік практика ретінде қалыптасты.
  • Search, QA, NER, domain NLP бір backbone-қа сүйенді.
  • RoBERTa, ALBERT, DistilBERT, DeBERTa сияқты тұтас lineage туды.
Left-to-right түсіну vs bidirectional түсіну

Төмендегі мысал концептуалды. Ол BERT-тің неге mask-based pretraining қолданғанын интуитив түрде көрсетеді.

Тұжырымды салыстыру
Мысал сөйлем
демо
Мен [MASK] ашу үшін банкке бардым.
БҰРЫН / біржақты оқу
сол жақ қана
Prediction сол жақ контекстке ғана сүйенсе, «ашу үшін» деген сигнал бар, бірақ оң жақтағы «банкке бардым» әлі көрінбейді.

Сондықтан candidate кеңістігі тарылмайды: шот, файл, курс, сынып...
КЕЙІН / BERT
екі жақ
BERT mask-тің екі жағындағы контексті бірден көреді.

«ашу үшін» + «банкке бардым» together → prediction қаржы мағынасына ығысады, «шот» тәрізді нұсқа басым болады.
BERT нақты inference кезінде [MASK] алмайды; бұл — pretraining интуициясын түсіндіретін мысал.
Қорытынды синопсис

BERT-тің қысқа формуласы: encoder Transformer + bidirectional pretraining + tiny task head. Дәл осы қарапайым формула NLP тарихындағы ең пайдалы abstraction-дардың біріне айналды.

Problem
Task-specific NLP өте бытыраңқы, ал one-directional models толық түсінуді шектеді.
Method
Masked LM + sentence-pair signal арқылы bidirectional encoder pretraining.
Result
GLUE, MultiNLI, SQuAD секілді benchmark-терде жаңа SOTA.
Impact
Encoder pretraining domain adaptation, search, QA және enterprise NLP-де негізгі blueprint болды.

Тереңдетілген талдау

BERT — таза engineering sweep емес. Бұл paper NLP history-дегі бірнеше жіпті бір түйінге байлады.

Профессордың көзі

ELMo contextualization идеясын берді, GPT pretraining transfer-ді көрсетті, Transformer attention infrastructure-ін берді. BERT осы үшеуін ең оңай инженерлік формаға түсірді.

Сын көзбен қарау

[MASK] token mismatch — ең әлсіз жерлердің бірі. Сонымен қатар NSP кейін артық objective болуы мүмкін деген пікір күшейді. BERT generation міндеттеріне де жақсы fit емес.

Үлкен сурет

BERT pretraining-ді «software architecture decision»-ге айналдырды: research novelty production stack-қа тікелей түсті. Бұл кейін domain LMs және retrieval encoders дәуірін тездетті.

Жас зерттеуші үшін негізгі сұрақ

BERT-тің сабақтары бүгін де өзекті: objective design, domain adaptation, efficiency және retrieval coupling. Егер сіз encoder-ді ұзын құжат, аз ресурс немесе жоғары дәлдік domain-дары үшін арзанырақ әрі сенімдірек етсеңіз — бұл тікелей BERT lineage-ін жалғастыру болып саналады.

Болашақ зерттеу бағыттары

1. RoBERTa-style objective refinement
Қалыптасқан бағыт

NSP міндетті ме, әлде data/compute көбейту жеткілікті ме? BERT-тен кейінгі бірінші үлкен сұрақ осы болды.

2. Ұзын құжат encoder-лері
Белсенді зерттеу

Классикалық BERT 512 token шегіне байланған. Longformer, BigBird секілді жұмыстар құжаттық reasoning-ті scale етуге тырысты.

3. Тиімді және шағын encoder-лер
Қалыптасқан бағыт

Distillation, pruning және quantization — production inference құнын түсірудің негізгі желісі.

4. Domain-adaptive pretraining
Қалыптасқан бағыт

BioBERT, LegalBERT, FinBERT сияқты бағыттар бір recipe-дің әр доменде қалай бейімделетінін зерттейді.

5. Retriever + encoder coupling
Белсенді зерттеу

Semantic search және dense retrieval жүйелері BERT-style encoder-лерді knowledge access қабатына айналдырды.

6. Interpretability of encoder heads
Белсенді зерттеу

Attention head-тер нақты не үйренеді? Syntax па, alignment па, әлде proxy heuristics пе? Бұл сұрақ әлі толық жабылған жоқ.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2017
RELATED
Attention Is All You Need
Vaswani et al.

BERT-тің encoder backbone-ы дәл осы Transformer жұмысына сүйенеді.

2020
RELATED
Language Models are Few-Shot Learners
Brown et al.

BERT fine-tuning дәуірінен кейін prompting және decoder-only масштаб қалай үстем болғанын салыстыруға болады.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

BERT-тен ChatGPT-ке дейінгі foundation model өтпелін бір картаға жинайды.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Екіжақты кодтау
Bidirectional encoding
Токенді сол және оң жақ контекстпен бірге түсіндіретін encoder стилі.
Маскаланған тілдік модельдеу
Masked Language Modeling
Кей токендерді жасырып, оларды контекст арқылы болжауға үйрететін BERT-тің негізгі objective-і.
Келесі сөйлемді болжау
Next Sentence Prediction
Екі сөйлем бір ағыннан келе ме дегенді бағалайтын sentence-pair objective.
Төменгі міндетке бейімдеу
Fine-tuning
Алдын ала үйретілген модельді нақты downstream міндетке шағын supervised қадаммен бейімдеу.

Бұл кімдердің еңбегі?

Авторлар
Барлық авторлар толық көрсетілген.
Google AI Language
Jacob Devlin
Google AI Language
Ming-Wei Chang
Google AI Language
Kenton Lee
Google AI Language
Kristina Toutanova
Google AI Language
Publication info
NAACL-HLT 2019 · ACL Anthology N19-1423 · arXiv:1810.04805 · Submitted October 11, 2018 · Conference June 2019