NAACL-HLT • Маусым 2019

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT NLP-ді бір сәтте өзгертті: мәтінді тек солдан оңға емес, екі жақтан бірдей оқып, бір ғана кодтаушы (encoder) арқылы сұрақ-жауап, NLI, іздеу мағынасын түсіну, NER сияқты көптеген міндетке бейімделуге болатынын көрсетті.

НЕ ТУРАЛЫ?

Бұл paper Transformer кодтаушысын (encoder) үлкен таңбаланбаған мәтін корпусында алдын ала үйретіп, кейін әр міндетке тек бір кішкентай шығыс қабатын (output head) қосып fine-tune жасауға болатынын көрсетті. Негізгі pretraining трюгі — Маскаланған тілдік модельдеу (Masked Language Modeling) және Келесі сөйлемді болжау (Next Sentence Prediction).

4 авторGoogle AI LanguageBERTBASE 110M / BERTLARGE 340M

BERT «тағы бір model» емес — NLP-дің әдепкі платформасына айналды.

BERT-ке дейін инженерлік ой жиі былай болатын: әр міндетке бөлек architecture, бөлек feature pipeline, бөлек training recipe. BERT осыны backbone + tiny head формуласына қысқартты.

Сондықтан оның impact-і тек benchmark емес. Search, enterprise NLP, domain adaptation, multilingual understanding — бәрі encoder pretraining-ді стандарт деп қабылдай бастады.

Негізгі инсайт

BERT-тің жаңалығы attention формуласында емес; оны bidirectional pretraining + universal fine-tuning рецептіне айналдыруында.

Paper-ден шыққан негізгі нәтижелер

11 task-та SOTA

GLUE

80.5

+7.7 point absolute improvement

MultiNLI

86.7%

+4.6 point absolute improvement

SQuAD v1.1

93.2 F1

+1.5 point absolute improvement

SQuAD v2.0

83.1 F1

+5.1 point absolute improvement

Себебі ол «бір рет pretrain, көп міндетке transfer» идеясын өнімге жақын қылды. Яғни research novelty инженерлік қарапайымдылықпен бірге келді.

Ол — encoder-only Transformer-дің pretraining recipe-і. Архитектуралық өзек Transformer-ден келеді, бірақ bidirectional objective және fine-tuning paradigмасы BERT-ті бөлек дәуірге айналдырды.

Бұрынғы мәселе

BERT-ке дейін contextual embedding бар еді, Transformer де бар еді. Бірақ «көп міндетке бірдей жақсы қызмет ететін bidirectional encoder» рецепті әлі қалыптаспаған болатын.

БҰРЫН

Feature-based тәсіл немесе біржақты оқу recipe-і

ELMo: контекстік вектор күшті, бірақ көбіне feature ретінде қосылады.
GPT: pretraining жақсы, бірақ left-to-right шектеуі бар.
Көп міндет architecture-specific tuning талап етеді.
Sentence pair understanding үшін input design онша бірізді емес.

КЕЙІН

Universal encoder backbone

Bidirectional self-attention барлық қабатта қолданылады.
Input форматында [CLS] және [SEP] арқылы pair tasks табиғи шешіледі.
Fine-tuning жиі тек бір output layer қосудан тұрады.
Benchmark progress пен инженерлік қарапайымдылық бір жерге түйісті.

Қысқа аналогия

GPT сол кезде мәтінді алдыңғы сөздер арқылы болжайтын жақсы жазушы болса, BERT сөйлемді екі жақтан бірдей қарап, «осы жердегі сөздің орнына не дәл келеді?» деп ойлайтын жақсы редактор іспетті болды.

Басты жаңалық

BERT-тің серпілісі екі сөзбен айтылады: deep bidirectionality. Яғни модель mask-ті болжағанда сол жақ пен оң жақ контекстті бірге пайдаланады; ал sentence pair міндеттерінде document-level байланыс үйренеді.

MLM-де prediction тек сол жақтан келмейді: mask-тің екі жағындағы контекст қолжетімді. Сондықтан model token-level understanding үшін әлдеқайда бай сигнал алады.

Кейінгі еңбектер оның үлесі шектеулі болуы мүмкін екенін көрсетті; мысалы RoBERTa NSP-ны алып тастап та күшті нәтижелер алды. Бірақ BERT paper-де NSP sentence-pair міндеттері үшін пайдалы design choice болды.

Жүйенің құрылысы

BERT — decoder емес. Ол мәтінді шығару үшін емес, мәтінді терең түсіну үшін жасалған encoder stack.

Себебі paper-дің мақсаты generation емес, representation learning. MLM objective encoder-ге perfect fit: ол барлық позицияны бірден қарап, mask-ті қалпына келтіреді.

[CLS] — sentence-level summary token, ал [SEP] — сөйлем шекарасы. Бұл екеуі BERT-тің classification және sentence-pair міндеттерін бір форматқа сыйғызуына көмектеседі.

Қолданыс аймақтары

🔎 Іздеу және сұранымды түсіну

Қысқа query-дің нақты мағынасын ұстау. Search ranking және query rewriting жүйелері үшін өте ыңғайлы encoder backbone.

❓ Question Answering

Passage ішінен нақты span табу. SQuAD секілді extractive QA benchmark-терде BERT өте күшті секіріс берді.

⚖️ Entailment / sentence pairs

Екі сөйлемнің логикалық байланысын бағалау: entailment, contradiction, relevance. MultiNLI және QNLI дәл осы санатқа жатады.

🏷️ Токенді таңбалау

NER, POS tagging, slot filling. Әр токенге жеке context-aware vector берілуі sequence tagging-ті айтарлықтай жақсартты.

🏥 Domain NLP

BioBERT, SciBERT, ClinicalBERT сияқты туындылар BERT-ті домендік мәтіндерге бейімдеу қаншалықты тиімді екенін дәлелдеді.

🌍 Multilingual understanding

mBERT және кейінгі көптілді encoder-лер cross-lingual transfer-ге мықты baseline болды: zero-shot және low-resource сценарийлерде ерекше пайдалы.

Өнеркәсіптік өнімдер

BERT-тің пайдаланушыға тікелей көрінетін әсері көбіне «көрінбейді» — ол көптеген жүйенің ішінде жұмыс істейтін түсіну қабаты болды.

BERT-тен туған өнімдік желі

Бұл paper-дің басты мұрасы — чатботтан да кең: ол NLP инфрақұрылымын қайта жазған encoder экожүйесі.

Ізбасарлар

Бұл мақала дүниені қалай өзгертті?

2018-ге дейін

NLP pipeline-ы fragmented болды.
Feature extraction пен task-specific head көп болды.
Bidirectional understanding жүйелі recipe емес еді.
Pretraining бар, бірақ «бәріне бір backbone» әлі орнықпады.

2019-дан кейін

Encoder pretraining NLP-дің әдепкі жолына айналды.
Fine-tuning recipe инженерлік практика ретінде қалыптасты.
Search, QA, NER, domain NLP бір backbone-қа сүйенді.
RoBERTa, ALBERT, DistilBERT, DeBERTa сияқты тұтас lineage туды.

Left-to-right түсіну vs bidirectional түсіну

Төмендегі мысал концептуалды. Ол BERT-тің неге mask-based pretraining қолданғанын интуитив түрде көрсетеді.

Тұжырымды салыстыру

Мысал сөйлем

демо

Мен [MASK] ашу үшін банкке бардым.

БҰРЫН / біржақты оқу

сол жақ қана

Prediction сол жақ контекстке ғана сүйенсе, «ашу үшін» деген сигнал бар, бірақ оң жақтағы «банкке бардым» әлі көрінбейді.

Сондықтан candidate кеңістігі тарылмайды: шот, файл, курс, сынып...

КЕЙІН / BERT

екі жақ

BERT mask-тің екі жағындағы контексті бірден көреді.

«ашу үшін» + «банкке бардым» together → prediction қаржы мағынасына ығысады, «шот» тәрізді нұсқа басым болады.

Араласу деңгейі: 70%

BERT нақты inference кезінде [MASK] алмайды; бұл — pretraining интуициясын түсіндіретін мысал.

Қорытынды синопсис

BERT-тің қысқа формуласы: encoder Transformer + bidirectional pretraining + tiny task head. Дәл осы қарапайым формула NLP тарихындағы ең пайдалы abstraction-дардың біріне айналды.

Problem

Task-specific NLP өте бытыраңқы, ал one-directional models толық түсінуді шектеді.

Method

Masked LM + sentence-pair signal арқылы bidirectional encoder pretraining.

Result

GLUE, MultiNLI, SQuAD секілді benchmark-терде жаңа SOTA.

Impact

Encoder pretraining domain adaptation, search, QA және enterprise NLP-де негізгі blueprint болды.

Тереңдетілген талдау

BERT — таза engineering sweep емес. Бұл paper NLP history-дегі бірнеше жіпті бір түйінге байлады.

Профессордың көзі

ELMo contextualization идеясын берді, GPT pretraining transfer-ді көрсетті, Transformer attention infrastructure-ін берді. BERT осы үшеуін ең оңай инженерлік формаға түсірді.

Сын көзбен қарау

[MASK] token mismatch — ең әлсіз жерлердің бірі. Сонымен қатар NSP кейін артық objective болуы мүмкін деген пікір күшейді. BERT generation міндеттеріне де жақсы fit емес.

Үлкен сурет

BERT pretraining-ді «software architecture decision»-ге айналдырды: research novelty production stack-қа тікелей түсті. Бұл кейін domain LMs және retrieval encoders дәуірін тездетті.

Жас зерттеуші үшін негізгі сұрақ

BERT-тің сабақтары бүгін де өзекті: objective design, domain adaptation, efficiency және retrieval coupling. Егер сіз encoder-ді ұзын құжат, аз ресурс немесе жоғары дәлдік domain-дары үшін арзанырақ әрі сенімдірек етсеңіз — бұл тікелей BERT lineage-ін жалғастыру болып саналады.

Болашақ зерттеу бағыттары

1. RoBERTa-style objective refinement

Қалыптасқан бағыт

NSP міндетті ме, әлде data/compute көбейту жеткілікті ме? BERT-тен кейінгі бірінші үлкен сұрақ осы болды.

2. Ұзын құжат encoder-лері

Белсенді зерттеу

Классикалық BERT 512 token шегіне байланған. Longformer, BigBird секілді жұмыстар құжаттық reasoning-ті scale етуге тырысты.

3. Тиімді және шағын encoder-лер

Қалыптасқан бағыт

Distillation, pruning және quantization — production inference құнын түсірудің негізгі желісі.

4. Domain-adaptive pretraining

Қалыптасқан бағыт

BioBERT, LegalBERT, FinBERT сияқты бағыттар бір recipe-дің әр доменде қалай бейімделетінін зерттейді.

5. Retriever + encoder coupling

Белсенді зерттеу

Semantic search және dense retrieval жүйелері BERT-style encoder-лерді knowledge access қабатына айналдырды.

6. Interpretability of encoder heads

Белсенді зерттеу

Attention head-тер нақты не үйренеді? Syntax па, alignment па, әлде proxy heuristics пе? Бұл сұрақ әлі толық жабылған жоқ.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2017

Vaswani et al.

BERT-тің encoder backbone-ы дәл осы Transformer жұмысына сүйенеді.

Оқу →

2020

Brown et al.

BERT fine-tuning дәуірінен кейін prompting және decoder-only масштаб қалай үстем болғанын салыстыруға болады.

Оқу →

2023

Zhou et al.

BERT-тен ChatGPT-ке дейінгі foundation model өтпелін бір картаға жинайды.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Екіжақты кодтау

Bidirectional encoding

Токенді сол және оң жақ контекстпен бірге түсіндіретін encoder стилі.

Маскаланған тілдік модельдеу

Masked Language Modeling

Кей токендерді жасырып, оларды контекст арқылы болжауға үйрететін BERT-тің негізгі objective-і.

Келесі сөйлемді болжау

Next Sentence Prediction

Екі сөйлем бір ағыннан келе ме дегенді бағалайтын sentence-pair objective.

Төменгі міндетке бейімдеу

Fine-tuning

Алдын ала үйретілген модельді нақты downstream міндетке шағын supervised қадаммен бейімдеу.

Бұл кімдердің еңбегі?

Авторлар

Барлық авторлар толық көрсетілген.

Google AI Language

Jacob Devlin

Google AI Language

Ming-Wei Chang

Google AI Language

Kenton Lee

Google AI Language

Kristina Toutanova

Google AI Language

Publication info

NAACL-HLT 2019 · ACL Anthology N19-1423 · arXiv:1810.04805 · Submitted October 11, 2018 · Conference June 2019

Түпнұсқа мақаланы оқу (ACL) →

← Барлық мақалаларға қайту