Electronic Markets • 2021

Machine learning and deep learning

Көп команда үшін ең пайдалы нәрсе — жаңа модель емес, ортақ vocabulary. Бұл paper AI, ML, ANN және DL арасындағы шекараны айқындап, неге deep learning қолмен feature engineering-ді end-to-end оқытуға айналдырғанын түсіндіреді.

НЕ ТУРАЛЫ?

Автoрлар machine learning-ді тек алгоритмдер тізімі ретінде емес, толық engineering lifecycle ретінде көрсетеді: data input → feature extraction → model building → assessment. Сондай-ақ deployment кезінде explainability, concept drift, bias және AI-as-a-service сияқты факторлар неге тең дәрежеде маңызды екенін жинақтайды.

AI → ML → ANN → DLFeature engineering vs end-to-endCNN / RNN / GAN / AutoencoderBias + Drift + Explainability
Өнімдік жүйеде ең қымбат қате — AI, ML және DL-ды бір мағынада қолданып, мәселенің өзіне сай емес шешім таңдау.

Бұл жұмыс hype емес, дұрыс шекаралар туралы. Егер problem framing қате болса, команда не шамадан тыс complex deep learning stack құрады, не data-driven әдіс керек жерде rule-based жүйеге байланып қалады.

Сонымен қатар paper training метрикасымен тоқтамайды: модельдің шынайы құны deployment-тегі explainability, bias, data drift және қайта үйрету шығынымен анықталады.

Практикалық takeaway
• Deep learning — барлық мәселенің default жауабы емес.
• Шынайы bottleneck көбіне дерек сапасы мен monitoring-де жатады.
• Feature engineering азайса да, governance талабы жоғалмайды.
• Explainability реттелетін домендерде model choice-қа тікелей әсер етеді.

Жаңалық: терминдерді орнына қою

Бұл paper-дің басты құндылығы — бір жаңа модель емес, инженерлік шешім қабылдауға жарайтын карта. AI кең өріс, ML — одан тар, ANN — ML ішіндегі нейрон бағыты, ал DL — көпқабатты ANN.

Signature interactive: AI → ML → ANN → DL

Paper-дің ең пайдалы бөлігі — терминдерді шатастырмайтын нақты иерархия. Қабатты таңдаңыз: әр келесі деңгей алдыңғысының ішкі жиыны.

Concept map
Nested view
DL
Көп қабатты end-to-end оқыту
Deep Learning

DL — бірнеше жасырын қабаты бар ANN. Негізгі артықшылығы: feature extraction мен model building-ті бір end-to-end optimization циклына біріктіреді.

CNNs
RNN/LSTM
Transformers / large models
Learning modes
Supervised learning
Label бар дерекпен prediction үйрену: classification, regression, ranking.
Unsupervised learning
Жасырын құрылымды label-сыз іздеу: clustering, anomaly detection, embeddings.
Reinforcement learning
Қадамдық әрекет пен сыйақы арқылы policy үйрену: sequential decision making.
Жоқ. Regression, tree-based model, SVM, clustering сияқты көптеген ML әдістері нейрон желісіз жұмыс істейді. Deep learning — ML ішіндегі нақты бір отбасы.
Себебі foundation model дәуірінде де негізгі инженерлік сұрақ өзгермейді: дерек қандай, feature-ді кім үйренеді, model неге сенуге болады, production-та не бұзылады?

Архитектура және pipeline

Автoрлар үшін “архитектура” тек neural net блоктары емес. Ол модель құрудың толық жолын білдіреді: деректі дайындау, representation жасау, бағалау және production-та бақылау.

System diagram: model-building pipeline

Paper-дегі Figure 2-ні үш режимде қараңыз: classic programming, shallow ML және deep learning. Негізгі айырма — feature engineering қай жерде жүреді.

Figure 2
Shallow ML
Figure 2-дегі классикалық pipeline: data input → feature extraction → model building → assessment.
01
Data input
Кіріс дерек дайындалады, label/target анықталады, cleanup жасалады.
02
Feature extraction
Сарапшы деректен сигналды қолмен шығарады: агрегаттар, n-gram, handcrafted metrics.
03
Model building
Модель осы feature-лердің үстінде decision boundary немесе score үйренеді.
04
Assessment
Holdout / validation арқылы generalization және bias/variance tradeoff тексеріледі.
Feature engineering сапасы көбіне модельдің шегін анықтайды.
Before vs After: feature engineering қолмен бе, желі ішінде ме?

Paper-дің core айырмасы: classic ML-де адам қандай сигнал маңызды екенін көбірек өзі шешеді; DL-де сол representation-ды желі end-to-end үйренеді.

Feature shift
Мысал міндет
демо
Тапсырма: онлайн төлемнің fraud екенін анықтау.
БҰРЫН — shallow ML
Handcrafted
1) Адам feature жасайды: transaction count, country mismatch, time gap.
2) Model сол дайын feature-лермен score үйренеді.
3) Feature-ді жаңарту үшін инженер қайта оралады.
КЕЙІН — deep learning
End-to-end
1) Жүйе raw / richer sequence сигналды көреді.
2) Аралық қабаттар қауіпті pattern-дерді representation ретінде өздері құрайды.
3) Retraining representation мен prediction-ді бірге жаңартады.
Маңыздысы: deep learning feature жұмысын жоя салмайды; ол оны модельдің ішіне көшіреді және compute/data талабын өсіреді.
Deep learning architectures at a glance

Paper негізгі DL отбасыларын бір кестеге жинайды. Архитектураны таңдағанда “ең жаңа” емес, дерек құрылымы мен deployment шектеуі шешуші.

Table 2
Spatial structure
Best fit signal
Convolutional Neural Networks

CNN жергілікті receptive field және weight sharing арқылы image/signal ішіндегі кеңістіктік құрылымды тиімді ұстайды.

Engineering caution
Күшті inductive bias бар, бірақ кейде глобал контекстті capture етуге қосымша механизм керек.
Common product fits
Image classification
Object detection
Defect inspection

Өнімдер және операциялық қиындықтар

Paper электрондық нарықтар контексінде бір маңызды ой айтады: production ML тек accuracy емес, толық қызмет ретінде басқарылатын жүйе.

Жиі product fits
• Fraud detection және risk scoring
• Recommendation, ranking және personalization
• Demand forecasting және inventory planning
• Vision inspection, speech, search және semantic retrieval
Неге қиын?
• Data / architecture / hyperparameter үштағаны бірге қозғалады.
• Data bias пен concept drift уақыт өте келе нәтижені бұзады.
• Explainability реттелетін салаларда міндетті талап болуы мүмкін.
• AIaaS adoption-ы оңайлатса да, vendor lock-in және governance сұрақтарын ашады.
Architecture–data fit
CNN, RNN не simpler model таңдау input құрылымына және дерек көлеміне байланады.
Bias and fairness
Training data тең емес болса, сол қисық шешім production-та күшейіп шығады.
Drift monitoring
Deployment-тен кейін distribution өзгерсе, бір реттік benchmark маңызын жоғалтады.
Explainability
Қара жәшік модель кей доменде acceptable, ал кей доменде мүлде жарамсыз болуы мүмкін.

Талдау

Күшті жағы — paper фундаменталды шатасуды азайтады. Ол “қай модель ең мықты?” деген сұрақтан бұрын, “біз қандай problem class шешіп отырмыз?” деген сұрақты алға шығарады.

Әлсіз жағы — бұл frontier benchmark емес. Transformer немесе foundation model дәуірін толық қамтымайды. Бірақ дәл сол себепті ол бүгін де пайдалы: қазіргі үлкен модельдерді түсіну үшін базалық инженерлік логиканы айқын береді.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2017
RELATED
Attention Is All You Need
Vaswani et al.

Deep learning архитектураларының кейінгі эволюциясы бұл paper-дегі fundamentals-ті Transformer дәуіріне алып келеді.

2019
RELATED
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Devlin et al.

Representation learning пен pretraining идеясы deep learning-нің NLP-дегі нақты өнімдік серпілісін көрсетеді.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

Бұл fundamentals картасы кейін foundation model экожүйесіне қалай айналғанын жүйелейді.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Белгі құрастыру
Feature engineering
Шикі деректен модельге пайдалы сигналды қолмен шығару процесі; classic ML-де бұл бөлек негізгі кезең.
Соңынан соңына дейін оқыту
End-to-end learning
Representation learning мен соңғы мақсатты бір модель ішінде бірлесіп оңтайландыру тәсілі.
Ұғымдық ауытқу
Concept drift
Уақыт өте келе кіріс дерек пен мақсат арасындағы байланыс өзгеріп, production performance төмендеуі.
Түсіндірілетін AI
Explainable AI (XAI)
Модель шешімін адамға түсінікті қылуға бағытталған әдістер мен интерфейстер жиынтығы.

Авторлар

Бұл explainer бетінде paper-дегі үш автор толық көрсетілген.

Авторлар
Барлық авторлар толық көрсетілген.
Würzburg • FAU • Magdeburg
Christian Janiesch
University of Würzburg
Patrick Zschech
Friedrich-Alexander University Erlangen-Nürnberg
Kai Heinrich
Otto-von-Guericke University Magdeburg