Electronic Markets • 2021

Machine learning and deep learning

Көп команда үшін ең пайдалы нәрсе — жаңа модель емес, ортақ vocabulary. Бұл paper AI, ML, ANN және DL арасындағы шекараны айқындап, неге deep learning қолмен feature engineering-ді end-to-end оқытуға айналдырғанын түсіндіреді.

НЕ ТУРАЛЫ?

Автoрлар machine learning-ді тек алгоритмдер тізімі ретінде емес, толық engineering lifecycle ретінде көрсетеді: data input → feature extraction → model building → assessment. Сондай-ақ deployment кезінде explainability, concept drift, bias және AI-as-a-service сияқты факторлар неге тең дәрежеде маңызды екенін жинақтайды.

AI → ML → ANN → DLFeature engineering vs end-to-endCNN / RNN / GAN / AutoencoderBias + Drift + Explainability

Өнімдік жүйеде ең қымбат қате — AI, ML және DL-ды бір мағынада қолданып, мәселенің өзіне сай емес шешім таңдау.

Бұл жұмыс hype емес, дұрыс шекаралар туралы. Егер problem framing қате болса, команда не шамадан тыс complex deep learning stack құрады, не data-driven әдіс керек жерде rule-based жүйеге байланып қалады.

Сонымен қатар paper training метрикасымен тоқтамайды: модельдің шынайы құны deployment-тегі explainability, bias, data drift және қайта үйрету шығынымен анықталады.

Практикалық takeaway

• Deep learning — барлық мәселенің default жауабы емес.

• Шынайы bottleneck көбіне дерек сапасы мен monitoring-де жатады.

• Feature engineering азайса да, governance талабы жоғалмайды.

• Explainability реттелетін домендерде model choice-қа тікелей әсер етеді.

Жаңалық: терминдерді орнына қою

Бұл paper-дің басты құндылығы — бір жаңа модель емес, инженерлік шешім қабылдауға жарайтын карта. AI кең өріс, ML — одан тар, ANN — ML ішіндегі нейрон бағыты, ал DL — көпқабатты ANN.

Signature interactive: AI → ML → ANN → DL

Paper-дің ең пайдалы бөлігі — терминдерді шатастырмайтын нақты иерархия. Қабатты таңдаңыз: әр келесі деңгей алдыңғысының ішкі жиыны.

Concept map

Nested view

DL

Көп қабатты end-to-end оқыту

Deep Learning

DL — бірнеше жасырын қабаты бар ANN. Негізгі артықшылығы: feature extraction мен model building-ті бір end-to-end optimization циклына біріктіреді.

CNNs

RNN/LSTM

Transformers / large models

Learning modes

Supervised learning

Label бар дерекпен prediction үйрену: classification, regression, ranking.

Unsupervised learning

Жасырын құрылымды label-сыз іздеу: clustering, anomaly detection, embeddings.

Reinforcement learning

Қадамдық әрекет пен сыйақы арқылы policy үйрену: sequential decision making.

Жоқ. Regression, tree-based model, SVM, clustering сияқты көптеген ML әдістері нейрон желісіз жұмыс істейді. Deep learning — ML ішіндегі нақты бір отбасы.

Себебі foundation model дәуірінде де негізгі инженерлік сұрақ өзгермейді: дерек қандай, feature-ді кім үйренеді, model неге сенуге болады, production-та не бұзылады?

Архитектура және pipeline

Автoрлар үшін “архитектура” тек neural net блоктары емес. Ол модель құрудың толық жолын білдіреді: деректі дайындау, representation жасау, бағалау және production-та бақылау.

System diagram: model-building pipeline

Paper-дегі Figure 2-ні үш режимде қараңыз: classic programming, shallow ML және deep learning. Негізгі айырма — feature engineering қай жерде жүреді.

Figure 2

Shallow ML

Figure 2-дегі классикалық pipeline: data input → feature extraction → model building → assessment.

01

Data input

Кіріс дерек дайындалады, label/target анықталады, cleanup жасалады.

→

02

Feature extraction

Сарапшы деректен сигналды қолмен шығарады: агрегаттар, n-gram, handcrafted metrics.

→

03

Model building

Модель осы feature-лердің үстінде decision boundary немесе score үйренеді.

→

04

Assessment

Holdout / validation арқылы generalization және bias/variance tradeoff тексеріледі.

Feature engineering сапасы көбіне модельдің шегін анықтайды.

Before vs After: feature engineering қолмен бе, желі ішінде ме?

Paper-дің core айырмасы: classic ML-де адам қандай сигнал маңызды екенін көбірек өзі шешеді; DL-де сол representation-ды желі end-to-end үйренеді.

Feature shift

Мысал міндет

демо

Тапсырма: онлайн төлемнің fraud екенін анықтау.

БҰРЫН — shallow ML

Handcrafted

1) Адам feature жасайды: transaction count, country mismatch, time gap.
2) Model сол дайын feature-лермен score үйренеді.
3) Feature-ді жаңарту үшін инженер қайта оралады.

КЕЙІН — deep learning

End-to-end

1) Жүйе raw / richer sequence сигналды көреді.
2) Аралық қабаттар қауіпті pattern-дерді representation ретінде өздері құрайды.
3) Retraining representation мен prediction-ді бірге жаңартады.

Араласу деңгейі: 70%

Маңыздысы: deep learning feature жұмысын жоя салмайды; ол оны модельдің ішіне көшіреді және compute/data талабын өсіреді.

Deep learning architectures at a glance

Paper негізгі DL отбасыларын бір кестеге жинайды. Архитектураны таңдағанда “ең жаңа” емес, дерек құрылымы мен deployment шектеуі шешуші.

Table 2

Spatial structure

Best fit signal

Convolutional Neural Networks

CNN жергілікті receptive field және weight sharing арқылы image/signal ішіндегі кеңістіктік құрылымды тиімді ұстайды.

Engineering caution

Күшті inductive bias бар, бірақ кейде глобал контекстті capture етуге қосымша механизм керек.

Common product fits

Image classification

Object detection

Defect inspection

Өнімдер және операциялық қиындықтар

Paper электрондық нарықтар контексінде бір маңызды ой айтады: production ML тек accuracy емес, толық қызмет ретінде басқарылатын жүйе.

Жиі product fits

• Fraud detection және risk scoring

• Recommendation, ranking және personalization

• Demand forecasting және inventory planning

• Vision inspection, speech, search және semantic retrieval

Неге қиын?

• Data / architecture / hyperparameter үштағаны бірге қозғалады.

• Data bias пен concept drift уақыт өте келе нәтижені бұзады.

• Explainability реттелетін салаларда міндетті талап болуы мүмкін.

• AIaaS adoption-ы оңайлатса да, vendor lock-in және governance сұрақтарын ашады.

Architecture–data fit

CNN, RNN не simpler model таңдау input құрылымына және дерек көлеміне байланады.

Bias and fairness

Training data тең емес болса, сол қисық шешім production-та күшейіп шығады.

Drift monitoring

Deployment-тен кейін distribution өзгерсе, бір реттік benchmark маңызын жоғалтады.

Explainability

Қара жәшік модель кей доменде acceptable, ал кей доменде мүлде жарамсыз болуы мүмкін.

Талдау

Күшті жағы — paper фундаменталды шатасуды азайтады. Ол “қай модель ең мықты?” деген сұрақтан бұрын, “біз қандай problem class шешіп отырмыз?” деген сұрақты алға шығарады.

Әлсіз жағы — бұл frontier benchmark емес. Transformer немесе foundation model дәуірін толық қамтымайды. Бірақ дәл сол себепті ол бүгін де пайдалы: қазіргі үлкен модельдерді түсіну үшін базалық инженерлік логиканы айқын береді.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2017

Vaswani et al.

Deep learning архитектураларының кейінгі эволюциясы бұл paper-дегі fundamentals-ті Transformer дәуіріне алып келеді.

Оқу →

2019

Devlin et al.

Representation learning пен pretraining идеясы deep learning-нің NLP-дегі нақты өнімдік серпілісін көрсетеді.

Оқу →

2023

Zhou et al.

Бұл fundamentals картасы кейін foundation model экожүйесіне қалай айналғанын жүйелейді.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Белгі құрастыру

Feature engineering

Шикі деректен модельге пайдалы сигналды қолмен шығару процесі; classic ML-де бұл бөлек негізгі кезең.

Соңынан соңына дейін оқыту

End-to-end learning

Representation learning мен соңғы мақсатты бір модель ішінде бірлесіп оңтайландыру тәсілі.

Ұғымдық ауытқу

Concept drift

Уақыт өте келе кіріс дерек пен мақсат арасындағы байланыс өзгеріп, production performance төмендеуі.

Түсіндірілетін AI

Explainable AI (XAI)

Модель шешімін адамға түсінікті қылуға бағытталған әдістер мен интерфейстер жиынтығы.

Авторлар

Бұл explainer бетінде paper-дегі үш автор толық көрсетілген.

Авторлар

Барлық авторлар толық көрсетілген.

Würzburg • FAU • Magdeburg

Christian Janiesch

University of Würzburg

Patrick Zschech

Friedrich-Alexander University Erlangen-Nürnberg

Kai Heinrich

Otto-von-Guericke University Magdeburg

← Барлық мақалаларға қайту