arXiv • 24 Наурыз 2023

Knowledge Graphs: Opportunities and Challenges

Knowledge Graph (KG) — әлем туралы білімді entity–relation графы ретінде жинап, іздеу, интеграция және reasoning мүмкіндігін күшейтетін дерек қабаты.

НЕ ТУРАЛЫ?

Бұл обзор KG-дың не екенін ғана емес, оны end‑to‑end қалай құратынымызды (pipeline) және неге қиын екенін түсіндіреді: деректерді біріктіру, entity resolution, schema alignment, extraction қателері, жаңарту (evolution), сондай-ақ масштаб/сапа trade‑off-тары.

Pipeline: build → query → maintainData integrationReasoning + embeddings

Көп дерек бар, бірақ «біріктірілген білім» жоқ болса — AI жауап бере алмайды.

Үлкен ұйымдарда ақпарат жүздеген жүйеде жатады: CRM, ERP, құжат, лог, база. KG осыны бір ортақ модельге келтіріп, “бір сұрақ — көп дерек” проблемасын шешуге тырысады.

Қазіргі LLM дәуірінде KG тағы да өзекті: KG — фактіні құрылымдап, RAG/agent жүйелеріне бақылаулы контекст береді (бірақ бұл paper LLM-ға дейін жазылған).

Негізгі инсайт

• KG-дың құны тек дерек сақтауда емес, entity identity және relation semantics дұрыс болғанда ашылады.

• “Build once” болмайды: KG үнемі жаңарып, деградацияға қарсы мониторинг керек.

Жаңалық (обзордың фокусы)

Бұл paper “бір алгоритм” ұсынбайды — KG экожүйесін карта сияқты жинақтайды: мүмкіндіктері, құрылымдау тәсілдері, және ең қиын жерлері.

KG-дың негізгі “қабаттары”

• Ontology / schema (класс, қасиет, constraint).

• Instance graph (нақты entity және relation).

• Storage + query (RDF/SPARQL немесе property graph).

• Reasoning (rules/logic) және embedding (representation learning).

Бір адам/компания әр жүйеде әртүрлі атпен, әртүрлі идентификатормен жүреді. Дұрыс “біріктіру” болмаса, граф reasoning-і қате болады (duplicate немесе merge error).

Дерек те, schema да өзгереді: жаңа типтер, жаңа қатынастар, ескі entity-лердің статусы. KG үшін incremental update және quality monitoring қажет.

KG pipeline (инженерлік көзқарас)

Тәжірибеде KG — ETL емес, “ETL + semantics + QA”.

Knowledge Graph: шағын интерактив мысал

KG идеясы — фактілерді “мәтін” емес, entity–relation графы ретінде сақтау. Түйін таңдаңыз да, байланыстарын көріңіз.

Interactive

Граф

toy KG

Бұл тек шағын иллюстрация. Нақты KG-та түйін/қатынас мыңдаған болуы мүмкін, ал query/қадағалау бөлек жүйе талап етеді.

Таңдалған entity

Мақала (Paper)

Edges

OUTGOING

сипаттайды → Тақырып
пайдаланады → Дерек

INCOMING

Автор → жазды
Құрал → ұсынады

1) Sources → Extraction

Текст, кесте, база, API-дан entity/relation шығару (NLP, IE, mapping).

2) Linking / Alignment

Entity resolution, ontology alignment, conflict resolution, provenance.

3) Storage / Query / Update

Graph store, индекстер, SPARQL/GraphQL/Gremlin, incremental refresh, мониторинг.

Before vs After: “көп дерек” → “біріктірілген білім”

KG құндылығы — жаңа дерек қоспау, бар деректі бір тілге келтіру. Төмендегі слайдер айырманы интуитив түрде көрсетеді.

Сұрақ қою: бөлек жүйелер → KG үстімен query

Before/After

Мысал prompt

демо

Сұрақ: “Осы мақалаға кім автор? Ол қай институтта? Қай деректер қолданылған?”

БҰРЫН (silo дерек)

Slow

1) CRM-нан автор тізімін іздеу
2) HR жүйесінен аффилиацияны табу
3) Docs-тан dataset атауын қолмен шығару
4) Сәйкессіздік/duplicate шықса — қолмен түзету

КЕЙІН (KG)

Queryable

SPARQL/Graph query:
(Paper) —[authored_by]→ (Author) —[affiliated_with]→ (Org)
(Paper) —[uses]→ (Dataset)
Нәтиже: бір сұрақпен графтан алынады + provenance сақталады.

Араласу деңгейі: 70%

KG-дың күшті жері: entity resolution + бірегей идентификатор + байланыс.

Өнімдер және қолдану мысалдары

KG-ды әдетте “semantic layer” ретінде қолданады.

Классикалық use‑case

• Search/QA (entity-centric іздеу).

• Recommendation (graph-based similarity).

• Fraud/AML (байланыс графы, қауымдастық).

• Master Data Management (бір “golden record”).

• Data catalog + lineage (provenance).

LLM дәуірінде (қосымша түсінік)

• KG → RAG: entity‑level retrieval.

• KG constraints → hallucination азайту.

• Agent tooling: “query the graph” құралдары.

Талдау: қиындықтар неге бітпейді?

KG жобалары “POC-та жақсы” болып, production-да қиын болуының себебі — проблемалардың көбі ML емес, дерек сапасы + идентичность + governance.

Егер identity (entity linking) қате болса, reasoning те қате. Егер provenance жоқ болса, trust жоқ. Егер update жоқ болса — KG ескіріп, жүйе баяулайды.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2023

A Comprehensive Survey on Pretrained Foundation Models

Zhou et al.

Foundation model дәуірінде құрылымдалған білім қабаты неге қайта маңызды болып жатқанын кеңірек контексте көрсетеді.

Оқу →

2024

Can Large Language Models Reason and Plan?

Kambhampati

Фактілік тексеру мен сыртқы білім құрылымдарының reasoning сенімділігіндегі рөлін салыстыруға болады.

Оқу →

2024

The AI Scientist

Lu et al.

Автономды ғылыми агенттер үшін provenance және structured knowledge неге пайдалы болуы мүмкін екенін ойлантады.

Оқу →

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Түйін

Entity / Node

KG ішіндегі объект, ұғым немесе нақты бірлік; мысалы адам, ұйым, дәрі немесе мақала.

Қатынас

Relation / Edge

Екі entity арасындағы мағыналы байланыс; мысалы works_for, treats, cites.

Сәйкестендіру

Entity resolution

Әртүрлі дереккөздегі бір объектіге тиесілі жазбаларды бір entity ретінде біріктіру процесі.

Шығу тегі

Provenance

Графтағы факт қай жерден, қай құжаттан немесе қай pipeline қадамынан шыққанын көрсететін із.

Авторлар

arXiv жазбасындағы 4 автор.

Авторлар

Барлық авторлар толық көрсетілген.

Ciyuan Peng

Feng Xia

Mehdi Naseriparsa

Francesco Osborne