arXiv • 24 Наурыз 2023

Knowledge Graphs: Opportunities and Challenges

Knowledge Graph (KG) — әлем туралы білімді entity–relation графы ретінде жинап, іздеу, интеграция және reasoning мүмкіндігін күшейтетін дерек қабаты.

НЕ ТУРАЛЫ?

Бұл обзор KG-дың не екенін ғана емес, оны end‑to‑end қалай құратынымызды (pipeline) және неге қиын екенін түсіндіреді: деректерді біріктіру, entity resolution, schema alignment, extraction қателері, жаңарту (evolution), сондай-ақ масштаб/сапа trade‑off-тары.

Pipeline: build → query → maintainData integrationReasoning + embeddings
Көп дерек бар, бірақ «біріктірілген білім» жоқ болса — AI жауап бере алмайды.

Үлкен ұйымдарда ақпарат жүздеген жүйеде жатады: CRM, ERP, құжат, лог, база. KG осыны бір ортақ модельге келтіріп, “бір сұрақ — көп дерек” проблемасын шешуге тырысады.

Қазіргі LLM дәуірінде KG тағы да өзекті: KG — фактіні құрылымдап, RAG/agent жүйелеріне бақылаулы контекст береді (бірақ бұл paper LLM-ға дейін жазылған).

Негізгі инсайт
• KG-дың құны тек дерек сақтауда емес, entity identity және relation semantics дұрыс болғанда ашылады.
• “Build once” болмайды: KG үнемі жаңарып, деградацияға қарсы мониторинг керек.

Жаңалық (обзордың фокусы)

Бұл paper “бір алгоритм” ұсынбайды — KG экожүйесін карта сияқты жинақтайды: мүмкіндіктері, құрылымдау тәсілдері, және ең қиын жерлері.

KG-дың негізгі “қабаттары”
• Ontology / schema (класс, қасиет, constraint).
• Instance graph (нақты entity және relation).
• Storage + query (RDF/SPARQL немесе property graph).
• Reasoning (rules/logic) және embedding (representation learning).
Бір адам/компания әр жүйеде әртүрлі атпен, әртүрлі идентификатормен жүреді. Дұрыс “біріктіру” болмаса, граф reasoning-і қате болады (duplicate немесе merge error).
Дерек те, schema да өзгереді: жаңа типтер, жаңа қатынастар, ескі entity-лердің статусы. KG үшін incremental update және quality monitoring қажет.

KG pipeline (инженерлік көзқарас)

Тәжірибеде KG — ETL емес, “ETL + semantics + QA”.

Knowledge Graph: шағын интерактив мысал

KG идеясы — фактілерді “мәтін” емес, entity–relation графы ретінде сақтау. Түйін таңдаңыз да, байланыстарын көріңіз.

Interactive
Граф
toy KG
жаздысипаттайдыпайдаланадыұсынадыМақалаАвторИнститутДерекТақырыпҚұрал
Бұл тек шағын иллюстрация. Нақты KG-та түйін/қатынас мыңдаған болуы мүмкін, ал query/қадағалау бөлек жүйе талап етеді.
Таңдалған entity
Мақала (Paper)
Edges
OUTGOING
  • сипаттайды Тақырып
  • пайдаланады Дерек
INCOMING
  • Автор жазды
  • Құрал ұсынады
1) Sources → Extraction

Текст, кесте, база, API-дан entity/relation шығару (NLP, IE, mapping).

2) Linking / Alignment

Entity resolution, ontology alignment, conflict resolution, provenance.

3) Storage / Query / Update

Graph store, индекстер, SPARQL/GraphQL/Gremlin, incremental refresh, мониторинг.

Before vs After: “көп дерек” → “біріктірілген білім”

KG құндылығы — жаңа дерек қоспау, бар деректі бір тілге келтіру. Төмендегі слайдер айырманы интуитив түрде көрсетеді.

Сұрақ қою: бөлек жүйелер → KG үстімен query
Before/After
Мысал prompt
демо
Сұрақ: “Осы мақалаға кім автор? Ол қай институтта? Қай деректер қолданылған?”
БҰРЫН (silo дерек)
Slow
1) CRM-нан автор тізімін іздеу
2) HR жүйесінен аффилиацияны табу
3) Docs-тан dataset атауын қолмен шығару
4) Сәйкессіздік/duplicate шықса — қолмен түзету
КЕЙІН (KG)
Queryable
SPARQL/Graph query:
(Paper) —[authored_by]→ (Author) —[affiliated_with]→ (Org)
(Paper) —[uses]→ (Dataset)
Нәтиже: бір сұрақпен графтан алынады + provenance сақталады.
KG-дың күшті жері: entity resolution + бірегей идентификатор + байланыс.

Өнімдер және қолдану мысалдары

KG-ды әдетте “semantic layer” ретінде қолданады.

Классикалық use‑case
• Search/QA (entity-centric іздеу).
• Recommendation (graph-based similarity).
• Fraud/AML (байланыс графы, қауымдастық).
• Master Data Management (бір “golden record”).
• Data catalog + lineage (provenance).
LLM дәуірінде (қосымша түсінік)
• KG → RAG: entity‑level retrieval.
• KG constraints → hallucination азайту.
• Agent tooling: “query the graph” құралдары.

Талдау: қиындықтар неге бітпейді?

KG жобалары “POC-та жақсы” болып, production-да қиын болуының себебі — проблемалардың көбі ML емес, дерек сапасы + идентичность + governance.

Егер identity (entity linking) қате болса, reasoning те қате. Егер provenance жоқ болса, trust жоқ. Егер update жоқ болса — KG ескіріп, жүйе баяулайды.

Қатысты мақалалар

Осы explainer-ді кеңейтетін іргелес жұмыстар.

2023
RELATED
A Comprehensive Survey on Pretrained Foundation Models
Zhou et al.

Foundation model дәуірінде құрылымдалған білім қабаты неге қайта маңызды болып жатқанын кеңірек контексте көрсетеді.

2024
RELATED
Can Large Language Models Reason and Plan?
Kambhampati

Фактілік тексеру мен сыртқы білім құрылымдарының reasoning сенімділігіндегі рөлін салыстыруға болады.

2024
RELATED
The AI Scientist
Lu et al.

Автономды ғылыми агенттер үшін provenance және structured knowledge неге пайдалы болуы мүмкін екенін ойлантады.

Түсіндірме сөздік

Негізгі терминдерді бір стильде жинақтау.

Түйін
Entity / Node
KG ішіндегі объект, ұғым немесе нақты бірлік; мысалы адам, ұйым, дәрі немесе мақала.
Қатынас
Relation / Edge
Екі entity арасындағы мағыналы байланыс; мысалы works_for, treats, cites.
Сәйкестендіру
Entity resolution
Әртүрлі дереккөздегі бір объектіге тиесілі жазбаларды бір entity ретінде біріктіру процесі.
Шығу тегі
Provenance
Графтағы факт қай жерден, қай құжаттан немесе қай pipeline қадамынан шыққанын көрсететін із.

Авторлар

arXiv жазбасындағы 4 автор.

Авторлар
Барлық авторлар толық көрсетілген.
Ciyuan Peng
Feng Xia
Mehdi Naseriparsa
Francesco Osborne