7 modern adatépítési minta részletes bemutatása
Bevezető: Miért fontos ezeket ismerni?Az adatok mennyisége, sebessége és sokfélesége robbanásszerűen nő. Egyetlen „csodaszer” architektúra már nem létezik. Minden mintának megvan a maga erőssége és gyengesége. A szakértő feladata, hogy a cég üzleti igényeihez és technológiai érettségéhez illessze a megfelelő architektúrát – nem a hype-hoz.Most nézzük meg őket sorrendben.
1. Data Warehouse (Klasszikus adattárház)Leírás:
A hagyományos, központosított, strukturált adattárház. Az üzleti intelligencia (BI) és a vezetői riportálás klasszikus otthona.
Jellemzők:
- Szigorú sémák (Schema-on-Write)
- Nagyon jó teljesítményű SQL-motorok
- Tiszta, integrált, historizált adatok
- Kimball vagy Inmon modell szerint épül
- Kiváló riportálásra, dashboardokra, pénzügyi elemzésekre
- Magas adatminőség és governance
- Egyszerűen használható üzleti felhasználók számára
- Drága és lassú új adattípus (JSON, log, kép, video) bevételénél
- Nehezen skálázható extrém nagy volumenű nyers adatok esetén
- Hosszú fejlesztési ciklusok
Mikor válaszd?
Ha a fő igényed a megbízható, auditálható vezetői riportálás és üzleti elemzés.
2. Data Lake (Adattó)Leírás:
„Mindent bedobunk ide” típusú tároló. Nyugodtan tárolhatunk strukturálatlan, félig strukturált és strukturált adatokat is.
Jellemzők:
- Schema-on-Read (az értelmezés csak lekérdezéskor történik)
- Olcsó tárhely (object storage)
- Nagyon rugalmas
- Olcsó
- Gyorsan be lehet dobálni bármit (logok, clickstream, képek, videók, IoT)
- Kiválóan támogatja a Data Science-t és a Machine Learning-et
- Könnyen „Data Swamp” (adatmocsár) lesz belőle – kaotikus, rosszul dokumentált
- Gyenge adatminőség és governance
- BI riportokhoz lassabb és drágább
Mikor válaszd?
Ha sok nyers, változatos adatot kell hosszú távon megtartani jövőbeli használatra.
3. Data Lakehouse (A modern győztes)Leírás:
A Data Lake és a Data Warehouse legjobb tulajdonságainak ötvözete.
Jellemzők:
- Nyílt formátumok: Delta Lake, Apache Iceberg, Hudi
- ACID tranzakciók a lake-en
- Schema enforcement + evolution
- Időutazás (time travel), upsert, delete támogatása
- Egy platformon lehet BI + Data Science + ML
- Megszűnik a lake + warehouse duplikáció
- Megbízhatóbb, mint a hagyományos lake
- Még mindig komplexebb, mint egy tiszta warehouse
- A governance fegyelmet igényel
Mikor válaszd?
2025-2026-ban ez a legtöbb új zöldmezős projekt ajánlott választása.
4. Data Mesh (Adatháló)Leírás:
Decentralizált, domain-orientált adatplatform. Nem egy központi csapat épít mindent, hanem az üzleti domain-ek (pl. Marketing, Pénzügy, Logisztika) saját maguk felelnek az adataikért.
Fő elvek (Zhamak Dehghani):
- Domain-owned data products
- Data as a product
- Self-serve data platform
- Federated computational governance
- Skálázható 50+ csapatos szervezetekben
- Az üzlet közelebb kerül az adatokhoz
- Gyorsabb innováció
- Nagy szervezeti érettséget igényel
- Kezdetben kaotikus lehet
- Erős platformcsapat szükséges (Data Platform Team)
Mikor válaszd?
Nagyvállalatoknál, ahol sok önálló üzleti egység van.
5. Data FabricLeírás:
Az „adatszövet”. Egy logikai réteg, ami összeköti a szétszórt adatforrásokat (több cloud, on-prem, SaaS) anélkül, hogy mindent egy helyre költöztetne.
Fókusz:
- Aktív metadata
- Automatikus adatfelfedezés
- Tudásgráfok
- Virtuális integráció
- Nem kell mindent migrálni
- Gyorsabb értékteremtés
- Jobb átláthatóság heterogén környezetben
Mikor válaszd?
Komplex, több felhős, örökölt rendszerekkel rendelkező nagyvállalatoknál.
6. Lambda ArchitectureLeírás:
Klasszikus sebesség + pontosság kompromisszum.
Két réteg:
- Batch Layer (lassú, de pontos – pl. Spark/Hadoop)
- Speed Layer (gyors, közel valós idejű – pl. Kafka + Flink/Cassandra)
- Mind a pontosság, mind a sebesség elérhető
- Bebizonyított, stabil architektúra
- Két kódot kell karbantartani (bonyolult)
- Duplikált logika
Olyan esetekben, ahol kritikus a pontosság (pl. banki elszámolás) és a valós idejű döntés is (pl. csalásfelderítés).
7. Kappa ArchitectureLeírás:
A Lambda egyszerűsített változata. Csak streaming réteg van.Minden adatot streamként kezelünk (event sourcing), a batch feldolgozást is stream-en hajtjuk végre (pl. Flink vagy Spark Streaming).
Előnyök:
- Egyszerűbb, mint a Lambda
- Könnyebben karbantartható
- Igazi real-time képesség
- Nem minden használati esetnél optimális (pl. nagyon nagy történelmi újraszámítások)
- Stream processing motoroknak kell bírniuk a batch jellegű terhelést is
Mikor válaszd?
Fraud detection, IoT, recommendation engine, trading rendszerek – ahol a valós idejűség kritikus.
Összefoglaló összehasonlítás és ajánlás
Záró gondolat (szakértőként):
„Az architektúra nem vallás. Döntés.”
Ne azért válassz Lakehouse-t, mert „mindenki azt csinálja”, és ne Data Mesh-t csak azért, mert trendi. Először értsd meg a cég üzleti kérdéseit, adatmennyiségét, csapatainak érettségét és költségérzékenységét – csak utána válassz architektúrát.
Megjegyzések
Megjegyzés küldése