Legfontosabb adattárház és adatelemzési architektúra megközelítések
🧭 Átfogó Adatarchitektúra Megközelítések
1. Data Warehouse (Adattárház)
Jellemzők: Központosított tároló, ahol az adatok tisztítva, integrálva, és a BI-hoz optimalizált dimenziós modell szerint (pl. csillagséma) vannak elrendezve. A feldolgozás során a séma íráskor (schema-on-write) kerül érvényesítésre (ETL/ELT).
Elsődleges cél: Üzleti intelligencia (BI), riportolás, historikus elemzés, magas adatminőség és konzisztencia.
2. Data Lake (Adattó)
Jellemzők: Központosított tároló, amely nagy mennyiségű nyers adatot tárol, eredeti formátumában (strukturált, félig strukturált, strukturálatlan). A séma olvasáskor (schema-on-read) kerül érvényesítésre, ami nagy rugalmasságot biztosít.
Elsődleges cél: Költséghatékony tárolás, Adattudomány, Gépi Tanulás (ML), felfedező adatelemzés.
3. Data Lakehouse (Adattóház)
Lásd a Medallion Architektúrát, mint a Lakehouse implementációs mintáját.
Jellemzők: Ötvözi a Data Lake rugalmasságát (nyers adatok, skálázhatóság) a Data Warehouse megbízhatóságával (ACID tranzakciók, séma érvényesítés).
Elsődleges cél: Egységes platform biztosítása mind a BI, mind az ML számára, egyszerűbb infrastruktúra fenntartása.
4. Medallion Architektúra (Bronze-Silver-Gold)
Lásd az előző választ.
Jellemzők: Egy rétegzett tervezési minta, amely Data Lakehouse-ban használatos. Garantálja az adatok inkrementális tisztítását és finomítását a nyerstől (Bronze) az üzleti kész állapotig (Gold).
Elsődleges cél: Az adatminőség, megbízhatóság és auditálhatóság beépítése a Data Lakehouse adatfolyamába.
5. Data Mesh (Tartományorientált)
Lásd az előző választ.
Jellemzők: Decentralizált, szervezeti megközelítés. Az adatok tulajdonjoga és karbantartása az üzleti tartományokhoz (domain) kerül. Az adatok mint termékek (Data as a Product) szolgáltatódnak.
Elsődleges cél: A nagy, komplex szervezetek adatinnovációjának skálázása, a központi szűk keresztmetszetek megszüntetése.
6. Data Fabric (Adatszövet)
Jellemzők: Integrációs és technológiai megközelítés. Egy virtuális réteget biztosít a heterogén adatok felett. AI-t/ML-t használ a metaadatok kezelésére és az adatok összekapcsolására, minimalizálva az adatok fizikai mozgatását.
Elsődleges cél: Egységes, valós idejű hozzáférés biztosítása a szétszórt adatokhoz (különböző felhők, on-premise, stb.) anélkül, hogy azokat másolni kellene.
7. Lambda Architektúra
Jellemzők: Két, párhuzamos adatfeldolgozási útvonal: egy Batch Layer a pontosságért és egy Speed Layer a valós idejűségért.
Elsődleges cél: A gyors válaszidő (streaming) és a historikus adatokból származó nagy pontosság ötvözése.
8. Kappa Architektúra
Jellemzők: A Lambda egyszerűsített változata. Csak egy Streaming Layer-t használ, ahol minden adatot adatfolyamként kezel. A Batch számítások is a stream motorral történnek (az adatfolyam elejétől való újrajátszásával).
Elsődleges cél: Az architektúra komplexitásának csökkentése a Lambda-hoz képest.
📋 Összehasonlító Táblázat: Jellemzők és Eltérések
| Megközelítés | Fő Jellemző | Adat Struktúra/Feldolgozás | Tulajdonosi/Szervezeti Megközelítés | Legjobb: |
| Data Warehouse | Központosított, BI-optimalizált tároló. | Strukturált, séma íráskor (Schema-on-Write - ETL). | Központi IT/Adattárház csapat. | Hagyományos BI, stabil riportolás, magas adatminőség. |
| Data Lake | Központosított, nyers adattárolás. | Nyers adatok (bármilyen formátum), séma olvasáskor (Schema-on-Read). | Központi Adatmérnöki csapat. | Adattudomány, ML, nyers adatok tárolása alacsony költségen. |
| Data Lakehouse | Hibrid; a Lake és a Warehouse előnyeit ötvözi. | Bármilyen formátum, ACID tranzakciók, séma kényszerítés (pl. Medallion). | Központi Adatplatform/Lakehouse csapat. | BI és ML egy platformon, Medallion mintával. |
| Medallion Arch. | Rétegzett finomítási minta Data Lakehouse-ban. | Bronze (Nyers) $\to$ Silver (Tisztított) $\to$ Gold (Üzleti Kész). | Központi Adatmérnöki csapat. | Adatminőség és auditálhatóság biztosítása. |
| Data Mesh | Decentralizált, tartományorientált. | Az adatok termékek (Data Products) a tartományok felelősségében. | Decentralizált (Tartományi) csapatok. | Nagy, komplex cégek, gyors innováció, autonómia. |
| Data Fabric | Virtuális, integrációs réteg. | Adatok helyben maradnak, metaadat-alapú virtuális hozzáférés. | Központi Adatkezelési (Governance) csapat. | Szétszórt, heterogén adatforrások egységes elérése. |
| Lambda Arch. | Két párhuzamos adatfolyam (batch + stream). | Két logika (egy pontos, egy gyors), komplex kezelés. | Központi Adatmérnöki csapat. | Korai Big Data igények, ahol a valós idő és a pontosság elvált egymástól. |
| Kappa Arch. | Egységes adatfolyam (Stream-only). | Egyetlen stream feldolgozás (a batch is streamként újra játszva). | Központi Adatmérnöki csapat. | Valós idejű analitikára fókuszáló megoldások. |
Ez az összefoglalás segítséget nyújt a különböző architektúrák alapvető filozófiájának és alkalmazási területének megértésében.
Megjegyzések
Megjegyzés küldése