Üzleti intelligencia => Business Intelligence (BI) alapfogalmai
Üzleti intelligencia BI technológiák célja
Az üzleti döntéshozást megkönnyítendő adathalmazok feltárása, feldolgozása, ere épülő kimutatások, statisztikák, elemzések létrehozása és felhasználása a szervezet összes szintjén úgy, hogy az a üzleti döntéshozás támogatás valós időben komplex rendszerként valósuljon meg. A cégek az adathalmazai természetesen a normál ügymenetből származó adatokkal töltődnek fel, mivel azonban a felhasználás új célja esetenként eltér, ezért megengedhetők különböző célirányos módosítások az adatkörben mind logikailag, mind fizikailag az eredeti adatstruktúrákhoz képest.
A BI rendszereknek egy nagyon lényeges architektúrája az adattárház felépítés és ebből az információ éhség legkomplexebb kiszolgálása. A legegyszerűbb, legkoraibb megvalósítás esetén Database Bridge segítségével közvetlenül az adatokat tartalmazó rendszeren futtatjuk az elemzéseket, mely nagyobb lekérdezések esetén jelentősen visszavehet az eredeti rendszer teljesítményéből. A hatékony és alapadatoktól független rendszerek kialakítása nagyon hamar utat tör magának az adatárház felé (Data warehouse : DWH) .
Rendszertechnikai felosztás:
OLTP: On Line Transaction Processig, azaz online tranzakciófeldolgozás. Az adatoknak egy alapvetően tranzakció orientált tárolási formája, melyekbe a vállalati adatfolyam részeként először kerülnek az adatok. Alapvető cél, hogy az adatokat rekordonként gyorsan, biztonságosan, hatékonyan tudjuk felvinni, beírni az adatbázisba.
OLAP: On Line Analitical Processing, az online analitikai feldolgozás. Elemzési szempontokat szem előtt tartó tárolási forma, melyből az OLTP rendszerhez képest kevesebb energiával lehet az adatokat tömbösített formában kinyerni, a nevéből is adódóan alapvetően elemzési céllal.
Egyik nézőpont szerint az OLTP rendszerekre adatok tárolásának célja („putting data in”) jellemző, ezzel szemben az OLAP rendszerek fő célja az adatkinyerés („getting data out”).
Adatmodell szempontjából megkülönböztetünk Multidimenzionális (MOLAP), Relációs (ROLAP) és Hibrid (HOLAP) megoldású OLAP kockákat.
Az adattárház tervezése során nagyon összetett folyamattal áll elő az adatárház modellje, strukturálja.
Az adattárház modell megtervezése után a következő lényeges lépés az ETL folyamat tervezése és implementálása. A heterogén adatforrások és az adattárház közötti adatáttöltő lépéseket hívjuk ETL folyamatnak (Extract,Transform és végül Load).
- EXTRACTION : Adatok (elkülönülő, heterogén, …) forrás rendszerekből történő kinyerése
- TRANSFORMATION : forrásadatok tisztítása, javítása, inkonzisztencia megszüntetése, átalakítása, közös szótár szerint konvertálása, hiba lista képzés, …
- LOAD : Végleges struktúrába (dimenzió, szótár és ténytáblák) töltése, kulcsok, indexek készítése, particionálás, …
A DWH dattöltések megoldásai közt két alapvető csoportot különböztethetünk meg:
• "Push" adattöltés: Az operatív rendszerünket felkészítjük arra, hogy az adattárház számára adatokat gyűjtsön, adatokat továbbítson. Ebben az esetben lentről-felfelé az operatív rendszer kezdeményezi az adatok továbbítását az adattárházba.
• "Pull" adattöltés: Az adattárház a megfelelően beállított időintervallumban az operatív rendszerekhez intézett lekérdezésekkel frissíti az adatait.
• "Push" adattöltés: Az operatív rendszerünket felkészítjük arra, hogy az adattárház számára adatokat gyűjtsön, adatokat továbbítson. Ebben az esetben lentről-felfelé az operatív rendszer kezdeményezi az adatok továbbítását az adattárházba.
• "Pull" adattöltés: Az adattárház a megfelelően beállított időintervallumban az operatív rendszerekhez intézett lekérdezésekkel frissíti az adatait.
A primary attribute (PA , elsődleges jellemzők), aminek elemei a dimenzióelemek (jellemző-értékek). Ezekre felépíthető tetszőleges osztályozó hierarchia, aminek szintjeit ún. classification attribute-nak (CA , osztályozó jellemzők) hívjuk, elemei pedig classification nodes (CN, osztályozó csomópontok) néven futnak. Az ún. dimension attributes (DA, dimenzió-jellemzők) a CN-ekhez vannak hozzárendelve. Az ún. primary multidimensional object-ek (PMO, elsődleges multidimenzionális objektumok) a következő elemekből állnak: dimenziónként egy-egy CA-PA pár halmazt, amely tulajdonképp a kockák felbontását határozza meg; minden CA-PA párhoz egy elemhalmazt, amely a szűrési feltételekért felel; egy összegzési típust, amely meghatározza az alkalmazandó összegzési műveletet (pl. összeadás v. átlag); valamint egy adattípus definíciót.
A secondary multidimensional object (SMO, másodlagos multidimenzionális objektum) egy CN halmazból, valamint ezekre alkalmazhaztó DA-kból áll. Végül a multidimenzionális objektum absztrakt fogalmának egy PMO felel meg, egy alkalmas DA halmaz pedig meghatározza a kapcsolódó beágyazott SMO-kat.
A secondary multidimensional object (SMO, másodlagos multidimenzionális objektum) egy CN halmazból, valamint ezekre alkalmazhaztó DA-kból áll. Végül a multidimenzionális objektum absztrakt fogalmának egy PMO felel meg, egy alkalmas DA halmaz pedig meghatározza a kapcsolódó beágyazott SMO-kat.
Csillagséma
Ténytáblát és a hozzá kapcsolódó dimenziós táblákat alkalmazó modellezési mód.Dimenziók
Valamilyen jellemző egyedi értékeit tartalmazó tábla
Például termék, ügyfél, idő, nap
Ténytáblák
A dimenziók által jellemzett valamilyen mértékek gyűjteménye
Például :darabszám, tranzakció, mennyiség, egyenleg
Az adattárház-modellezés lépései
Üzleti folyamat kiválasztásaA mérendő tényezők azonosítása
A felbontás meghatározása
A dimenziók azonosítása és tervezése
A mértékek azonosítása és tervezése
A DWH tervezési folyamatra jellemző, hogy a fenti lépések ismétlődnek a teljes tervezési folyamat során akár több hurokban.
Dimenziós busz architektúra
Számos ténytábla osztozik az egységesített dimenziókon, ezzel biztosított az adatpiacok közötti átjárás, a duplikációk elkerülése és erőforrás optimizáció.Mátrix hálóban jelenítjük meg:
• sorokban a Folyamatok-> ténytáblák
• oszlopokban a dimenzió táblák helyezkednek el.
Jelölni szokták még a priorítást is.
A Dimenziós busz fő alkotóelemei:
- Tény-dimenzió mátrix
- Konform dimenziók
- Konform ténytáblák
A közös alap a legrészletesebb, elemi szinten felépített dimenziós táblatörzs
Az összes dimenziós tábla ennek másolata vagy valamilyen részhalmaza
A kulcsértékekre
Attribútum nevekre
Attribútum értékekre
A konform dimenziók teszik lehetővé a keresztbe fúrást
Konform ténytáblák
A több helyen szereplő, azonos jelentésű mértékeknek egységes definícióval kell rendelkezniük
Azonos jelentés
Azonos számítási mód
Azonos címkék
Ha ezek közül valamelyik nem teljesül, akkor nem tekinthetőek konformnak
Dimenzio táblák jellezmzői:
Egy dimenziós tábla alapvetően leíró jellegű szöveges vagy numerikus attribútumokat tartalmazEgy sor általában egy dimenzióértéket ír le, annak összes fontos tulajdonságával együtt.
A dimenziós táblák tartalmazhatnak viszonylag nagy számú sort is (tízmilliós nagyságrend),
de a táblák mérete összeségében általában nem jelentős
A dimenziós tábla mindig nagyságrendekkel kisebb, mint a ténytáblák (1:N kapcsolat)
Dimenzió tábla fő elemei:
Kulcs mezőkMesterséges kulcsok
Alapvetően fontos a mesterséges azonosító mezők használata (surrogate keys)
Függetlenséget biztosít a forrásrendszeri azonosítóktól
Támogatja a változáskezelést
Minden dimenziónak az elsődleges kulcsa ilyen legyen
Általában sima integer mező
Fontos a kis méret
A ténytáblának is lehet, de nem feltétlenül szükséges
Természetes kulcsok
A dimenziós táblában jellemzően attribútumként jelennek meg
A dimenziókarbantartás során használatos
Attribútum (érték megjelenítő, jellemző) mező
A dimenziós tábla nagy részét az attribútumok (jellemzők) teszik ki
Az egyszerű jellemzők közvetlenül érkeznek a forrásrendszerekből
A származtatott jellemzőket az adattárházas betöltés során állítjuk elő
Lookup értékek
Mezőtranszformációk
Stb.
A transzformációk céljai
A felhasználók munkájának megkönnyítése
Az adatokra vonatkozó, sokszor rejtett tudás explicit megfogalmazása
Érhető, korrekt információtartalmú jelentések készítésének támogatása
A transzformációkat mindig valamilyen paraméter vezérelt módon érdemes végezni
Könnyebb áttekinteni
Könnyebb karbantartani
Naplózható
Érvényességkezeléssel ellátható
Egyszerű transzformációk
Egy bemeneti mezőből készítünk egy másik mezőt
Általában valamilyen szótártábla segítségével (lookup)
Jellemző példák
Kód átalakítása üzleti megnevezéssé
Technikai elnevezés átalakítása üzleti megnevezéssé
A dimenziós táblában az eredeti értéket is szerepeltetni kell
Könnyebb áttekinteni
Adatminőségi vizsgálatok és hibakeresés támogatása
A felhasználók elől elrejthető
Komplex transzformációk
Egy mezőből készítünk több mezőt
Több mezőből készítünk egy mezőt
Tipikus használat
Aggregált jellemzők készítése
Az értékek hierarchiába szervezése összesítő mező készítésével
Biztosítja az egységes alkalmazást a felhasználók között
Többmezős transzformációk
Több mező alapján egy új jellemző számítása
Általában valamilyen üzleti szabály leképezése a cél
Ténytáblák
A ténytáblák tartalmazzák az adott üzleti folyamatra vonatkozó adatokat
Ezek általában mérőszámok
Plusz a degenerált dimenziókból származó egyedi azonosítók
A jellemző tulajdonságokat a dimenziós táblákra hivatkozó külső kulcsok mutatják
Itt is szerepelhetnek technikai mezők
A ténytáblák mérete igen nagy is lehet (több száz millió vagy akár milliárd sor),
és nagyon sok helyet foglalnak el
A ténytábla felbontása alapvető fontosságú
A ténytáblában tárolt adatok finomságának jellemzője
A felbontást jellemzően a táblában szereplő dimenziók határozzák meg
Nem szabad egy táblán belül különböző felbontású sorokat tartani
Ugyanazon üzleti folyamatot többféle felbontású táblában is lehet tárolni
Egyedi tranzakciós felbontás
Napi vásárlások felbontás
Általában törekedeni kell a lehető legfinomabb felbontás alkalmazására
Mértékek jellemzői
Additivitás
Teljesen additív, ha minden dimenzió szerint lehet értelmesen összegezni
Eladott darabszám, átutalt összeg
Részben additív, ha nem minden dimenzió mentén lehet értelmesen összegezni
Hóvégi egyenlegek, raktárkészletek
Nem additív, ha egyáltalán nem lehet összegezni,
degenerált dimenziós mezők (általában szöveg)
A ténytáblák kezelési és karbantartási módtól függően többféle típusúak lehetnek
Tranzakciós táblák
Egy sor egy adott üzleti tranzakciót ír le
Egy értékesítés
Egy átutalás
Egy készpénzfelvétel
Egy sor egy időpillanat jelképez
Az egyes rekordok a táblába írásuk után már nem módosulnak
Ez a leggyakrabban használt típus
Idősoros pillanatfelvétel táblák
Egy sor egy adott, előre meghatározott időszak adatait tartalmazza
Egy nap értékesítési forgalma
Adott ügyfél hóvégi egyenlege
Általában az időszak végére vonatkozva készül
Az egyes rekordok a táblába írásuk után már nem módosulnak
Frissített pillanatfelvétel táblák
Egy sor egy folyamat teljes életútját leírja
A sorok beszúrás esetén még frissülnek, akár több alkalommal is
Tipikusan több dátummezőt is tartalmaznak
Alkalmazásával jól kiszolgálhatóak a több tranzakciós ténytábla
összekapcsolását igénylő lekérdezések
Csupasz ténytáblák
Csupasz ténytábla (Factless Fact)
Olyan tábla, ami csak a dimenziós kulcsokat tartalmazza, mértékeket nem
Dimenzióértékek együttes előfordulását írja le
Melyik tárgyat melyik tanár tanítja?
Megjegyzések
Megjegyzés küldése