Ugrás a fő tartalomra

DWH és DM alapok BI fogalmak






Üzleti intelligencia => Business Intelligence (BI) alapfogalmai


Üzleti intelligencia BI technológiák célja

Az üzleti döntéshozást megkönnyítendő adathalmazok feltárása, feldolgozása, ere épülő kimutatások, statisztikák, elemzések létrehozása és felhasználása a szervezet összes szintjén úgy, hogy az a üzleti döntéshozás támogatás valós időben komplex rendszerként  valósuljon meg. A cégek az adathalmazai természetesen a normál ügymenetből származó adatokkal töltődnek fel, mivel azonban a felhasználás új célja esetenként eltér, ezért megengedhetők különböző célirányos módosítások az adatkörben mind logikailag, mind fizikailag az eredeti adatstruktúrákhoz képest.
A BI rendszereknek egy nagyon lényeges architektúrája az adattárház felépítés és ebből az információ éhség legkomplexebb kiszolgálása. A legegyszerűbb, legkoraibb megvalósítás esetén  Database Bridge segítségével közvetlenül az adatokat tartalmazó rendszeren futtatjuk az elemzéseket, mely nagyobb lekérdezések esetén jelentősen visszavehet az eredeti rendszer teljesítményéből. A hatékony és alapadatoktól független rendszerek kialakítása nagyon hamar utat tör magának az adatárház felé (Data warehouse : DWH) .

Rendszertechnikai felosztás:

OLTP: On Line Transaction Processig, azaz online tranzakciófeldolgozás. Az adatoknak egy alapvetően tranzakció orientált tárolási formája, melyekbe a vállalati adatfolyam részeként először kerülnek az adatok. Alapvető cél, hogy az adatokat rekordonként gyorsan, biztonságosan, hatékonyan tudjuk felvinni, beírni az adatbázisba.

OLAP: On Line Analitical Processing, az online analitikai feldolgozás. Elemzési szempontokat szem előtt tartó tárolási forma, melyből az OLTP rendszerhez képest kevesebb energiával lehet az adatokat tömbösített formában kinyerni, a nevéből is adódóan alapvetően elemzési céllal.



Egyik nézőpont szerint az OLTP rendszerekre adatok tárolásának célja („putting data in”) jellemző, ezzel szemben az OLAP rendszerek fő célja az adatkinyerés („getting data out”).


Adatmodell szempontjából megkülönböztetünk Multidimenzionális (MOLAP), Relációs (ROLAP) és Hibrid (HOLAP) megoldású OLAP kockákat.
Az adattárház tervezése során nagyon összetett folyamattal áll elő az adatárház modellje, strukturálja.
Az adattárház modell megtervezése után a következő lényeges lépés az ETL folyamat tervezése és implementálása. A heterogén adatforrások és az adattárház közötti adatáttöltő lépéseket hívjuk ETL folyamatnak (Extract,Transform és végül Load).
  • EXTRACTION : Adatok (elkülönülő, heterogén, …) forrás rendszerekből történő kinyerése
  • TRANSFORMATION : forrásadatok tisztítása, javítása, inkonzisztencia megszüntetése, átalakítása, közös szótár szerint konvertálása, hiba lista képzés, …
  • LOAD : Végleges struktúrába (dimenzió, szótár és ténytáblák) töltése, kulcsok, indexek készítése, particionálás, …
A DWH dattöltések megoldásai közt két alapvető csoportot különböztethetünk meg:
"Push" adattöltés: Az operatív rendszerünket felkészítjük arra, hogy az adattárház számára adatokat gyűjtsön, adatokat továbbítson. Ebben az esetben lentről-felfelé az operatív rendszer kezdeményezi az adatok továbbítását az adattárházba.
"Pull" adattöltés: Az adattárház a megfelelően beállított időintervallumban az operatív rendszerekhez intézett lekérdezésekkel frissíti az adatait.

A primary attribute (PA , elsődleges jellemzők), aminek elemei a dimenzióelemek (jellemző-értékek). Ezekre felépíthető tetszőleges osztályozó hierarchia, aminek szintjeit ún. classification attribute-nak (CA , osztályozó jellemzők) hívjuk,  elemei pedig classification nodes (CN, osztályozó csomópontok) néven futnak. Az ún. dimension attributes (DA, dimenzió-jellemzők) a CN-ekhez vannak hozzárendelve. Az ún. primary multidimensional object-ek (PMO, elsődleges multidimenzionális objektumok) a következő elemekből állnak: dimenziónként egy-egy CA-PA pár halmazt, amely tulajdonképp a kockák felbontását határozza meg; minden CA-PA párhoz egy elemhalmazt, amely a szűrési feltételekért felel; egy összegzési típust, amely meghatározza az alkalmazandó összegzési műveletet (pl. összeadás v. átlag); valamint egy adattípus definíciót. 

A secondary multidimensional object (SMO, másodlagos multidimenzionális objektum) egy CN halmazból, valamint ezekre alkalmazhaztó DA-kból áll. Végül a multidimenzionális objektum absztrakt fogalmának egy PMO felel meg, egy alkalmas DA halmaz pedig meghatározza a kapcsolódó beágyazott SMO-kat.  


Csillagséma

 Ténytáblát és a hozzá kapcsolódó dimenziós táblákat alkalmazó modellezési mód.



 Dimenziók
 Valamilyen jellemző egyedi értékeit tartalmazó tábla
 Például termék, ügyfél, idő, nap 



 Ténytáblák
 A dimenziók által jellemzett valamilyen mértékek gyűjteménye

 Például :darabszám, tranzakció, mennyiség, egyenleg

Az adattárház-modellezés lépései

  Üzleti folyamat kiválasztása
  A mérendő tényezők azonosítása
  A felbontás meghatározása
  A dimenziók azonosítása és tervezése
  A mértékek azonosítása és tervezése
A DWH tervezési folyamatra jellemző, hogy a fenti lépések ismétlődnek a teljes tervezési folyamat során akár több hurokban.

Dimenziós busz architektúra

 Számos ténytábla osztozik az egységesített dimenziókon,  ezzel biztosított az adatpiacok közötti átjárás,  a duplikációk elkerülése és erőforrás optimizáció.


Mátrix hálóban jelenítjük meg:
•  sorokban a Folyamatok-> ténytáblák 
•  oszlopokban a dimenzió táblák  helyezkednek el.
Jelölni szokták még a priorítást is.


A Dimenziós busz fő alkotóelemei:

  •  Tény-dimenzió mátrix
  •  Konform dimenziók
  •  Konform ténytáblák


  A közös alap a legrészletesebb, elemi szinten felépített dimenziós táblatörzs
  Az összes dimenziós tábla ennek másolata vagy valamilyen részhalmaza

  Így garantálható az egyezőség
                 A kulcsértékekre
                 Attribútum nevekre
                 Attribútum értékekre


  A konform dimenziók teszik lehetővé a keresztbe fúrást
    Konform ténytáblák
       A több helyen szereplő, azonos jelentésű mértékeknek egységes definícióval kell rendelkezniük
                     Azonos jelentés
                     Azonos számítási mód
                     Azonos címkék
   Ha ezek közül valamelyik nem teljesül, akkor nem tekinthetőek konformnak



 Dimenzio táblák jellezmzői:

  Egy dimenziós tábla alapvetően leíró jellegű szöveges vagy numerikus  attribútumokat tartalmaz
  Egy sor általában egy dimenzióértéket ír le, annak összes fontos tulajdonságával együtt.

  A dimenziós táblák tartalmazhatnak viszonylag nagy számú sort is (tízmilliós nagyságrend),
    de a táblák mérete összeségében általában nem jelentős
  A dimenziós tábla mindig nagyságrendekkel kisebb, mint a ténytáblák (1:N kapcsolat)


 Dimenzió tábla fő elemei:

   Kulcs mezők
     Mesterséges kulcsok
                   Alapvetően fontos a mesterséges azonosító mezők használata (surrogate keys)
                     Függetlenséget biztosít a forrásrendszeri azonosítóktól
                     Támogatja a változáskezelést
                   Minden dimenziónak az elsődleges kulcsa ilyen legyen
                     Általában sima integer mező
                     Fontos a kis méret
                   A ténytáblának is lehet, de nem feltétlenül szükséges


   Természetes kulcsok

             A dimenziós táblában jellemzően attribútumként jelennek meg
             A dimenziókarbantartás során használatos

   Attribútum (érték megjelenítő, jellemző) mező  

        A dimenziós tábla nagy részét az attribútumok (jellemzők) teszik ki
        Az egyszerű jellemzők közvetlenül érkeznek a forrásrendszerekből

              A származtatott jellemzőket az adattárházas betöltés során állítjuk elő
                   Lookup értékek
                   Mezőtranszformációk
                   Stb.

               A transzformációk céljai
                      A felhasználók munkájának megkönnyítése
                      Az adatokra vonatkozó, sokszor rejtett tudás explicit megfogalmazása
                      Érhető, korrekt információtartalmú jelentések készítésének  támogatása


              A transzformációkat mindig valamilyen paraméter vezérelt módon érdemes végezni
                               Könnyebb áttekinteni
                                Könnyebb karbantartani
                                Naplózható
                                Érvényességkezeléssel ellátható


                          Egyszerű transzformációk
                                   Egy bemeneti mezőből készítünk egy másik mezőt
                                   Általában valamilyen szótártábla segítségével (lookup)


                           Jellemző példák
                                   Kód átalakítása üzleti megnevezéssé 
                                   Technikai elnevezés átalakítása üzleti megnevezéssé


                           A dimenziós táblában az eredeti értéket is szerepeltetni kell
                                  Könnyebb áttekinteni
                                  Adatminőségi vizsgálatok és hibakeresés támogatása
                                  A felhasználók elől elrejthető


                            Komplex transzformációk
                                  Egy mezőből készítünk több mezőt
                                  Több mezőből készítünk egy mezőt



                               Tipikus használat
                                    Aggregált jellemzők készítése
                                    Az értékek hierarchiába szervezése összesítő mező készítésével
                                    Biztosítja az egységes alkalmazást a felhasználók között


                                Többmezős transzformációk
                                     Több mező alapján egy új jellemző számítása
                                     Általában valamilyen üzleti szabály leképezése a cél
 

  Ténytáblák

          A ténytáblák tartalmazzák az adott üzleti folyamatra vonatkozó adatokat
          Ezek általában mérőszámok
          Plusz a degenerált dimenziókból származó egyedi azonosítók
         A jellemző tulajdonságokat a dimenziós táblákra hivatkozó külső kulcsok mutatják
                Itt is szerepelhetnek technikai mezők
                A ténytáblák mérete igen nagy is lehet (több száz millió vagy akár milliárd sor),
                  és nagyon sok helyet foglalnak el



                A ténytábla felbontása alapvető fontosságú
                     A ténytáblában tárolt adatok finomságának jellemzője 
                     A felbontást jellemzően a táblában szereplő dimenziók határozzák meg
                     Nem szabad egy táblán belül különböző felbontású sorokat tartani



              Ugyanazon üzleti folyamatot többféle felbontású táblában is lehet tárolni
                     Egyedi tranzakciós felbontás
                     Napi vásárlások felbontás
        Általában törekedeni kell a lehető legfinomabb felbontás alkalmazására                           

      Mértékek jellemzői

        Additivitás
              Teljesen additív, ha minden dimenzió szerint lehet értelmesen összegezni
                   Eladott darabszám, átutalt összeg
              Részben additív, ha nem minden dimenzió mentén lehet értelmesen összegezni
                    Hóvégi egyenlegek, raktárkészletek
              Nem additív, ha egyáltalán nem lehet összegezni,
                     degenerált dimenziós mezők (általában szöveg)


   A ténytáblák kezelési és karbantartási módtól függően többféle típusúak lehetnek

                Tranzakciós táblák
                       Egy sor egy adott üzleti tranzakciót ír le
                       Egy értékesítés
                       Egy átutalás
                       Egy készpénzfelvétel
                       Egy sor egy időpillanat jelképez
                       Az egyes rekordok a táblába írásuk után már nem módosulnak
                        Ez a leggyakrabban használt típus


                  Idősoros pillanatfelvétel táblák                                
                         Egy sor egy adott, előre meghatározott időszak adatait tartalmazza
                         Egy nap értékesítési forgalma
                         Adott ügyfél hóvégi egyenlege
                         Általában az időszak végére vonatkozva készül
                         Az egyes rekordok a táblába írásuk után már nem módosulnak


                  Frissített pillanatfelvétel táblák
                          Egy sor egy folyamat teljes életútját leírja
                          A sorok beszúrás esetén még frissülnek, akár több alkalommal is
                          Tipikusan több dátummezőt is tartalmaznak
                          Alkalmazásával jól kiszolgálhatóak a több tranzakciós ténytábla
                          összekapcsolását igénylő lekérdezések


                  Csupasz ténytáblák
                           Csupasz ténytábla (Factless Fact)
                           Olyan tábla, ami csak a dimenziós kulcsokat tartalmazza, mértékeket nem
                           Dimenzióértékek együttes előfordulását írja le
                           Melyik tárgyat melyik tanár tanítja?








Megjegyzések