Ugrás a fő tartalomra

DWH építés alapok, fogalmak 2








- Adatbázis: együtt tárolt, egymással összefüggő adatok rendszere.


- Adatbázis struktúrája : az adatok meghatározott szerkezet szerint kerülnek tárolásra, és ezt a szerkezetett nevezzük így.


- Séma : Az adatbázis struktúra (szerkezet modell) leírását szintén az adatbázisban tárolják, ezt az adatbázis sémájának nevezzük


- Metaadatok : a séma leírására szolgáló adatokat szokás így hívni.


- Adatmodellezés: olyan eljárás, melynek során a valós világ tényeit és összefüggéseit tükröző adatok lényeges sajátosságait
és lényeges összefüggéseit emeljük ki. Eredménye az adatmodell.


- Egyedek: azokat a dolgokat, amelyek adatait le szeretnénk írni, egyedeknek, vagy objektumoknak nevezzük. Ezzeket tulajdonságokkal, attribútumokkal írjuk le.


- Kulcsok : egy tulajdonság, vagy a tulajdonságok egy csoportja egyértelműen meghatározza, hogy az egyed melyik értékéről,
vagyis az egyedhalmaz melyik eleméről van szó, akkor ezeket a tulajdonságokat kulcsnak, vagy azonosítónak nevezzük.


Ha a kulcs egyetlen tulajdonság, akkor egyszerű kulcsnak nevezzük, amennyiben több tulajdonság alkotja a kulcsot, akkor összetett kulcsról beszélünk.

Szelektivitás (Selectivity): A szelektivitás mindig szűrőfeltétel(ek)hez kötődik, és azt mutatja meg,
hogy sorok egy halmazából hány felel meg a feltételnek.

Számosság (Cardinality): A számosság alatt a halmazban található elemek számát értjük. Beszélhetünk
tábla számosságáról (ez a sorok számát jelenti), vagy oszlopok számosságáról, (ekkor az
oszlopban előforduló különböző elemek számára gondolunk).


Az adatmodell elkészítése során meg kell adnunk az adatokra vonatkozó megszorításokat is, ezek szintén a séma részei lesznek.


A legfontosabb megszorítástípusok:
- Kulcsok: a megszorítások között szokás megadni az egyedhalmazok kulcsát.

- Egyértékűségi megszorítások: megköveteljük, hogy egy egyedhalmazon belül
egy adott tulajdonság értéke minden egyednél különböző legyen. Ennek
speciális esetei a kulcsok, de nem azonosító tulajdonságnál is előfordulhat
ilyen megszorítás, például egy hallgató egyedhalmaz kulcsa a hallgatókód, de
a személyigazolvány-számnak is minden egyednél egyedinek kell lennie.

- Hivatkozásépség-megszorítások (referenciális integritás): megköveteljük,
hogy egy hivatkozott érték szerepeljen az adatbázisban. Például egy hallgató
nem vehet fel olyan tantárgyat, amely nem szerepel a tantárgyak
egyedhalmazában.

- Értékkészlet-megszorítások: egy tulajdonság értékeit csak egy meghatározott
halmazból veheti fel, például az érdemjegy csak 1, 2, 3, 4, 5 lehet.

- Általános megszorítások: tetszőleges követelmények, amelyeket az adatokkal
szemben támasztunk. Például, egy dátum nem lehet későbbi az aktuális
dátumnál.



- A relációs adatmodell az adatok táblázatos ábrázolásán alapul.
Ebben az adatmodellben a reláció egy névvel ellátott táblázat.
Egy táblázat sorai egy egyedhalmaz egyedeinek leírását tartalmazzák.


-- adattárház és adatpiac különbség
- Az adattárház : elemzési és lekérdezési céllal (OLAP [online analitical processing] funkciokkal) létrehozott speciális adatbázis.
Az adattárház nem más, mint adatpiacok összessége. (adat gyűjtő, tisztító, egyesítő, ripotoló elemző rendszer)

- Az adatpiac : egy kisebb adattárház, és általában csak egy-egy témával kapcsolatos adatokat tartalmaz,
pl. egy cég egyik osztályának működése során előállt adatokat.


--  A multidimenzionális modell szemantikai rétegének alapfogalmai a következők:

Tényadatok (~mutatószámok): azok a mérhető, numerikus adatok, amelyeket elemezni és ehhez tárolni szeretnénk.
Ilyenek például az árbevétel, súly, eladott darabszám, nyereség, raktárkészlet stb.

Dimenzió (~jellemző): azok a tulajdonságok, amelyek szerint a tényadatokat csoportosítani, jellemezni tudjuk.
A dimenziók egymástól független (bár nem feltétlenül teljesen független, ortogonális) jellemzői egy-egy tényadatnak.
Dimenzió lehet például idő, hely, termék, alapanyag, szállító neve, raktár, költségnem, költséghely stb.

Tag: a dimenzió egy érték-előfordulása, azaz egy koordináta érték a dimenzió él mentén.

Hierarchia: a dimenziók elemei hierarchiákba rendezhetők, adott dimenzió esetén az egyes tagok közötti hierarchikus kapcsolatrendszert írja le.
Ilyen hierarchikus szerkezet lehet például idő dimenzió esetén egy év – hónap – nap felbontás vagy egy irodai szoba esetén
egy épületegyüttes – épület – emelet – szoba felbontás. A dimenziók számára csak a kiválasztott adattárház-rendszer ad megszorítást.

Felbontás: az a legkisebb adategység, amely egységekben az adatot még elérhetővé szeretnénk tenni,
tehát amikor az adat jellemzéséhez minden dimenziót felhasználunk.
Adatkockánként több típusú tényadat is szerepelhet egymás mellett, ekkor azonban mindegyikük granularitása (felbontása) meg kell egyezzen.


-- legelterjedtebb műveletek a következők:
Aggregáció (roll up): csoportosításokat végzünk valamely dimenzió mentén (például városok helyett országok szerint nézzük adatainkat).
Lefúrás (drill-down) : az előzővel ellentétes művelet, amely csökkenti a csoportosítás szintjét, és egyre részletezettebben nézhetjük az adatokat.
Elforgatás (pivoting): az adatkocka elforgatását értjük alatta, az adatok multidimenzionális képét alakítja át például kétdimenziós táblázatba.
Szelekció (selection, filtering): egy adott dimenzió egy adott elemét kiválasztjuk, és a hozzá tartozó adatokat dolgozzuk fel,
 míg a többi adatot figyelmen kívül hagyjuk.
Szeletelés (slicing and dicing): a kocka szeletekre bontása. A szelekcióhoz hasonlóan azt értjük alatta, amikor egy adott dimenziót fix értékkel lekötünk,
és ily módon vizsgáljuk a kocka egy nézetét, egy szeletét. Dicing alatt a kocka egy részkockájának kivágását értjük.


-- b-fa index és bit map index :

B+ fa (Bayer fa): gyakorlatban ezt használják (pl. Oracle)
— az adatokra mutató pointerek mind a leveleken vannak
— gyors keresés, lognN lépés
— Könnyű karbantartás



Bitmap index
A bittérképes index haszna igazán olyan oszlopoknál mutatkozik meg amelyekben kevés a különböző érték,
viszont ezekből sok fordul elő, és az értékek egyenletes eloszlást mutatnak.
(pl.: CREATE BITMAP INDEX dwh.bidx ON dwh.tabla(color);

Megjegyzések