Ugrás a fő tartalomra

Adatbányászat alapjai




Az adatbányászat a tudás kinyerése az összegyűlt nagyon nagy tömegű adatokból. Érdekes/értékes információ minták kinyerése nagyon nagy adathalmazokból lehetőleg automatikusan és minél hatékonyabban.
Tehát olyan tudást keresünk amely nem triviális, implicit, eddig nem ismert és potenciálisan hasznos illetve hasznosítható.

Adatbányászat más elnevezései:

  • tudásfeltárás az adatbázisokban (Knowledge discovery in databases)
  • tudáskinyerés (knowledge extraction),
  • adatelemzés, mintaelemzés (data/pattern analysis),
  • információ-betakarítás (information harvesting)
  • üzleti intelligencia (business intelligence).


Adatelemzési típusok:

  • jellemzés (karakterizáció),
  • megkülönböztetés (diszkrimináció),
  • kapcsolódás (asszociáció),
  • osztályozás (klasszifikáció),
  • csoportosítás (klaszterezés),
  • trendreilleszkedés/trendtől eltérés,
  • kiugró(outlier) esetek elemzése.


Az 5 lépcsős adatbányászati folyamat:

  • Mintavétel: az adatok előkészítése az adattárházból.
  • Feltárás: új összefüggések, mintázatok keresése.
  • Módosítás: attributumok, rekordok, mezők módosítása, kitöltése.
  • Modellezés: analítikus modellek illesztése.
  • Kiértékelés: a modell(ek) jóságának, hasznosságának mérése.


Az adat értelmezése:

  •   Objektumok attributumainak numerikusan jellemzett összessége.
  •    Attributum: egy objektum tulajdonsága, jellemzője.
  •    Attributumok értékeinek egy összessége ír le egy objektumot.
Az objektumot nevezzük esetnek, rekordnak, pontnak,  mintaelemnek, egyednek, entitásnak.


Adattárház logikai modell elemei


- Adatforrás réteg: ez a réteg fedi le az egyes OLTP adatforrásokat, nem feledve, hogy az egyes adatforrások eltérő struktúrájúak, inhomogének lehetnek.

- Adattovábbító réteg: ebbe a rétegbe kerülnek be elsőként az adatforrásokból áthozott adatok. Itt történik az adatok egységes formátumra történő átalakítása, s az adatok tartalmi integritásának vizsgálata is, amit adattisztítási folyamatoknak is szokás nevezni.  Ezen előkészítő területet nevezik Data Staging Area-nak

- Adattárolási réteg: ezen réteg gondoskodik a behozott, tisztított adatok lehelyezéséről, tárolásáról. Az itt megvalósítandó feladatok közé tartozik többek között a bejött adatelem beillesztése a meglévő struktúrába, vagy a meglévő optimalizálási elemek aktualizálása. 

- Adatszótár réteg: az adatszótár a rendszerhez tartozó metaadatok tárolására szolgál. A metaadatok a normál, felhasználói adatokra vonatkozó adatokat foglalják magukba. Ide tartoznak többek között a struktúrát vagy a védelmet leíró információk is.

- Ütemező réteg: az adattárház belső karbantartási, adat betöltési folyamatainak automatizálására az DW rendszer rendelkezik egy aktív adatbázis funkciókat megvalósító modullal is. Az ütemező a beállított paraméterek alapján a háttérben dolgozva hajtja végre a  feladatokat.

- Adathozzáférési modul: Az adattárházban tárolt adatok hatékony és egyszerű elérésére a DW rendszer rendelkezik egy adathozzáférési modullal is. Ebben a rétegben foglal helye a felhasználói parancsnyelv implementálása is. Az alkalmazások, kliensek ezen modulon keresztül férhetnek hozzá az adattárházban tárolt adatokhoz. 


- Információ megjelenítési réteg: ez a réteg azon segédprogramokat öleli fel, melyek a felhasználó részére készültek és céljuk az adattárházban tárolt adatok könnyen értelmezhető, grafikus vagy táblázatos formában való  megjelenítése. Ezen modul lehetővé teszi, hogy az alkalmazónak ne kelljen ismernie a DW rendszer konkrét parancsnyelvét, hanem a rendelkezésre álló segédeszközöket használhatja, melyek kezelése nem igényel számítástechnikai előképzettséget. 


Adattárház folyamatok:


- bementi adatfolyam ( inflow): ez az adatoknak a külső OLTP adatforrásokból történő átemeléséhez kapcsolódó adatmozgatást jelent

- belső adatfolyam (upflow): ez az adattárházon belül lejátszódó adatmozgatásokat jelenti, amikor is a beérkező adatokat a rendszer feldolgozza, átalakítja, hogy a későbbiekben hatékonyabban ki tudja majd szolgálni a beérkező lekérdezési műveleteket

- kimenő adatfolyam (outflow): ebben a fázisban az adattárházból az alkalmazások, a kliensek felé halad az adat. Ez az adathalmaz a klienstől érkező lekérdezési parancsra küldött választ foglalja magába.

- selejtezési adatfolyam ( downflow): mivel az adattárházba bevitt adatok bizonyos része az idő múlásával elvesztik fontosságukat, ezért ezen adatelemek nem célszerű továbbra is benn tartani az adatbázisban, vagyis szükség lesz a bevitt adatok kiemelésére is. Így a kiemeléshez, leselejtezéshez is kapcsolódik egy külön adatfolyam.  
- vezérlő adatfolyam (metaflow):  az adattárházban tárolt adatelemek leíró, kísérő információi is mozognak az egyes DW komponensek között, hiszen például egy elemzési segédprogramnak is tudnia kell az adatszerkezetre vonatkozó információkat, hogy könnyebbé tegye a felhasználó dolgát az adatrendszerben való navigáláskor.   Ezen leíró adatok, metaadatok mozgása alkotja a vezérlő adatfolyamot. 



Metaadatok

A forrás adatokhoz kapcsolódó metaadatok:

Forrás séma
Nyomtatási lehetőségek források 
Források tárolási formátum leírása 
URL cím 
Tulajdonosi viszonyok 
Adattartalom leírás 
Források UPDATE gyakorisága 
Hozzáférés korlátok  
Frissítési ütemezés
Hozzáférési jogok
Átemelési rutinok elérése
Átemelési rutinok beállításai

A köztes tárterületen elvégzendő feladatokhoz kapcsolódó metaadatok listája:

Köztes állományok specifikációja
DW dimenziók és változók specifikációja
Konverziós rutinok specifikációja
Konverziós rutinok ütemezése
Változó dimenziók kezelésének paraméterei
Kulcs generálás paraméterei
Adat tisztítási paraméterek 
Adatelem leképzési szabályok
Adat transzformációs szabályok
Aggregációk definíciója 
Aggregációs, betöltési naplók
Adat feldolgozási naplók
Védelmi adatok

A DW rendszeren belüli, az adattároláshoz kapcsolódó metaadatok:

DBMS rendszer táblák
DBMS partíciók
Indexek
Fizikai tárolási paraméterek
DBMS védelmi 
View definíciók
Tárolt eljárások

Megjegyzések