Az adatbányászat a tudás kinyerése az összegyűlt nagyon nagy tömegű adatokból. Érdekes/értékes információ minták kinyerése nagyon nagy adathalmazokból lehetőleg automatikusan és minél hatékonyabban.
Tehát olyan tudást keresünk amely nem triviális, implicit, eddig nem ismert és potenciálisan hasznos illetve hasznosítható.
Adatbányászat más elnevezései:
- tudásfeltárás az adatbázisokban (Knowledge discovery in databases)
- tudáskinyerés (knowledge extraction),
- adatelemzés, mintaelemzés (data/pattern analysis),
- információ-betakarítás (information harvesting)
- üzleti intelligencia (business intelligence).
Adatelemzési típusok:
- jellemzés (karakterizáció),
- megkülönböztetés (diszkrimináció),
- kapcsolódás (asszociáció),
- osztályozás (klasszifikáció),
- csoportosítás (klaszterezés),
- trendreilleszkedés/trendtől eltérés,
- kiugró(outlier) esetek elemzése.
Az 5 lépcsős adatbányászati folyamat:
- Mintavétel: az adatok előkészítése az adattárházból.
- Feltárás: új összefüggések, mintázatok keresése.
- Módosítás: attributumok, rekordok, mezők módosítása, kitöltése.
- Modellezés: analítikus modellek illesztése.
- Kiértékelés: a modell(ek) jóságának, hasznosságának mérése.
Az adat értelmezése:
- Objektumok attributumainak numerikusan jellemzett összessége.
- Attributum: egy objektum tulajdonsága, jellemzője.
- Attributumok értékeinek egy összessége ír le egy objektumot.
Az objektumot nevezzük esetnek, rekordnak, pontnak, mintaelemnek, egyednek, entitásnak.
Adattárház logikai modell elemei
- Adattovábbító réteg: ebbe a rétegbe kerülnek be elsőként az adatforrásokból áthozott adatok. Itt történik az adatok egységes formátumra történő átalakítása, s az adatok tartalmi integritásának vizsgálata is, amit adattisztítási folyamatoknak is szokás nevezni. Ezen előkészítő területet nevezik Data Staging Area-nak
- Adattárolási réteg: ezen réteg gondoskodik a behozott, tisztított adatok lehelyezéséről, tárolásáról. Az itt megvalósítandó feladatok közé tartozik többek között a bejött adatelem beillesztése a meglévő struktúrába, vagy a meglévő optimalizálási elemek aktualizálása.
- Adatszótár réteg: az adatszótár a rendszerhez tartozó metaadatok tárolására szolgál. A metaadatok a normál, felhasználói adatokra vonatkozó adatokat foglalják magukba. Ide tartoznak többek között a struktúrát vagy a védelmet leíró információk is.
- Ütemező réteg: az adattárház belső karbantartási, adat betöltési folyamatainak automatizálására az DW rendszer rendelkezik egy aktív adatbázis funkciókat megvalósító modullal is. Az ütemező a beállított paraméterek alapján a háttérben dolgozva hajtja végre a feladatokat.
- Adathozzáférési modul: Az adattárházban tárolt adatok hatékony és egyszerű elérésére a DW rendszer rendelkezik egy adathozzáférési modullal is. Ebben a rétegben foglal helye a felhasználói parancsnyelv implementálása is. Az alkalmazások, kliensek ezen modulon keresztül férhetnek hozzá az adattárházban tárolt adatokhoz.
- Információ megjelenítési réteg: ez a réteg azon segédprogramokat öleli fel, melyek a felhasználó részére készültek és céljuk az adattárházban tárolt adatok könnyen értelmezhető, grafikus vagy táblázatos formában való megjelenítése. Ezen modul lehetővé teszi, hogy az alkalmazónak ne kelljen ismernie a DW rendszer konkrét parancsnyelvét, hanem a rendelkezésre álló segédeszközöket használhatja, melyek kezelése nem igényel számítástechnikai előképzettséget.
Adattárház folyamatok:
- bementi adatfolyam ( inflow): ez az adatoknak a külső OLTP adatforrásokból történő átemeléséhez kapcsolódó adatmozgatást jelent
- belső adatfolyam (upflow): ez az adattárházon belül lejátszódó adatmozgatásokat jelenti, amikor is a beérkező adatokat a rendszer feldolgozza, átalakítja, hogy a későbbiekben hatékonyabban ki tudja majd szolgálni a beérkező lekérdezési műveleteket
- kimenő adatfolyam (outflow): ebben a fázisban az adattárházból az alkalmazások, a kliensek felé halad az adat. Ez az adathalmaz a klienstől érkező lekérdezési parancsra küldött választ foglalja magába.
- selejtezési adatfolyam ( downflow): mivel az adattárházba bevitt adatok bizonyos része az idő múlásával elvesztik fontosságukat, ezért ezen adatelemek nem célszerű továbbra is benn tartani az adatbázisban, vagyis szükség lesz a bevitt adatok kiemelésére is. Így a kiemeléshez, leselejtezéshez is kapcsolódik egy külön adatfolyam.
- vezérlő adatfolyam (metaflow): az adattárházban tárolt adatelemek leíró, kísérő információi is mozognak az egyes DW komponensek között, hiszen például egy elemzési segédprogramnak is tudnia kell az adatszerkezetre vonatkozó információkat, hogy könnyebbé tegye a felhasználó dolgát az adatrendszerben való navigáláskor. Ezen leíró adatok, metaadatok mozgása alkotja a vezérlő adatfolyamot.
Metaadatok
A forrás adatokhoz kapcsolódó metaadatok:
• Forrás séma• Nyomtatási lehetőségek források
• Források tárolási formátum leírása
• URL cím
• Tulajdonosi viszonyok
• Adattartalom leírás
• Források UPDATE gyakorisága
• Hozzáférés korlátok
• Frissítési ütemezés
• Hozzáférési jogok
• Átemelési rutinok elérése
• Átemelési rutinok beállításai
A köztes tárterületen elvégzendő feladatokhoz kapcsolódó metaadatok listája:
• Köztes állományok specifikációja• DW dimenziók és változók specifikációja
• Konverziós rutinok specifikációja
• Konverziós rutinok ütemezése
• Változó dimenziók kezelésének paraméterei
• Kulcs generálás paraméterei
• Adat tisztítási paraméterek
• Adatelem leképzési szabályok
• Adat transzformációs szabályok
• Aggregációk definíciója
• Aggregációs, betöltési naplók
• Adat feldolgozási naplók
• Védelmi adatok
A DW rendszeren belüli, az adattároláshoz kapcsolódó metaadatok:
• DBMS rendszer táblák• DBMS partíciók
• Indexek
• Fizikai tárolási paraméterek
• DBMS védelmi
• View definíciók
• Tárolt eljárások
Megjegyzések
Megjegyzés küldése