Az adatbányászat fő feladatai
Feltehetjük, hogy az adatbázis valamilyen objektumok (ügyfelek, betegségek, vásárlók, telekommunikációs események stb.) különböző tulajdonságait írja le. A tulajdonság helyett gyakran használjuk majd az attribútum szót. Az adatbányászat feladata a rejtett összefüggések, kapcsolatok felderítése.Az összefüggések típusa szerint a következő adatbányászati alapproblémákról beszélhetünk:
1. Osztályozás
2. Előrejelzés (forecast). Ez a technika akkor alkalmazható, ha nem (véges számú) osztályba szeretnénk sorolni az adathalmazunkat, hanem egy folytonos értékhalmazból akarunk értékeket rendelni hozzá. Az osztályozás
3. Klaszterezés
4. Anomáliák, rendellenességek feltárása (anomaly detection). Az adatbázisokban előfordulnak olyan adatok, amelyek nem felelnek meg az adatbázis általános jellemzőinek, tulajdonságaik nagymértékben eltérnek az általánostól. Ezeket a legtöbb adatbányászati modell zajnak vagy szélsőséges értékeknek tekinti, és nem foglalkozik velük. Ugyanakkor az élet egyre több területén merül fel az igény, hogy felderítsük az ilyen szélsőséges értékeket. Ilyen módszert alkalmaznak például bankkártyák illetéktelen használatának felderítésekor. További alkalmazási területe a másolás-, koppintáskeresés, továbbá a csalások, visszaélések, vírusok, hackertámadások kiszűrése.
5. Attribútumok közötti kapcsolatok (association). Az attribútumok közötti összefüggéseket keressük, többféle összefüggés létezik: például az asszociációs, korrelációs szabályok, a funkcionális függőségek és hasonlóságok. A kialakított kapcsolatrendszert szükség esetén osztályozásra is lehet használni. Ezek a módszerek az adatbázisban tárolt rekordok közötti összefüggéseket tárják fel. Tipikus asszociációs feladat a bevásárlói kosarak elemzése, vagyis annak a vizsgálata, hogy milyen termékeket vásárolnak gyakran együtt az emberek. Ezen szabályok ismeretében például hatékonyabban tudják az együtt keresett termékeket árusítani, ha például együtt olcsóbban adják.
6. Gyakori minták kinyerése (pattern recognition): adott objektumok egy sorozata. Célunk megtalálni a gyakran előforduló (rész-) objektumokat. Az objektumok lehetnek elemhalmazok vagy sorozatok, esetleg epizódok (részben rendezések), gráfok stb.
7. Sorozatelemzés. A sorozatelemzésbe többféle adatbányászati feladat tartozik. Kereshetünk egymáshoz hasonlító (akár rész-) sorozatokat. Ezen kívül elemezhetjük a sorozat alakulását, és különböző regressziós módszerekkel próbálhatjuk megjósolni a jövőbeli valószínűleg előforduló eseményeket.
Az adatbányászathoz szükséges feltételek
Tagadhatatlan, hogy a sikertelen adatbányászati projektek száma nagy, és az adatbányászat
A további feltételek az alábbiak:
1. Nagy mennyiségű adat. A nagy mennyiségű adat a kinyert szabályok statisztikai megbízhatóságát növeli. Minél nagyobb az adatmennyiség, annál biztosabban tudjuk kizárni bizonyos összefüggések véletlenszerűségét, azaz annál kisebb az esélye, hogy a talált összefüggés csak a véletlen eredménye. Sajnos sok adatot sokáig tart feldolgozni, sőt az algoritmusok egy jelentős része érzékeny arra, hogy az adatbázis elfér-e a memóriában.
2. Sok attribútum. Ha az objektumokat leíró attribútumok száma kicsi, akkor hagyományos eszközökkel (grafikonok, egyszerű táblázatok, kisdimenziós, forgatható, színes ábrák stb.) is fel tudjuk tárni a rejtett információkat. Kevés attribútum esetén a kinyerhető tudás sem lehet túl sokféle. Az adatbányászat
3. Tiszta adat. Az adatok jó minősége az adatbányászat
4. Torzítatlan adat. Az adatbányászat
5. Alkalmazási terület akcióképessége. Gyakran előfordul, hogy a tudást csak kinyerik, de a felhasználása elmarad. Gyakran a felhasználási területek túl merevek, vagy a változtatás túlságosan magas költségekkel járna. A legtöbb adatbányászati esettanulmányban a tudás kinyerésének módjáról esik szó, a tudás felhasználásáról pedig ritkán hallunk.
6. A befektetés megtérülésének (Return Of Investment) mérhetősége. Egy adatbányászati projektről akkor állíthatjuk biztosan, hogy sikeres, ha a befektetés hatását mérni vagy viszonylag pontosan becsülni tudjuk.
Adatbányászati rendszerek tulajdonságai
Az előzőekben felsoroltunk néhány adatbányászati szoftvert. A felsoroltakon kívül léteznek még további szoftverek, amelyek bizonyos tekintetben akár jobbak is lehetnek a fentieknél. Ekkora választékban hogyan tudjuk megtalálni a nekünk megfelelő szoftvert, mik azok a tulajdonságok, amelyeket mindenképpen meg kell vizsgálunk egy ilyen beruházás előtt?
Adatbányászati funkciók. Egy cég azért vásárol adatbányászati szoftvert, mert összefüggést akar kinyerni az adataiból. Már a szoftvervásárlás előtt hasznos, ha pontos elképzelése van arról, hogy milyen típusú összefüggéseket fognak keresni (asszociációs szabályok, epizódok, klaszterek stb.). A legfontosabb, hogy a szoftver funkciói között megtalálható legyen az ilyen típusú összefüggések kinyerésének lehetősége.
Nem biztos, hogy a nekünk megfelelő szoftver lesz a legtöbb adatbányászati feladat megoldását támogató. Egyre több szoftver jelenik meg, amely egy adott feladatra szakosodik (pl. weblog-elemző szoftver), ugyanakkor az átfogó képességgel rendelkezők mellett szól, hogy a jövőre is célszerű gondolni: milyen típusú összefüggéseket keresünk esetleg később?
Adattípus. A legtöbb szoftver a relációs adatbázisokban található adatokat tudja feldolgozni, de ezen kívül a sima szöveg fáljt, a munkalapokat, az ismertebb formátumú fájlokat is kezelik. Fontos tehát ellenőrizni, hogy pontosan milyen formátumú adatokon dolgozik. Ma már léteznek szoftverek, amelyek speciális adatformátumokat is kezelni tudnak, mint például földrajzi, multimédiás, DNS-adatbázisok, weblogok.
Adatforrás. Vannak adatbányász szoftverek, amelyeket fel kell tölteni az adatokkal, mielőtt dolgozni lehet velük. Hasznosabb azonban, ha a szoftver a más adatbázisokban található adatokat is kezelni tudja. Fontos, hogy a rendszer támogassa az ODBC-kapcsolatot vagy az OLE DB for ODBC-t. Ez lehetővé teszi a hozzáférést sok más relációs adatbázishoz (DB2, Informix, Microsoft SQL Server, Microsoft Access, Excel, Oracle stb.).
Adatméret, skálázhatóság. Tudnunk kell, hogy a szoftver mekkora adatbázissal képes megbirkózni; továbbá hogy az adatbázis növelésével hogyan romlik a futási idő. Skálázhatóság szempontjából megkülönböztetünk sor szerint skálázható és oszlop szerint skálázható szoftvereket. Az első azt jelenti, hogy ha megduplázom a sorok számát, akkor nem nő duplájára a futási idő-/memóriaigény. Az oszlop szerint skálázhatóság esetén a futási idő-/memóriaigény az oszlopok számával lineárisnál nem rosszabb. Ez utóbbi feltétel teljesüléséhez kifinomultabb algoritmusokra van szükség.
Megjelenítési eszközök. A vizualizáció egy külön szakma. Az adatbányászati algoritmusok eredményeinek áttekinthető, szemléletes megjelenítése sokat segít az értelmezésben. A 3D ábrák, grafikonok, táblázatok nagyon hasznosak, és sokat segítenek az adatbányászat
Megjegyzések
Megjegyzés küldése