Ugrás a fő tartalomra

KNIME alapok 1

A KNIME (The Konstanz Information Miner)

Olyan grafikus, jávás eszköz, amellyel teljes analízist végezhetünk: adat transzformáció, prediktív analitika, vizualizáció és jelentés készítés. Moduláris felépítésű és tartalmaz olyan funkciókat, mint megosztott tárház használat, felhasználói jogkörök kezelése, távoli kódfuttatás, időzített folyamatok.

Ingyenesen elérhető Desktop verziója is meglehetősen jól használható és opensource mivolta miatt könnyű hozzá bővítményeket írni.

Elérhetősége : Link

A Knime jelenleg (2013.11 hó) a 2.8 verziónál jár.


A KNIME az ETL folyamatokat úgynevezett Workflow projektekbe szervezve kezeli:


  • Minden folyamat speciális csomópontokból és ezen csomópontok közötti kapcsolatokból áll.
  • Minden folyamatnak vannak kezdő és vég csomópontjai.
  • A kezdő csomópontok általában adatokat olvasnak be, míg a folyamat végén levő csomópontok adatokat írnak vagy jelenítenek meg.
  • A köztes csomópontok transzformálásra, adattisztításra, … használhatóak.
  • Az adatok a csomópontok közötti kapcsolatokon keresztül kerülnek átadásra.

Minden csomópontnak meghatározott típusa és ezáltal meghatározott szerepe van a szerepek egymáshoz kapcsolódásával komplex rendszer kialakítására van lehetőség.

KNIME: az Eclips-en alapuló kiterjeszthető nyílt adatbányász platform, amely a pipeline (összecsövezés) paradigmára épül.
WEB elérés : www.knime.org  / tech.knime.org  













A KNIME az ETL és elemzési folyamatokat úgynevezett Workflow projektekbe szervezve kezeli:
Minden folyamat speciális csomópontokból és ezen csomópontok közötti kapcsolatokból áll. Minden folyamatnak vannak kezdő és vég csomópontjai. A kezdő csomópontok általában adatokat olvasnak be, míg a folyamat végén levő csomópontok adatokat írnak vagy jelenítenek meg. A köztes csomópontok transzformálásra, adattisztításra, … használhatóak. Az adatok a csomópontok közötti kapcsolatokon keresztül kerülnek átadásra.

Minden csomópontnak meghatározott típusa és ezáltal meghatározott szerepe van a szerepek egymáshoz kapcsolódásával komplex rendszer kialakítására van lehetőség.
A csomópontok szerepe lehet :
az adatok beolvasásáért és kiírásáért felelős (I/O) csomópontok, adatbázis műveletekhez kapcsolódó csomópontok, adatmódosító csomópontok, adatmegjelenítő csomópontok, …




















Nodokon levő kapcsolati pontok jelentése

 Adat port: üres nyílhegy adatok átvitelére szolgál a nodok között
 Adatbázis pont: barna négyszög adatbázisban képes műveletet végrehajtani
 Adatelemzési pont : Jósláshoz szükséges tanuló nodok és döntési nodok összeköttetésére szolgál









Nodok színe utal az általunk végzett művelet tipusra:

Narancs : adat beolvasás
Piros : kiírása az adatoknak
Sárga : földolgozás, módosítás
Világos barna Egyéb szolgáltatás
Kék  : megjelenítés, diagramok
Zöld : Elemezési műveletek (Világos zöld: tanító Sötétzöld: döntési múvelet)
Barna : Korrelációk
Szürke: Egyéb elemzések
Világos kék: Hurkok létrehozása




Nodokkal kapcsolatos jellemzők:





Jobb egérgombbal kért helyi menüvel a node beállítására, futtatására eredmény megtekintésére van lehetőség



























Be és kimenetek száma:
    -  A nodok baloldali csatlakozási pontja a bemenet, a jobb oldali csatlakozási pont a kimenet.
    - Van olyan node amelynek nincs bemenete vagy kimenete, ill. több bemenete vagy kimenete is lehet a funkciójától függően.





















A KNIME tehát egy olyan grafikus, jávás eszköz, amellyel teljes analízist végezhetünk: adat transzformáció, prediktív analitika, vizualizáció és jelentés készítés.
Moduláris felépítésű és tartalmaz olyan funkciókat, mint megosztott tárház használat, felhasználói jogkörök kezelése, távoli kódfuttatás, időzített folyamatok.
















Az ilyen építkezéssel kialakított komplex rendszerrel kiiktatható az erőforrás pazarló script
és utility programok írására, az adatok transzformálására majd adott esetben adatbázisba töltésére fordítandó idő töredékére csökken.

A folyamatokba vezérlési szerkezet, függőség csomópontok is elhelyezhetőek melyek révén akár bonyolultabb logikával is felvértezhetőek a workflow-k.


A KNIME ingyenesen elérhető eszköz, mely az ETL folyamatokat gyorsan és költséghatékonyan támogatja.
Segítségével eliminálható a programozás, csökkenthetőek a karbantartási költségek és a folyamat vizuális megjelenítése azon túl, hogy átláthatóvá teszi az összefüggéseket, segít a folyamatok dokumentálásában is.

A Knime egy eszköz mely támogatja prediktív analitikát (továbbiakban PA). A PA olyan statisztikai modelleket és egyéb empirikus módszereket jelent, amelyek empirikus előrejelzésekre szolgálnak, valamint a módszerek minőségi értékelésére,  az előrejelzések gyakorlati alkalmazhatóságára, azaz előrejelző képességének javítására törekszenek.

Eltekintve a gyakorlati hasznosság alapkritériumától, a PA fontos szerepet játszik a tudományos elméletben, a hipotézisek tesztelésében és relevanciavizsgálatában.
Ennél lényegében minél több múltbeli adatból jelezzük előre (modellezzük) a jövőbeli várható viselkedést.

Az ilyen eszközök az üzleti intelligenciát szolgáló PA az adatbányászat és a matematikai elemzés eszközeivel dolgoznak, hogy új, addig rejtett összefüggésekre leljenek az adattömegben rejlő mintázatok között, és előre jelezzék az üzleti trendeket például a fogyasztói aktivitásban, de az eredményei nem valósidejűek.

Az ilyen építkezéssel kialakított komplex rendszerrel kiiktatható az erőforrás pazarló script és utility programok írására, az adatok transzformálására majd adott esetben adatbázisba töltésére fordítandó idő töredékére csökken.

A folyamatokba vezérlési szerkezet, függőség csomópontok is elhelyezhetőek, melyek révén akár bonyolultabb logikával is felvértezhetőek a workflow-k.

















A KNIME tehát egy olyan ingyenesen elérhető eszköz, mely az ETL folyamatokat gyorsan és költséghatékonyan támogatja.

Segítségével eliminálható a programozás, csökkenthetőek a karbantartási költségek és a folyamat vizuális megjelenítése azon túl, hogy átláthatóvá teszi az összefüggéseket, segít a folyamatok dokumentálásában is.

A Knime egy eszköz mely támogatja prediktív analitikát (továbbiakban PA). A PA olyan statisztikai modelleket és egyéb empirikus módszereket jelent, amelyek empirikus előrejelzésekre szolgálnak, valamint a módszerek minőségi értékelésére,  az előrejelzések gyakorlati alkalmazhatóságára, azaz előrejelző képességének javítására törekszenek.

Eltekintve a gyakorlati hasznosság alapkritériumától, a PA fontos szerepet játszik a tudományos elméletben, a hipotézisek tesztelésében és relevanciavizsgálatában.
Ennél lényegében minél több múltbeli adatból jelezzük előre (modellezzük) a jövőbeli várható viselkedést.

Az ilyen eszközök az üzleti intelligenciát szolgáló PA az adatbányászat és a matematikai elemzés eszközeivel dolgoznak, hogy új, addig rejtett összefüggésekre leljenek az adattömegben rejlő mintázatok között, és előre jelezzék az üzleti trendeket például a fogyasztói aktivitásban, de az eredményei nem valósidejűek.

Az sikeres, eredményes adat elemzés főbb követelményei:
1. Nagy mennyiségű adat: Nagy mennyiségnél könnyebb kizárni az adatok esetiségét, ami csökkenti a véletlen összefüggések detektálását.
2. Sok tulajdonság: Ha az adatok minél több jellemzőt tartalmaznak, pontosabb összefüggések kimutatására van lehetőség.
3. Tiszta adatok: Hiányos, hibás vagy hamis bejegyzések növelik a bizonytalanságot, ami az eredményt is befolyásolhatja. Kapcsolódó kifejezés a GIGO (garbage in, garbage out).
4. Torzítatlan adat: A alap adathalmazból nem megfelelően kiválasztott adatok befolyásolhatják az egészre vonatkozó kimutatásokat. Ide tartozó kifejezés a BIBO (bias in, bias out)
5. Alkalmazási terület akcióképessége: A kinyert tudást gyakran nem használják fel, vagy a felhasználási terület túl merev annak hasznosításához. 6. A befektetés megtérülésének mérhetősége: Akkor sikeres az adatbányászat, ha megtérül a befektetés.

Az adat elemzés  feladatai:
1. Gyakori minták kinyerése: Adatok sorozatából gyakran előforduló (rész-) objektumok, elemhalmazok, sorozatok, részben rendezések vagy gráfok.
2. Attribútumok közötti kapcsolatok: Objektumok attribútumai közötti asszociációs- és korrelációs szabályok, funkcionális függőségek és hasonlóságok.
3. Klaszterezés: Objektumok előre nem definiált csoportokba sorolása úgy, hogy hasonló elemek azonos csoportba kerüljenek, különbözőek különbözőbe.
4. Sorozatelemzés: Hasonló (rész-) sorozatok keresése, elemzése, jövőbeni elemek regressziós módszerekkel történő meghatározása.
5. Eltéréselemzés: Általános jellemzőktől eltérő elemek, „különc pontok” meghatározása.






Az sikeres, eredményes adat elemzés főbb követelményei:

1. Nagy mennyiségű adat: Nagy mennyiségnél könnyebb kizárni az adatok esetiségét,
ami csökkenti a véletlen összefüggések detektálását.
2. Sok tulajdonság: Ha az adatok minél több jellemzőt tartalmaznak, pontosabb
összefüggések kimutatására van lehetőség.
3. Tiszta adatok: Hiányos, hibás vagy hamis bejegyzések növelik a bizonytalanságot, ami
az eredményt is befolyásolhatja. Kapcsolódó kifejezés a GIGO (garbage in, garbage out).
4. Torzítatlan adat: A alap adathalmazból nem megfelelően kiválasztott adatok
befolyásolhatják az egészre vonatkozó kimutatásokat. Ide tartozó kifejezés a BIBO (bias
in, bias out)
5. Alkalmazási terület akcióképessége: A kinyert tudást gyakran nem használják fel,
vagy a felhasználási terület túl merev annak hasznosításához.
6. A befektetés megtérülésének mérhetősége: Akkor sikeres az adatbányászat, ha
megtérül a befektetés.

Az adat elemzés  feladatai:

1. Gyakori minták kinyerése: Adatok sorozatából gyakran előforduló (rész-) objektumok,
elemhalmazok, sorozatok, részben rendezések vagy gráfok.
2. Attribútumok közötti kapcsolatok: Objektumok attribútumai közötti asszociációs- és
korrelációs szabályok, funkcionális függőségek és hasonlóságok.
3. Klaszterezés: Objektumok előre nem definiált csoportokba sorolása úgy, hogy hasonló
elemek azonos csoportba kerüljenek, különbözőek különbözőbe.
4. Sorozatelemzés: Hasonló (rész-) sorozatok keresése, elemzése, jövőbeni elemek
regressziós módszerekkel történő meghatározása.
5. Eltéréselemzés: Általános jellemzőktől eltérő elemek, „különc pontok” meghatározása.

Adattisztító, előkészítő lépések:

  • Importálás egységes tábla sturtúrába betöltés
  • Felesleges sorok és oszlopok eltávolítása
  • Különleges, vezérlő karakterek lecserélése, törlése, karakterkészlet egységesítése konverziók (Latin2, UTF8, CP1250, …)
  • Cellaformátumok beállítása, tizedespont vs. tizedesvessző, határoló karakterek (csere, konverzió)
  • Adatok egységesítése (pl. eltérő mértékegységek egységessé alakítása)
  • Adatok aggregálása (pl. eltérő mértékegységek)
  • Táblázat exportálása célformátumba
  • Felesleges adatok törlése:
    •  Sorok (pl. a kezdő sorok, fejlécek és az állomány végén lévő sorok, amelyek nem kapcsolódnak az eredményekhez)
    •  Oszlopok (pl. folyton ismétlődő, konstans, irreleváns, … )


Néhány a modellezéshez kapcsolódó elemzési fogalom:

  • munkahipotézis: Sejtés megfogalmazása
  • mérlegelés: a kapott tenzió csökkenés elegendően nagy ahhoz, hogy elegendőnek tekintsük
  • differenciáldiagnosztika: valóban a beavatkozás, esemény lánc okozta a tenzió csökkenést vagy valami más
  • mi lehet ez a más: szisztémás hatás vagy véletlen

A véletlen szerepének megítélése, a szignifikancia:

  • Nem lehet minden körülményt tekintetbe venni, sőt általában nem is érdemes.
  • Mérlegelni kell, hogy mely tényezőket vesszük figyelembe, illetve melyeket nem.
  • Mindannak a hatását, amit nem vettünk tekintetbe, összességében a véletlen hatásának fogjuk fel. A véletlen által is befolyásolt eseményekre kidolgozott valószínűségi és matematikai statisztikai törvények objektívek, de a határ szubjektív.
  • A szakértő tudása dönti el, hogy jó helyen húzza meg a határt/határokat.


Leíró statisztikai elemzés az alábbi mutatókat jelenti:
N: a megfigyelés elemszáma.

Sum, összeg: a változó értékeinek összege.

Mean, átlag, várható érték: a mintaátlag. (csak intervallum és numerikus adatoknál van). A nagy számok törvénye értelmében, ha az esetek száma nagy, akkor az átlag jól közelíti az eloszlás várható értékét, ami az eloszlás elméleti centruma.)

Median, medián: a rendezett minta középső eleme, vagy páros elemszámú minta esetén a két középső elem átlaga. (Nominális adathoz nem használható)

Modus, módusz: a változó esetei közül a leggyakrabban előforduló érték. Ha több ilyen is van akkor azokközül a legkisebb. (Ordinális és intervallum típusú adatoknál nem mindíg van értelme.)

Minimum, maximum: a változó legkisebb és a legnagyobb értéke.

Std. Deviation, szórás: a változó szórásának kiszámítása. Ez
programonként változó, hiszen van, ahol a „közönséges” szórást, de van
ahol a korrigált tapasztalati szórást kapjuk eredményül.

Kurtosis, csúcsosság: egy eloszlás csúcsosságának megállapítása az
azonos szórású normális eloszláshoz viszonyítva. Az alapértelmezésként
használt mutató pozitív értéke csúcsosabb, míg negatív értéke lapultabb
eloszlást jelez.

Skewness, ferdeség: egy eloszlás aszimmetriájának megállapítása az
azonos szórású normális eloszláshoz viszonyítva. Az alapértelmezésként
használt mutató pozitív értéke baloldali aszimmetriát, azaz jobbra (pozitív
irányban) hosszan elnyúló eloszlást, míg negatív értéke jobboldali
aszimmetriát jelez. Leegyszerűsítve, például a baloldali aszimmetria úgy
képzelhető el, hogy az ismérvértékek többsége átlag alatti.

Konfidenciaintervallum: egy általunk megadott megbízhatósági szintű
konfidenciaintervallum megállapítása a sokasági várható értékre.


X^2 Próbák:

a legrégibb, a legegyszerűbb, a legkevesebb feltételhez kötött és a legkevésbé érzékenyebb próba.


Alkalmazása az eloszlások összehasonlítása:
1. a két vagy több minta nem különbözik-e                        (homogenitás vizsgálat)
2. a minta megfelel-e egy már előre ismert eloszlásnak    (illeszkedés vizsgálat)



Feltétel:
csak teljes eseményrendszer esetén és csak abszolút frekvenciákkal szabad végezni a számítást kellő számú eset jusson az egyes kategóriákba

Kontingencia tábla
  • sorok: összehasonlítható csoportok
  • oszlopok: összehasonlításkor tekintetbe vett szempontok
Az egyes cellákban lévő számok azt jelentik, hogy az adott kritériumnak hányan feleltek meg.


ANOVA típusok:

Egy faktor. Egyszeres variancia analízis, amely az teszteli, hogy két vagy több minta átlaga egyenlő-e . Ez a technika a két átlagon végzett vizsgálatok (mint a t-teszt)
kiterjesztése.

Két faktor ismétlődéssel. Ez a módszer az egyszeres variancia analízis bővítése úgy, hogy minden adatsorból több adatot használ fel.

-Két faktor ismétlődés nélkül. Ez a módszer a két faktorú variancia analízis módosítása úgy, hogy minden adatsorból csak egy adatot használ fel. Azt feltételezi, hogy két vagy több minta átlaga egyenlő. Ez a technika a két átlagon végzett vizsgálatok (mint a t-teszt) kiterjesztése.

A Regresszió analízis lineáris regresszió számolást végez a “legkisebb négyzetek” (“least squares”) módszerével. Ez azt jelenti, hogy egy egyenest illeszt a mérési
eredményekre. Ekkor azt tudjuk elemezni, hogy befolyásol egy függő változót egy vagy több független változó.


Knime dupker:
deduplication_of_address_date
fuzzy_string_matching


Az ETL (Extract, Transform, Load) elvek :

Egy olyan szoftver komponens, amely nagy mennyiségű adat mozgatására, előkészítésére szolgál.
Részei/elemei:
  • kinyerés (Extract),
  • transzformálás (Transform) és a
  • betöltés (Load).
Az adatok kinyerése (exportálás, adatbázis lekérdezés, stb.) általában megoldott az egyes rendszerek esetében, azonban a kapott adatok felépítése az esetek döntő többségében eltérő, a rendszerek közötti átjárás közös adatok feldolgozása már problémás lehet.

Ilyen tisztításra, adat kinyerésre sokszor kisebb scriptek, utility-k készülnek, melyek lefejlesztése időbe telik, erőforrásokat foglal és költséget jelent, nem beszélve arról, hogy hibalehetőséget hordoz magában, valamint az ilyen scriptek karbantartása szintén komoly erőforrásokat igényelhet.

A folyamatokba vezérlési szerkezetek is elhelyezhetőek és támogatott a változók használata is, melyek révén akár bonyolultabb logikával is felvértezhetőek a workflow-k. Az egyes csomópontok között akár függőségek is megadhatóak, melyekkel szabályozható a csomópontok lefutási sorrendje.

A modern integráló eszközök már röptében töltenek és transzformálnak ezért E-LT szeretik hívni magukat (pl. ODI : Orcale Data Integrator).

Célértékkek sora : Adat -> Információ -> Érték

  • Adat lehet szinte bármi, ami egy cégen belül keletkezik a napi munkavégzés során.
  • Információ az, amit ezek az adatok jelentenek, amit magukban rejtenek.
  • Érték pedig akkor születik, ha a fentiek a megfelelő formába öntve a cég eredményességét szolgálják, vagyis csökkentik a reakcióidőt, növelik a hatékonyságot és pozitívan hatnak az értékesítésre valamint az ügyfélmegtartásra.


Megjegyzések