Ugrás a fő tartalomra

Szövegbányászat és panaszkezelés

A panaszok benyújtásánal, befogadásánál egyenként is nagy mennyiségű ömlesztett (nem mezőkbe csoportosított -> strukturálatlan) adat keletkezik, amelynek információ kinyerése hagyományos adatbázis módszerekkel nem vagy csak nagyon körülményesen megoldható.

A hatalmas mennyiségű, strukturálatlan adathalmazból a releváns információ kinyerése a szövegbányászat lényege.




Az egyszerű szöveges keresésnél jóval többet céloz meg a szövegbányászat.

A szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is kíváncsiak vagyunk ami explicite nem volt benne a rendelékezésre álló dokumentumban (korpuszban), csak indirekt módon, rejtve, látensen ismerhető fel.

A korpusz  :
egy meghatározott szempontok alapján kiválasztott szövegmennyiség, amelyen a nyelvész vizsgálatát végez
 (Kugler & Tolcsvai Nagy, 2000: 132)


A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.
 (http://corpus.nytud.hu/mnsz/bevezeto_hun.html)



A szövegbányászat meghatározott szöveg minták, struktúrák, tagok felismerésére, adatreprezentációra,
előrejelzésre, statisztikai összefüggések kimutatására használható.

Technológiailag, különböző modellező eszközökkel a mesterséges intelligencia, az öntanuló algoritmusok, a gépi tanulás módszertanok csatarendbe állításával a technológia is mindinkább rendelkezésre áll  erre a speciális elemzésére.

A szövegbányászat segítségével olyan rejtett információk feltárására nyílik lehetőség, amelyek nagyban növelik az adott szervezet tudásvagyonát, ezzel pedig a reakció- és versenyképességét.



A szövegbányászat műveleteinek kategorizálása :
előzetes feldolgozás (preprocess): az adatok általános előkészítése, importálása, tisztítása (LTE)
társítások, kapcsolódások (associate): kapcsolódási analízis, ami egy adott meghatározáshoz keres jellemző kapcsolatokat, elsősorban gyakorisági és együttes előfordulási alapon
csoportosítás (cluster): a hasonló dokumentumok csoportosítása
összefoglalás (summarize): a legfontosabb fogalmak megkeresése
kategorizálás (categorize): a szövegek előre meghatásozott kategóriákba való besorolása




Szövegbányászat egyserűsített folyamata:
 Az előfeldolgozáshoz tartozik a szöveg felbontása, a szavak szótövezése
(lemmatizálása), szótárépítés, súlyozás, és egyéb jellemzők megadása.

A dokumentumokhoz egy szólistát rendelünk, mely hivatkozik az adott dokumentum
kulcsszavaira (kulcsszóindex). Így egy speciális keresés zajlik,  melyhez nem kell a teljes dokumentum, csupán a belőle képzett indexen kell elvégezni.

Az indexek készítésénél kihagyjuk azokat a szavakat, amelyeknek csak grammatikai szerepük
van, valós tartalmi értékük nincs, például a névelők vagy a kötőszók. --> stopszavaknak



Az információkinyerés során az adott cél szempontjából kiemelten kezelendő szövegrészeket gyűjtünk ki, strukturálatlan szövegekből és strukturált szövegeket állítunk elő.

Ez a keresésnél jóval komplexebb feladat. A szövegekben nemcsak az egyes elemeket kell kiválogatni, de az azok között fennálló kapcsolatokat, relációkat  is fel kell tárni.

A strukturálás során a dokumentumok elemeit előre definiált kategóriacímkékkel látjuk el, melyeket majd kimeneti adatmezőkbe helyezhetünk.






Megjegyzések