A panaszok benyújtásánal, befogadásánál egyenként is nagy mennyiségű ömlesztett (nem mezőkbe csoportosított -> strukturálatlan) adat keletkezik, amelynek információ kinyerése hagyományos adatbázis módszerekkel nem vagy csak nagyon körülményesen megoldható.
A hatalmas mennyiségű, strukturálatlan adathalmazból a releváns információ kinyerése a szövegbányászat lényege.
Az egyszerű szöveges keresésnél jóval többet céloz meg a szövegbányászat.
A szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is kíváncsiak vagyunk ami explicite nem volt benne a rendelékezésre álló dokumentumban (korpuszban), csak indirekt módon, rejtve, látensen ismerhető fel.
A korpusz :
egy meghatározott szempontok alapján kiválasztott szövegmennyiség, amelyen a nyelvész vizsgálatát végez
(Kugler & Tolcsvai Nagy, 2000: 132)
A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.
A szövegbányászat meghatározott szöveg minták, struktúrák, tagok felismerésére, adatreprezentációra,
előrejelzésre, statisztikai összefüggések kimutatására használható.
Technológiailag, különböző modellező eszközökkel a mesterséges intelligencia, az öntanuló algoritmusok, a gépi tanulás módszertanok csatarendbe állításával a technológia is mindinkább rendelkezésre áll erre a speciális elemzésére.
A szövegbányászat segítségével olyan rejtett információk feltárására nyílik lehetőség, amelyek nagyban növelik az adott szervezet tudásvagyonát, ezzel pedig a reakció- és versenyképességét.
A szövegbányászat műveleteinek kategorizálása :
• előzetes feldolgozás (preprocess): az adatok általános előkészítése, importálása, tisztítása (LTE)
• társítások, kapcsolódások (associate): kapcsolódási analízis, ami egy adott meghatározáshoz keres jellemző kapcsolatokat, elsősorban gyakorisági és együttes előfordulási alapon
• csoportosítás (cluster): a hasonló dokumentumok csoportosítása
• összefoglalás (summarize): a legfontosabb fogalmak megkeresése
• kategorizálás (categorize): a szövegek előre meghatásozott kategóriákba való besorolása
Szövegbányászat egyserűsített folyamata:
Az előfeldolgozáshoz tartozik a szöveg felbontása, a szavak szótövezése
(lemmatizálása), szótárépítés, súlyozás, és egyéb jellemzők megadása.
A dokumentumokhoz egy szólistát rendelünk, mely hivatkozik az adott dokumentum
kulcsszavaira (kulcsszóindex). Így egy speciális keresés zajlik, melyhez nem kell a teljes dokumentum, csupán a belőle képzett indexen kell elvégezni.
Az indexek készítésénél kihagyjuk azokat a szavakat, amelyeknek csak grammatikai szerepük
van, valós tartalmi értékük nincs, például a névelők vagy a kötőszók. --> stopszavaknak
Az információkinyerés során az adott cél szempontjából kiemelten kezelendő szövegrészeket gyűjtünk ki, strukturálatlan szövegekből és strukturált szövegeket állítunk elő.
Ez a keresésnél jóval komplexebb feladat. A szövegekben nemcsak az egyes elemeket kell kiválogatni, de az azok között fennálló kapcsolatokat, relációkat is fel kell tárni.
A strukturálás során a dokumentumok elemeit előre definiált kategóriacímkékkel látjuk el, melyeket majd kimeneti adatmezőkbe helyezhetünk.
A hatalmas mennyiségű, strukturálatlan adathalmazból a releváns információ kinyerése a szövegbányászat lényege.
Az egyszerű szöveges keresésnél jóval többet céloz meg a szövegbányászat.
A szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is kíváncsiak vagyunk ami explicite nem volt benne a rendelékezésre álló dokumentumban (korpuszban), csak indirekt módon, rejtve, látensen ismerhető fel.
A korpusz :
egy meghatározott szempontok alapján kiválasztott szövegmennyiség, amelyen a nyelvész vizsgálatát végez
(Kugler & Tolcsvai Nagy, 2000: 132)
A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.
(http://corpus.nytud.hu/mnsz/bevezeto_hun.html)
A szövegbányászat meghatározott szöveg minták, struktúrák, tagok felismerésére, adatreprezentációra,
előrejelzésre, statisztikai összefüggések kimutatására használható.
Technológiailag, különböző modellező eszközökkel a mesterséges intelligencia, az öntanuló algoritmusok, a gépi tanulás módszertanok csatarendbe állításával a technológia is mindinkább rendelkezésre áll erre a speciális elemzésére.
A szövegbányászat segítségével olyan rejtett információk feltárására nyílik lehetőség, amelyek nagyban növelik az adott szervezet tudásvagyonát, ezzel pedig a reakció- és versenyképességét.
A szövegbányászat műveleteinek kategorizálása :
• előzetes feldolgozás (preprocess): az adatok általános előkészítése, importálása, tisztítása (LTE)
• társítások, kapcsolódások (associate): kapcsolódási analízis, ami egy adott meghatározáshoz keres jellemző kapcsolatokat, elsősorban gyakorisági és együttes előfordulási alapon
• csoportosítás (cluster): a hasonló dokumentumok csoportosítása
• összefoglalás (summarize): a legfontosabb fogalmak megkeresése
• kategorizálás (categorize): a szövegek előre meghatásozott kategóriákba való besorolása
Szövegbányászat egyserűsített folyamata:
Az előfeldolgozáshoz tartozik a szöveg felbontása, a szavak szótövezése
(lemmatizálása), szótárépítés, súlyozás, és egyéb jellemzők megadása.
A dokumentumokhoz egy szólistát rendelünk, mely hivatkozik az adott dokumentum
kulcsszavaira (kulcsszóindex). Így egy speciális keresés zajlik, melyhez nem kell a teljes dokumentum, csupán a belőle képzett indexen kell elvégezni.
Az indexek készítésénél kihagyjuk azokat a szavakat, amelyeknek csak grammatikai szerepük
van, valós tartalmi értékük nincs, például a névelők vagy a kötőszók. --> stopszavaknak
Az információkinyerés során az adott cél szempontjából kiemelten kezelendő szövegrészeket gyűjtünk ki, strukturálatlan szövegekből és strukturált szövegeket állítunk elő.
Ez a keresésnél jóval komplexebb feladat. A szövegekben nemcsak az egyes elemeket kell kiválogatni, de az azok között fennálló kapcsolatokat, relációkat is fel kell tárni.
A strukturálás során a dokumentumok elemeit előre definiált kategóriacímkékkel látjuk el, melyeket majd kimeneti adatmezőkbe helyezhetünk.
Megjegyzések
Megjegyzés küldése