Ugrás a fő tartalomra

MI / AI Mesterséges Intelligencia alapok 4


Természetes nyelvek feldolgozása:

Szótárak – lexikonok – hatékony számítógépes tárolása
• Tárolandó elemek:
- 1..43 karakteres szavak (általában 10 karakteresek). A karakterkészlet egy természetes nyelv írásjeleiből áll, kb. 116 féle.)
• Követelmények statikus és dinamikus szótáraknál egyaránt: kis tárigény; gyors keresés.
• További követelmények dinamikus szótáraknál: gyors beillesztés; gyors törlés.

• Lehetséges szótár-adatszerkezetek:
- Nem hatékonyak: lista szekvenciális kereséssel, rendezett lista bináris kereséssel
- Hatékony megoldás: keresőfa, ill. véges állapotú automata.



Szótárak tárolása véges állapotú automatával:

A véges állapotú automata ( finite state automaton, FSA ) hálós gráffal ábrázolható, mely kibontható a kevésbé hatékony memóriafoglalású keresőfának megfelelő fagráf alakba.
• Előny: a szó hosszának megfelelő lépésben képesek megállapítani, hogy a szó a szótár része, vagy sem.
• Működés: a bemenetként kapott szó karaktereit sorra véve, a már beolvasott karakterek által meghatározott állapotból egy lépésben elérhető állapotok közül az éppen kapott karakter által meghatározott újabb állapotba lépnek át.

Amennyiben az utolsó karakter ún. elfogadó állapotba juttatja, akkor a szót elfogadva állnak le, egyébként a szót nem elfogadva állnak le, azaz a szó nem tartozik a fa, ill az automata által ismert szavak közé

A szóelemzés

Mondatépítés eszközei: kötött szórend; elöljárószavak; toldalékolás.
A mondatépítési mód kihatása a nyelv szavainak sokszínűségére:
- Nem toldalékoló nyelvek (pl. angol): ~500 000 szóalak
- Toldalékoló (agglutináló) nyelvek (pl. magyar): ~500 000 000 szóalak.
Morféma: - tőmorféma = alapszó (szótő, az a rész, mely leginkább meghatározza a toldalékolt szó jelentését)
- toldalékmorféma (prefixum: előtag, igekötő; szuffixum: képző, jel, rag).
Szöveg morfológiai elemzése: a szöveg morfémákra bontása és a morfématípusok beazonosítása. Szükség esetén a morféma alap (lexikális) alakjának meghatározása.
labdákat → labdá = labda [főnév] + k [többesszám jele] + at [tárgyrag]
Morfoszintaktikai szabályok: megadják a morfémák kapcsolódásának szabályait. Gond: a nyelvészeti és számítógépes nyelvészeti optimális megoldások eltérése.

A morfológiai elemzés céljai:
- a kezelendő szóalakok számának redukálása (a toldalékmorfémák száma százas nagyságrendű csak)
- a mondat szintaktikai, nyelvtani elemzése (főnév?, melléknév?, ige?, birtokosjel?, tárgyrag?, stb. )
• A természetes nyelvek szókészletének implicit tárolása:
szóösszetételek generálásának szabályaival + kivételek kezelésével.
A módszer használható:
- szintaktikailag (nyelvtanilag) helyes (összetett) szavak generálására- megadott szavak szintaktikai helyességének ellenőrzésére.
A módszer hibái:
- Túlgenerálás – a kivételkezelés hiányosságai és a jelentés tárolásának hiánya miatt olyan szavakat is létrehoznak, illetve elfogadnak, amelyek nincsenek az élő nyelvben.
- Inkább zártak, mint nyíltak: a nyelvben megjelenő új szavak kezelése nem automatikus.


Fokozatok a nyitottságban:

- nyitott új szóra (gyakori igény)- nyitott új nyelvtani szabályra (közepesen gyakori)- nyitott új toldalék megjelenésére (igen ritka).

Morfológia típusok
A szóösszetételek, a helyes morfémaláncolatok képzésének megadására alkalmas szabályokat megadó modellek típusai.
1. Kétszintes morfológiák: A felbontott szó morfémájához megadja az alap morfémát a morféma nyelvtani kategóriájával együtt. Pl.: labdá+k → labda [főnév] + k [többesszám jele].
A karakterről karakterre haladó elemzés véges automatát alkalmaz és jellemzője, hogy megfordítható.

2. Folytatási osztályok: egy morfémához megadja a lehetséges folytatómorfémákat. Pl.:
labda [főnév] (+t [tárgyrag], +val [eszközhatározó rag], +nak [birtokosrag], … );
+k [többesszám jele] (+at[tárgyrag], +nak [birtokosrag], +val [eszközhatározó rag],+ból [helyhatározó rag] …)
A morfémák osztályozhatók az egyes folytatási osztályok tartalma alapján.

3. Unifikációs modellek: nem a kapcsolódó morfémákat, hanem a morfémát megelőző és követő morfémák jellemzőit tárolja. Igekötőknél a megelőző, ragoknál a következő morféma hiányzik, így jellemzői is hiányoznak.

A morfológiai elemzés: a megfelelő morfémák egymásrakövetkezésének meghatározásához két dolgot kell nézni:
1. a morfémák szón belüli sorrendjét:
A morfémák lehetséges sorrendjei modellezhetők véges automatával, melynek átmeneti operátorai most az egyes morfématípusok. Egy lehetséges morfématípus-kapcsolódási sorozat az automata egy bejárási útját adja.
2. a szomszédos morfémák egymáshoz illeszkedését a kapcsolódási pontban: a rákövetkező morféma igényeit a megelőző morfémának teljesítenie kell.

Az 1. lépés még nem ad minden esetben jó megoldást. Ezért a második lépéssel ki kell zárni a helytelen elfogadásokat a kapcsolódó morfémák morfoszintaktikai-fonológiai elvárásainak egyeztetésével.

A kapcsolódás feltétele, hogy a két jegyszerkezetben, elvárássorban ne legyenek azonos jellemzők eltérő értékkel (előjellel)

Megjegyzések