Szövegelemzés Szövegelemzési fogalmak: TF-IDF : term frequency - inverse document frequency. Ez az érték jellemzi egy szó fontosságát az adott dokumentumban. A fontosság növekszik a szó újabb és újabb előfordulásával, de csökken, ha az adott korpuszon belül egyre több dokumentumban jelenik meg. Az alábbi esetben a dokumentum egy darab hozzászólás, a korpusz pedig a hozzászólások halmaza. Használat során a magas tf-idf érték magas kifejezés gyakorisággal és alacsony dokumentum gyakorisággal jár együtt, tehát így kiszűrhetőek a gyakori kifejezések. Egy-egy kifejezés tf-idf értéke akkor nagyobb, mint 0, ha az idf logaritmus belsejében az érték nagyobb, mint 1. Attól függően, hogy a nevezőhöz hozzáadunk-e 1-et, egy olyan kifejezésnek, amely minden dokumentumban szerepel, nulla vagy negatív lesz a tf-idf értéke. Absztrakt adattípus : amely absztrakt adatok halmazát adja meg (definiálja), nem törődve a konkrét gépi megvalósítással. Pl.: tömb, lista, verem, sor, halmaz, kupac, fa
Adat-elemzés, fejlesztés, betöltés, tisztítás, ellenőrzés, megjelenítés, mi eszközök