IT, BI, DWH, DM, AI

Szövegelemzés Python -nal

Szövegelemzés Szövegelemzési fogalmak: TF-IDF : term frequency - inverse document frequency. Ez az érték jellemzi egy szó fontosságát az adott dokumentumban. A fontosság növekszik a szó újabb és újabb előfordulásával, de csökken, ha az adott korpuszon belül egyre több dokumentumban jelenik meg. Az alábbi esetben a dokumentum egy darab hozzászólás, a korpusz pedig a hozzászólások halmaza. Használat során a magas tf-idf érték magas kifejezés gyakorisággal és alacsony dokumentum gyakorisággal jár együtt, tehát így kiszűrhetőek a gyakori kifejezések. Egy-egy kifejezés tf-idf értéke akkor nagyobb, mint 0, ha az idf logaritmus belsejében az érték nagyobb, mint 1. Attól függően, hogy a nevezőhöz hozzáadunk-e 1-et, egy olyan kifejezésnek, amely minden dokumentumban szerepel, nulla vagy negatív lesz a tf-idf értéke. Absztrakt adattípus : amely absztrakt adatok halmazát adja meg (definiálja), nem törődve a konkrét gépi megvalósítással. Pl.: tömb, lista, verem, sor, halmaz, ...

További információk

Google Colab alapok felület és lehetőségek

Colab Python SqLite használat: Töltsuk fel az adatbázis filet a content mappába ( Files menüpontból) Leprogramozandó lépések: modul betöltése kapcsolódás új tábla létrehozás induló adatfeltöltés adatok lekérdezése és megjelenése Példa: ## Installálás csak egyszerkel # !pip install db-sqlite3 import sqlite3 as lite import sys conn = lite.connect("/content/mie_pills_periods.s3db") cur = conn.cursor() #--- # cur.execute("CREATE TABLE drinks(Id INTEGER PRIMARY KEY AUTOINCREMENT, Name TEXT, Price REAL)") ## Tábla létrehozása (üres) # cur.execute("CREATE TABLE fruits(Id INTEGER PRIMARY KEY AUTOINCREMENT, Name TEXT, Price REAL)") ## Tábla létrehozása (üres) #-- # cur.execute("INSERT INTO drinks(Id, Name, Price ) VALUES ( 4, 'NEV01', 12.1 )") # Adat feltöltés 1 # cur.execute("INSERT INTO drinks(Id, Name, Price ) VALUES ( 11, 'NEV11', 112.1 )") # Adat feltöltés 2...

További információk

IT, BI, DWH, DM, AI

Keresés ebben a blogban

Bejegyzések

Szövegelemzés Python -nal

Google Colab alapok felület és lehetőségek