Ugrás a fő tartalomra

WEB LOG elemzés

 Naplóállományok feldolgozása (Logfile Analysis) webanalitikában

A logfile analízis a webkiszolgáló, proxy szerverek vagy egyéb hálózati eszközök által generált naplóállományok feldolgozását és elemzését jelenti. Ez egy alternatív vagy kiegészítő módszer a klasszikus webanalitikához (pl. Google Analytics), amely képes pontosabb és részletesebb adatokat biztosítani a látogatók és botok viselkedéséről.



1. Mi az a naplóállomány (log file)?

A log fájl egy szöveges fájl, amely minden HTTP-kérést rögzít, amit a szerver kiszolgál. Egy tipikus bejegyzés tartalmazza:

---swift

192.168.1.1 - - [27/Feb/2025:12:34:56 +0000] "GET /index.html HTTP/1.1" 200 1024 "https://google.com" "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"

Fontos mezők:

  • IP-cím → Látogató vagy bot azonosítása
  • Időbélyeg → Mikor történt a kérés
  • HTTP-módszer (GET, POST, PUT, DELETE) → Milyen művelet történt
  • Kért URL → Melyik oldalra érkezett kérés
  • HTTP státuszkód (200, 404, 500) → Kérés eredménye
  • Felhasználói ügynök (User-Agent) → Böngésző, eszköz típusa
  • Hivatkozó (Referrer) → Melyik oldalról érkezett a látogató

2. Logfile elemzés vs. klasszikus webanalitika

JellemzőLogfile elemzésJavaScript alapú analitika (GA, Matomo, stb.)
Adatgyűjtés helyeSzerveren fut, minden kérés rögzítésre kerülBöngésző oldalon fut (JavaScript kód)
Pontosság100%-os lefedettség (botokat is rögzít)Cookie-k és adblockerek miatt részleges
Betöltési sebesség hatásNem terheli a látogatótLassíthatja az oldal betöltését
Botok és crawlersRészletes információkat biztosít (pl. Googlebot, Bingbot)Gyakran nem láthatók
Offline interakciókNincs szükség böngésző-interakcióraCsak aktív oldalletöltéseket mér

📌 Mikor érdemes használni a logfile analízist?

  • SEO auditokhoz (pl. Googlebot látogatási mintázatok)
  • DDoS támadások vagy rosszindulatú botok azonosítására
  • Weboldal teljesítményének és hibáinak elemzésére
  • API hívások és egyéb szerverinterakciók követésére

3. Logfile elemzési eszközök

  • GoAccess → Valós idejű, gyors log elemzés terminálban
  • AWStats → Weblog elemzés grafikus felületen
  • Splunk → Nagy mennyiségű log adatok keresése és elemzése
  • ELK Stack (Elasticsearch, Logstash, Kibana) → Big Data alapú log elemzés
  • Screaming Frog Log File Analyzer → SEO-specifikus naplóelemzés

4. Konkrét elemzési példák

🔹 Példa 1: Googlebot ellenőrzése SEO célból

Feladat: Megnézni, hogy a Googlebot megfelelően indexeli-e az oldalt.

Lépések:

  1. Szűrés User-Agent alapján (Googlebot)
  2. Ellenőrizni a státuszkódokat (200 OK, 404 Not Found, 301 Redirect)
  3. Megnézni, hogy mely oldalakat indexeli gyakran

📌 Hasznos parancs Linux terminálban:

bash

grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -nr | head -20

Ez kilistázza, hogy a Googlebot mely URL-eket látogatta meg a leggyakrabban.


🔹 Példa 2: 404 hibás oldalak azonosítása

Feladat: Megnézni, hogy mely oldalak nem találhatók és okoznak SEO problémát.

Lépések:

  1. Keresés a 404-es státuszkódra
  2. Azonosítani, hogy honnan érkeztek ezek a hibás kérések
  3. Megnézni, hogy valódi látogatók vagy botok generálták-e

📌 Hasznos parancs:

---bash

grep " 404 " access.log | awk '{print $7}' | sort | uniq -c | sort -nr | head -20

Ez megmutatja a leggyakoribb nem létező URL-eket.


🔹 Példa 3: Weboldal teljesítményének elemzése

Feladat: Megnézni, hogy mely oldalak töltődnek be lassan.

Lépések:

  1. Keresés a válaszidők alapján
  2. Szűrés a nagy válaszidővel rendelkező oldalakra
  3. Azonosítani a legnagyobb fájlokat vagy lassú adatbázislekérdezéseket

📌 Hasznos parancs:

--bash

awk '{if ($NF > 5) print $0}' access.log

Ez kilistázza azokat a kéréseket, ahol a szerver válaszideje 5 másodpercnél hosszabb volt.


🔹 Példa 4: Rosszindulatú botok azonosítása

Feladat: Azonosítani a gyanúsan magas forgalmat generáló IP-ket.

Lépések:

  1. Keresés az IP-címek alapján
  2. Szűrés a gyanúsan sok kérést küldő címekre
  3. IP-k blokkolása, ha szükséges

📌 Hasznos parancs:

--- bash

awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -20

Ez kilistázza a legtöbb kérést küldő IP-ket, amelyeket összevethetsz ismert botlistákkal.


5. Összegzés

Előnyök:

  • Pontos, teljes adathalmaz
  • SEO auditokhoz és teljesítményvizsgálatokhoz kiváló
  • Nem függ JavaScript futtatástól vagy cookie-któl

⚠️ Hátrányok:

  • Nagy mennyiségű adat feldolgozása erőforrásigényes
  • Nem nyújt olyan vizuális betekintést, mint pl. Google Analytics
  • Az adatok értelmezése technikai tudást igényel

A naplóállományok elemzésére több eszköz létezik, attól függően, hogy milyen célt szeretnénk elérni (SEO audit, teljesítményelemzés, botdetektálás stb.). Az alábbiakban részletezem a legnépszerűbb eszközöket, valamint az előnyeiket és hátrányaikat.




1. GoAccess – Valós idejű log elemzés terminálban

🔹 Leírás:

  • Egy gyors, interaktív eszköz, amely a szerver logfájlokból készít részletes riportokat.
  • Konzolon fut, de lehetőség van HTML dashboard generálására is.
  • Részletes metrikákat nyújt a látogatottságról, státuszkódokról, URL-ekről és hivatkozásokról.

📌 Főbb funkciók:
✅ Valós idejű adatfeldolgozás
✅ Könnyen telepíthető és használható
✅ Hőtérképes vizualizációk
✅ HTTPS/SSL és IP-címek szerinti elemzés

⚠️ Hátrányok:
❌ Nem támogatja a nagy volumenű logok elemzését (Big Data)
❌ Kevésbé fejlett keresési és szűrési lehetőségek

📌 Telepítés Linuxon:

--- bash

sudo apt install goaccess goaccess /var/log/apache2/access.log --log-format=COMBINED

📌 Példa HTML riport készítésére:

--- bash

goaccess /var/log/nginx/access.log --log-format=COMBINED -o report.html




2. AWStats – Klasszikus webnapló elemző

🔹 Leírás:

  • AWStats egy nyílt forráskódú eszköz, amely grafikus elemzéseket készít webnaplókból.
  • Nginx, Apache és IIS szerverekkel kompatibilis.
  • SEO és látogatói statisztikákhoz hasznos.

📌 Főbb funkciók:
✅ Grafikus felület
✅ IP, böngésző, operációs rendszer statisztikák
✅ Botok és keresőmotorok aktivitásának követése

⚠️ Hátrányok:
❌ Lassú nagy fájlok esetén
❌ Nehézkes konfiguráció

📌 Telepítés Linuxon:

---bash

sudo apt install awstats

📌 Példa Apache logok feldolgozására:

---bash

perl /usr/lib/cgi-bin/awstats.pl -config=www.example.com -update

3. Screaming Frog Log File Analyzer – SEO-specifikus naplóelemző

🔹 Leírás:

  • Kifejezetten SEO szakemberek számára fejlesztett naplófájl-elemző.
  • Googlebot látogatások, 404 hibák és átirányítások követésére ideális.
  • Részletes CSV export és vizuális riportok.

📌 Főbb funkciók:
✅ Googlebot és más keresőmotorok aktivitásának elemzése
✅ URL és HTTP státuszkód elemzés
✅ CSV exportálás és szegmentáció

⚠️ Hátrányok:
❌ Fizetős verzió (ingyenes csak 1000 sorig)
❌ Nem alkalmas nagyvállalati Big Data elemzésre

📌 Letöltés és használat:

  • Hivatalos oldal
  • A logfájlt be kell importálni, majd szűrni Googlebot vagy státuszkódok szerint.

4. ELK Stack (Elasticsearch, Logstash, Kibana) – Big Data log elemzés

🔹 Leírás:

  • Teljes körű log elemző rendszer nagy adatmennyiséghez.
  • Elasticsearch indexeli a log adatokat.
  • Logstash felel a logfájlok előfeldolgozásáért.
  • Kibana biztosítja a vizuális riportokat.

📌 Főbb funkciók:
✅ Skálázható, nagy volumenű logokhoz is alkalmas
✅ Valós idejű keresés és interaktív dashboardok
✅ Több forrásból (pl. szerver, IoT eszközök) képes adatokat összesíteni

⚠️ Hátrányok:
❌ Nagy erőforrásigényű
❌ Bonyolult telepítés és konfiguráció

📌 Telepítés Dockerrel:

----- bash

docker-compose up -d elasticsearch logstash kibana

📌 Példa Logstash konfigurációra Apache logokhoz:

---- bash

input { file { path => "/var/log/apache2/access.log" start_position => "beginning" } } output { elasticsearch { hosts => ["localhost:9200"] } }

5. Splunk – Professzionális SIEM és log elemző rendszer

🔹 Leírás:

  • Enterprise szintű naplóelemző, amelyet biztonsági és teljesítményfigyelésre is használnak.
  • Nagy mennyiségű logot képes kezelni valós időben.
  • Fejlett keresési és vizualizációs funkciókkal rendelkezik.

📌 Főbb funkciók:
✅ Fejlett keresés és szűrés
✅ Automatikus anomália észlelés
✅ Integrálható külső forrásokkal (SIEM, hálózati monitorozás)

⚠️ Hátrányok:
❌ Fizetős (az ingyenes verzió korlátozott)
❌ Nagy rendszerigény

📌 Telepítés Linuxon:

--- bash

wget -O splunk.tgz https://download.splunk.com/products/splunk/releases/latest/linux/splunk-latest.tgz tar -xvzf splunk.tgz ./splunk/bin/splunk start

Összegzés: Melyik eszközt válaszd?

EszközElőnyökHátrányokAjánlott használati esetek
GoAccessValós idejű, gyors, terminálon futNem skálázható nagy logokraGyors elemzés, kisebb oldalak
AWStatsGrafikus, botfigyelésNehézkes beállítás, lassúAlap webstatisztikák, SEO elemzés
Screaming Frog Log AnalyzerKifejezetten SEO célokra fejlesztveFizetős, korlátozott ingyenes verzióGooglebot és SEO audit
ELK StackNagy mennyiségű adat kezelése, vizuális dashboardokErőforrásigényes, bonyolult beállításBig Data log elemzés
SplunkFejlett keresés, SIEM integrációDrága, nagy rendszerigényBiztonsági és teljesítmény monitoring

Ha gyorsan szeretnél betekintést nyerni a naplókba, akkor GoAccess vagy AWStats a jó választás.
Ha SEO auditot végzel, akkor Screaming Frog az ideális.
Ha nagy mennyiségű adatot elemzel, akkor ELK Stack vagy Splunk ajánlott.




Megjegyzések