Oggi guardando Google Analytics (o meglio avvisato da un filtro personalizzato, lo stesso che spiego ai miei corsi SEO) mi sono accorto di avere degli strani referral (fake referral), ovvero sorgenti di traffico che arrivano da link su siti esterni, tipo:
share-buttons.xyz, traffic2cash.xyz, trafficgenius.xyz, rusexy.xyz, build-a-better-business.2your.site, build-audience.for-your.website, fakereferraltest.com, new-look.for-your.website, share-buttons.xyz, teedle.co, topseoservices.co, …
Siccome è un metodo di spam che conosco sono andato ad approfondire e – come da sospetto – sono visite a tempo zero e bounce rate 100%: assolutamente finte, chiamate Ghost Referral o Referral Spam.
Non solo: avevo il dubbio non esistessero nemmeno. Cosa vuol dire? Significa che:
- non esiste il link
- non esiste quel traffico nel server
Come ho fatto a verificare? Il mio host mette a disposizione i log e Urchin, cioè il padre di Google Analytics basato sui log. Se quelle visite fossero vere (per quanto generate da un bot) nei log o in Urchin dovrebbero esserci: invece non ci sono!
Quindi come fanno? Diciamo che in Google Analytics ci sono due metodi per effettuare i tracciamenti:
- via JS dal codice della pagina, o emulando di essere nella pagina (che richiama il Measurement Protocol)
- via Server tramite il Google Analytics Measurement Protocol
Per capire come fermare qualcosa che ti infastidisce, la prima cosa da fare è ragionare come lui, la seconda è emularlo. Fortunatamente qualche ricordo di programmazione ce l’ho ancora e Google è stato abbastanza generoso da fornire: documentazione, tool di test.
Il tool di test lo trovate qui:
https://ga-dev-tools.appspot.com/hit-builder/
Il risultato invece sono questi screenshot:
Fatto questo, per essere più sicuro ho chiesto al mio amico Filippo di Analytics Training un piccolo consulto e le risposte sono state:
No non puoi disabilitarlo, anche perché lo usa anche la libreria javascript. In realtà tutto universal analytics è basato su measurement protocol […]
L’unico filtro fattibile è il nomehost.
Effettivamente guardando in Google Analytics il traffico generato da quei figli-di-analytics, il campo “nome host” appare (not set), quindi si potrebbe procedere con il filtro proposto dallo stesso Filippo (personalizzando al massimo la RegExp), ovvero chiedere a Google Analytics di collezionare solo dati ove il nome host sia: il sito da tracciare, google cache, google translate.
Attenzione però: anche il nome host (document host) è uno dei campo del Measurement Protocol e dal mio test è scrivibilissimo!
Purtroppo, guarando i dati, non sono stato il solo in grado di farlo (che era indubbio, dato che sono inniorantissimo!), a me lo ha fatto anche rusexy.xyz:
In alternativa, potete andare a creare dei filtri in Google Analytics in cui andate a non considerare:
- accessi senza nome host
- accessi da referral specifici (una blacklist in regexp)
- (fate vobis)
Altra alternativa ancora: filtrarli diciamo postproduzione tramite i segmenti avanzati di GA.
Ultima alternativa? Usate un sistema di tracking diverso da Google Analytics, magari fatto in casa (scherzo!).
Grazie Filippo per le chiacchiere e grazie ai ragazzi che hanno contribuito alla discussione su Facebook relativamente a questo argomento (una volta si facevano su G+…).
L'articolo Google Analytics Finte Sorgenti: Ghost Referral sembra essere il primo su Merlinox's Blog.