WebRankInfo : la plus grande communauté francophone du référencement
Olivier Duffez
Créateur de WebRankInfo,
consultant en référencement
Si vous aussi le trafic indiqué dans votre compte Google Analytics est faussé par du spam (spam referral, ghost spam, etc.), alors ce dossier est pour vous : voici comment supprimer le spam Google Analytics !
Publié le . Auteur : Olivier Duffez
Déjà que ce n'est pas toujours simple de s'assurer que le marqueur de Google Analytics fonctionne correctement sur 100% des pages, si des spammeurs viennent fausser les données, ça devient compliqué…
N'avez-vous pas déjà remarqué du spam de ce type dans Google Analytics ? Ici c'est lifehacĸer.com :
(attention, il ne s'agit pas du vrai site lifehacker.com, il y a la lettre K qui change ; ça peut être pareil pour d'autres noms de domaines célèbres)
Des spammeurs se débrouillent pour apparaître dans un ou plusieurs rapports de Google Analytics, leur objectif étant que vous alliez ensuite sur leur site pour voir ce qu'il en est. Ce qui leur génère une visite de plus… éventuellement pour vous installer un virus ou autre logiciel malveillant. N'allez donc pas voir leur site !
Grâce à cet article, vous devriez être en mesure de supprimer une grosse partie de ce spam spécial Google Analytics 🙂
Vous n'avez qu'à suivre ces 3 étapes (et consulter les 3 bonus) :
Avant de commencer, j'ai tout de même un point important à aborder…
J'ai souvent lu des messages de personnes qui redoutent que le spam dans leur compte Google Analytics pénalise leur référencement. Certains craignent que leur taux de rebond soit faussé et que Google fasse descendre leur site dans les SERP.
C'est très simple : aucun impact.
Déjà, la plupart des techniques utilisées par les spammeurs leur permettent de spammer sans même venir sur votre site.
Mais surtout :
Pourquoi devriez-vous me croire ?
Bref, pas d'inquiétude pour l'impact SEO.
Par contre c'est très pénible d'avoir des statistiques faussées ! C'est pourquoi vous devez appliquer les conseils qui suivent.
Vous pouvez appliquer des blocages dans votre fichier .htaccess ou installer des plugins afin de bloquer certains referrers, mais ça ne règlera qu'un certain type de spam Analytics, et pas les autres.
En effet, ces spammeurs ne viennent même pas (pour la plupart) sur votre site ! Ils ne font qu'enregistrer des visites simulées, en les associant à votre identifiant Google Analytics sous la forme UA-XXXXX-YY.
Vous pouvez aussi tenter de bloquer certains crawlers, mais c'est un autre sujet (c'est utile pour soulager votre serveur, mais ça n'a plus de rapport direct avec cet article).
Dans les paramètres d'une propriété Google Analytics, rubrique "Informations de suivi", vous pouvez accéder à la "liste d'exclusion de sites référents" :
Attention à bien comprendre à quoi ça sert : les domaines listés ici n'apparaitront plus dans vos rapports en tant que sites référents (les visites concernées seront dans le trafic "direct").
Cette liste ne sert donc pas du tout à lutter contre le spam de referrer Analytics ! Il ne faut surtout pas l'utiliser pour ça, car non seulement cela ne retirera pas ce faux trafic de votre compte, mais surtout il sera encore plus dur à repérer avec des filtres.
Partagez l'info sur Twitter :
Que faut-il donc faire pour supprimer le spam ?
Avant de commencer les 3 étapes qui suivent, suivez impérativement ces 2 conseils :
N'appliquez jamais des filtres sur votre vue principale, car si vous vous trompez vous ne pourrez pas revenir en arrière, certaines données auront été irrémédiablement corrompues.
Si vous n'avez qu'une seule vue dans votre propriété Google Analytics, commencez donc par la "cloner". Allez dans ses propriétés et cliquez sur "Copier la vue". Renommez la vue historique avec un nom explicite et ne lui appliquez jamais aucun filtre. Ainsi vous aurez toujours sous la main une vue avec les données brutes, remontées directement par Google Analytics.
Avant d'appliquer les filtres indiqués ci-après, faites des tests sur une vue de test (créée elle aussi en copiant la vue principale). Au bout de quelques jours, quand vous serez certain que tout est OK, alors appliquez les filtres sur votre vue de travail.
C'est sans doute le filtre le plus efficace, donc le 1er à mettre en place. Il permet de contrer le ghost spam, c'est-à-dire les visites fantômes, des visites enregistrées dans Google Analytics sans qu'aucune visite n'ait été faite sur votre site. Vous ne voyez rien dans vos logs, car le spammeur a uniquement envoyé un "pixel" pour faire croire à Google Analytics qu'une visite a eu lieu, associée à votre code de suivi GA.
La particularité de ces fausses visites est que le hostname enregistré dans Google Analytics n'est pas bon. D'habitude il correspond à votre nom de domaine (incluant le sous-domaine), mais comme le spammeur ne le connait pas (le spam est fait uniquement sur le code de suivi), il n'est pas renseigné (ou bien correspond à n'importe quoi).
Pour créer le filtre, vous devez d'abord identifier tous les noms d'hôtes valides, c'est-à-dire tous les sites où vous avez configuré votre identifiant Google Analytics UA-XXXXX-YY. Chaque sous-domaine est un nom d'hôte spécifique, mais vous pouvez vous baser uniquement sur votre nom de domaine, s'il vous appartient (puisque tous les sous-domaines sont à vous également).
Allez dans "Audience > Technologie > Réseau" puis cliquez sur "Nom d'hôte" au-dessus du tableau, près de "Dimension principale" :
Ne vous faites pas avoir avec des noms de sites connus, même google.com : vous n'êtes pas censé avoir des pages hébergées dessus comportant votre code de suivi… Il y a quelques rares exceptions :
Par contre, si vous avez votre code de suivi sur un site tiers de paiement ou équivalent, il faut l'inclure dans les "bons" noms d'hôtes.
Ensuite, vous devez savoir quoi mettre comme règle pour le filtre :
Supposons que mon site soit monsite.com et que mon code de suivi soit également sur le site de ma banque mabanque.com. Dans ce cas, le filtre à indiquer est monsite.com|mabanque.com
Remarque : il serait plus juste d'échapper chaque point par donc ça donnerait monsite.com|mabanque.com mais dans la pratique il y a très peu de risques en mettant l'écriture simple.
Enfin, vous pouvez créer le filtre. Une fois sur votre vue de travail, cliquez en haut sur "Administration" puis dans la colonne "VUE" cliquez sur "Filtres" puis "Ajouter un filtre". Donnez-lui un nom comme "Filtrage noms d'hôtes". Il s'agit d'un filtre de type "Personnalisé", "Inclure", "Champ de filtrage = Nom d'hôte", "Règle de filtrage" = ce que vous avez identifié ci-dessus.
Validez en cliquant sur Enregistrer.
Partagez ça sur Twitter :
Les données ne seront filtrées dans cette vue qu'à partir de ce moment-là : ce n'est pas rétroactif… Pour compenser ce problème, regardez mes bonus en fin d'article.
Certains spammeurs déclenchent votre code de suivi en allant effectivement sur votre site (avec des crawlers), ce qui fait que dans ce cas le filtre basé sur le nom d'hôte ne les bloque pas. Sans compter que certains spammeurs bien motivés peuvent avoir identifié votre nom de domaine et générer une fausse visite avec le bon nom d'hôte.
Pour ceux-là c'est nettement plus compliqué car vous allez devoir constituer une liste exhaustive de filtres basés généralement sur leur nom.
D'autres spammeurs peuvent être identifiés par la langue. Vous avez peut-être remarqué en novembre 2016 des visites "exotiques" où la langue de l'internaute était "Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!". La raison est que l'écran par défaut dans Google Analytics fait apparaître les langues, si bien que le message était très visible pendant les élections US !
Concrètement, vous allez ajouter des filtres du type "Exclusion" pour exclure tout un tas de cas de figure. Etant donné que Google Analytics limite le nombre de caractères que l'on peut saisir dans une case du formulaire, vous devrez sans doute appliquer plusieurs filtres. Ceci ne pose pas de problème, ils s'accumulent dans la vue où ils sont appliqués.
Comme expliqué ici en anglais, basez-vous sur la source de la campagne plutôt que sur l'URL du site référent. Séparez chaque nom par le signe | comme pour le filtre précédent. Voici des exemples de filtres (issus du même article en anglais) :
Spam Crawlers 1 : exclure quand la source de la campagne correspond à
anticrawler|best-seo-offer|best-seo-solution|buttons-for-website|buttons-for-your-website|7makemoneyonline|-musicas*-gratis|kambasoft|savetubevideo|ranksonic|medispainstitute|offers.bycontext|100dollars-seo|sitevaluation|dailyrank
Spam Crawlers 2 : exclure quand la source de la campagne correspond à
videos-for-your-business|success-seo|rankscanner|doktoronline.no|adviceforum.info|video--production|sharemyfile.ru|seo-platform|justprofit.xyz|127.0.0.1|nexus.search-helper.ru|rankings-analytics.com|dbutton.net|o00.in|wordpress-crew.net
Spam Crawlers 3 : exclure quand la source de la campagne correspond à
fast-wordpress-start.com|top1-seo-service.com|^scripted.com|uptimechecker.com|uptimebot.net|rankings-analytics.com|^uptime.com|.responsive-test.net|dogsrun.net|free-video-tool.com|keywords-monitoring(-your)?-success.com|a.pr-cy.ru
Spam Crawlers 4 : exclure quand la source de la campagne correspond à
fix-website-errors.com|seo-2-0.com|platezhka.net|timer4web.com|1-99seo.com|1-free-share-buttons.com|uptime-alpha.net|3-letter-domains.net|datract.com|lifehacĸer.com

Spam Crawlers 5 : exclure quand Paramètres de langue correspond à
.
Pour ce filtre sur la langue, j'ai aussi trouvé sur le net l'expression suivante plus précise :
s[^s]*s|.{15,}|.|,|^c$
Partagez ça à vos contacts :
Enfin, dernière action à faire, la plus simple mais pas forcément la plus efficace : activer le "filtrage des robots".
Dans l'administration, allez dans votre vue de travail et cliquez sur "Paramètres de la vue" et cochez la case "Exclure tous les appels provenant de robots connus" :
L'avantage des filtres que je vous ai décrits, c'est qu'une fois appliqués à une vue, on n'a plus besoin de s'en soucier : tous les rapports que l'on consulte ont déjà été filtrés. Mais l'inconvénient est que ce n'est pas rétroactif.
Il existe une solution : pour éliminer le spam y compris sur des périodes passées, il faut utiliser des segments.
Vous pouvez créer des segments pour gérer les mêmes filtrages que ceux que j'ai décrits. Si vous souhaitez de l'aide, partez de ce segment et adaptez selon vos besoins. Cliquez sur "Importer" pour l'ajouter à votre compte Google Analytics.
Une partie du spam Analytics utilise des identifiants de propriétés Analytics sous la forme UA-XXXXX-1. Le nombre à la fin représente le n° de la propriété pour le compte Analytics XXXXX. Par défaut, il n'y a qu'une seule propriété Analytics, mais si vous en créez une seconde, elle aura logiquement un identifiant de la forme UA-XXXXX-2.
Vous l'avez deviné, si vous utilisez une autre propriété que la 1, vous diminuez (un peu) le risque d'être spammé.
Si vous utilisez Google Analytics depuis longtemps sur votre site avec une propriété #1, vous ne pouvez pas faire grand chose. Mais pour un nouveau site, au lieu d'utiliser la propriété #1, créez-en une autre et utilisez la #2, vous réduirez les risques d'avoir du spam dans vos stats Analytics.
Si tout ça est trop compliqué, ou que vous pensez que cela vous prend trop de temps, Mike Sullivan vous propose pour quelques dizaines de dollars par an de tout gérer à votre place. Je ne gagne rien à lui faire ce lien, à part le remercier pour son expertise et ses articles sur le sujet.
Si vous m'avez lu jusqu'ici, bravo ! J'espère que vous aurez apprécié cet article et surtout que je vous aurai aidé à ne plus avoir de problèmes de spam dans Google Analytics. Partagez si possible votre expérience dans les commentaires !
Cet article vous a-t-il plu ?
34 commentaires
Bonjour
Je remonte un peu ce sujet qui date mais comment fait-on pour exclure un SPAM qui vient du trafic direct ? En effet, j'ai une pointe de plus de 100 visites sur un jour donné à 21H enregistré dans mon trafic direct. Comment faire ?
Merci !
Bonjour
Il faudrait en savoir plus sur ce qui caractérise ces visites spam, afin de les filtrer. Ces commentaires n'étant pas l'endroit le plus approprié, ça serait super si vous pouviez créer une nouvelle discussion dans le forum Analytics. Merci d'avance.
Je constate également ce problème depuis quelques jours, mais mes pages sont crawlées et ça génère même des revenus Adsense.
Ca vient de la cote Est des Usa,
Le problème est assez grave dans mon cas.
J'en parle ici : https://www.webrankinfo.com/forum/t/spam-crawl-depuis-les-usa.192467/ et je cherche toujours une solution 🙁
@REG77 j'ai constaté également cela sur certain sites avec des volumes plus important et des villes différentes, c'est par paquet de 50 à 60 visites avec 98% de taux de rebond, je suis à la recherche d'une solution après les filtres antispam et les vues créées antispam, ça commence à faire beaucoup de travail rien que pour avoir une vue des stats à peu près correcte.
Bonjour,
Depuis une semaine j'ai une nouvelle forme(me concernant) de spamming.
Ils ne proviennent pas de site référents mais en "direct". Par paquets de 13 ou 15 . Provenance Us(santa Clara principalement) ou Canada(ontario).
Impossible à filtrer.
Avez vous eu connaissance de ce genre de visite?
Cordialement
Pour ma part pas d'info à ce sujet, mais ça ne veut pas dire que ce n'est pas du spam. Comment savez-vous qu'il s'agit de spam ?
le nom d'hôte est bon ? le navigateur, l'IP, la langue ?
Mouais, toutes ces actions me paraissent bien vaines.
On passe notre temps à faire des correctifs et le ménage.
Pour moi le problème de base se situe chez Google qui finalement est incapable de fournir un outil fiable et fiabilisé. Ils mettent des milliards pour faire une voiture autonome (qui sera hackée) et ils ne sont pas foutus de fournir un outil d'analyse fiabilisé.
C'est à Google de faire en sorte que ces connards de spammers et autres vérolés ne viennent mettre la pagaille dans notre travail.
c'est vrai qu'on se demande pourquoi tout ça n'est pas réglé en amont par Google Analytics directement.
mais étant donné que ce n'est pas fait, à moins d'utiliser un autre outil il me semble indispensable de mettre en place ces filtres pour lutter contre les spammeurs
Très bon tuto, concis et pratique
Merci
Pour ma part j'utilise souvent les listes régulièrement mises à jour que Stevie Ray met à disposition sur github (fil referrer-spam-blocker )
Revenant sur le commentaire de wedz, je me demande si Google fait le ménage lorsque l'on passe en contrat pro/entreprise ?
[email protected]
je suis effaré du fait que Google n’intervienne pas…
ils pourraient régler la question et éviter de faire perdre du temps a des milliers d'utilisateurs.
merci pour ces conseilles
en effet, on se demande pourquoi tout n'est pas géré en amont par Google Analytics
Depuis plus d'un an, on applique la technique du filtrage, mais j'ai encore passé 30min à mettre à jour les filtres la semaine dernière. Par contre, pas via des campagnes, mais via des Referer (vu que c'est avant tout du spam de referer). Ceci dit, il y a aussi du spam d'evenement, faut juste adapter le filtre.
J'en suis à envisager la technique de Nicolas et Dalton, en complément.
D'un côté, je suis rassuré de voir que je ne suis pas le seul, mais déçu qu'il n'y ait pas de solution ultime.
Je me note le coup du -2 pour les nouveaux sites, ça peut pas faire de mal…
Merci pour cet article très intéressant (comme d'hab). Je me permets cependant de vous poser une question.
Depuis des années, j'exclus ce type de spam en allant simplement dans "liste d'exclusion de sites référents" (qui se trouve dans le menu .JS "informations de suivi" dans "propriété".
Si je comprends bien, cette méthode ne serait pas assez efficace car les bots ne viennent pas forcement sur le site ? Car de mon coté, une fois cette manipulation faite, le site référant n'apparait plus apparemment. merci, bonne soirée
@Roger : j'ai mis à jour mon article pour expliquer pourquoi c'est une très mauvaise idée 🙁
On peut aussi bloquer des referers dans htaccess comme je l'explique à http://vt.cx/htacss
OK Dalton, ça peut servir, mais ça ne règle qu'une partie du pb (ça ne règle pas le pb des faux referrers)
J'utilise personellement cet outil : https://www.saystoptospam.org/
Merci Neoxys, je ne connaissais pas. Si j'ai bien compris, ça permet de lister des spammeurs, mais ensuite il ne faut pas oublier d'ajouter les filtres pour les bloquer.
Autre chose,
Dans les sources de campagnes il s'agit bien de "sources" dans "sites référents", car dans "campagnes", rien de mon côté.
Merci pour cet article.
Au sujet des noms d'hôtes, Quid de Youtube ? Je ne sais pas comment interprété les données de visites de Youtube ici ?
Dans l'article d'analayticsedge ils les considèrent comme OK
Ils indiquent que youtube est OK car ils ont mis leur code de suivi sur une page de youtube.com, mais sinon il n'y a pas de raison de l'inclure dans les noms d'hôtes acceptés.
De mon coté après avoir essayé tout un tas de choses de ce type, et étant vite dépassée par mon manque de connaissances techniques, je me suis rabattue sur cet outil en ligne (gratuit pour l'instant) :
https://referrerspamblocker.com/
Je mets à jours mes filtres 2 fois par semaine et j'ai des stat à peu près correctes (mais bon, pour un spammer filtré, 10 nouveaux arrivent…)
Je suis également tombée sur cet outil, à tester : https://www.adwordsrobot.com/en/tools/ga-referrer-spam-killer
Votre avis sur ces solutions ?
Pour ma part, je n'ai pas envie de laisser un tiers ajouter directement des filtres dans mon compte Analytics…
Merci pour l'information sur les segments Olivier, j'ai pu "sauver" mes stats du mois de Novembre.
A noter que pour utiliser un segment via l'API, il faut au préalable partager le segment avec tous les utilisateurs, un segment étant par défaut visible uniquement pour l'utilisateur qui l'a créé (cf http://www.periscopix.co.uk/blog/google-analytics-new-feature-shared-segments/ )
Merci pour cet article ! Pareil, trois belles journées de SPAM… Cet article tombait à pic 🙂
Bonjour,
Merci pour cet article. Je pense qu'il est quand même intéressant de bloquer les spams referers à la base avec un script.
Le script en php que j'ai développé en bloque quelques uns chaque jour. Au moins ceux qui sont bloqués à la base ne pollueront pas les stats (quel que soit l'outil de stats utilisé) et ne consommeront pas de ressources serveurs inutiles.
Comme cela a été indiqué dans l'article la plupart des spams referers appellent directement le script .js de GA dans ce cas le script n'a pas d'utilité.
Piwik propose un script shell (linux) à insérer dans un cron journalier pour actualiser un fichier texte contenant les spammers (domaines). Le script actualise aussi un fichier de configuration Nginx qui bloque les spammers à la source.
Bien entendu le script fonctionne même si vous n'utilisez pas Piwik.
Le gain en ressources serveurs n'est pas à négliger je pense.
Cela vous permettra aussi d'avoir des logs d'accès moins pollués.
Après pour avoir des stats GA totalement propres il faut utiliser la méthode d'Olivier.
Merci Nicolas pour cette info, très intéressant !
Merci pour ce tutoriel très complet sur le sujet du spam dans Google Analytics. Je vois sur mon site un nom d'hôte suspect http://www.monsite.com.googleweblight.com . Est-ce que le fait d'inclure monsite.com dans la règle de filtrage ne va pas faire passer cette URL entre les mailles du filet ?
@Jean-Baptiste : j'ai complété mon article pour expliquer que ce n'est pas suspect, c'est un outil proposé par Google
Merci pour cet article intéressant !
Personnellement j'utilise les segments et la case à cocher pour filtrer les robots connus.
Je sais qu'il existe aussi des segments pré-configurés sur la galerie de GA, mais j'en avait essayé un qui me virait tout le trafic !
L'avantage des segments c'est que ça ne supprime aucune donnée et qu'on peut les utiliser sur n'importe quel rapport assez simplement. Personnellement j'ai 16 sites à suivre et si je dois pour chacun créer un rapport filtré et les tenir à jours, car malheureusement de nouvelles sources de spams arrivent chaque jour, je ne m'en sort plus !
Alors qu'avec les segments je n'ai qu'à appliquer le segment au rapport en cours de lecture et lorsque je découvre des nouveaux spams je les ajoute au segment.
Si jamais ça intéresse quelqu'un, voici le segment que j'utilise : https://analytics.google.com/analytics/web/template?uid=Qi7A2EzRTJut25rVd4stng
Il n'est évidemment par exhaustif, malheureusement. Je laisse le soin à Olivier Duffez de rassurer les lecteurs sur l'efficacité (ou pas) de ce segment s'il le souhaite.
@Richard : l'inconvénient des segments, c'est qu'il faut penser à les activer, et que ça génère de l'échantillonnage
Beaucoup de spam depuis le fournisseur de service "server axis corporation"
Surement du spam provenant de webcams piratées.
Merci Nicolas pour l'info. Tu le repères par quel filtre ?
Bonjour cher Olivier,
C'est vrai que les Spams font ravages chez GA surtout ces derniers temps, je ne sais pas s'ils ont laissés les animaux du Zoo sortir de leur cage 😉 Du coup, on a vraiment besoin d'un article comme celui-ci. Je connaissais les filtres GA que j'utilise pour chacun de mes sites par contre c'est assez nouveau pour moi le "filtrage de robots" donc merci pour ce tuyau.
Les commentaires sont fermés
Inscription à la newsletter
Catégories
Consulting SEO
Envie d'améliorer votre référencement ?
Consultant SEO depuis 2003, j'ai une très grande expérience en audit et consulting. Que ce soit pour une demande ponctuelle, pour un audit ou du long terme, je peux vous aider.
WebRankInfo / Tous droits réservés 2022 – Mentions légalesMe contacter

source

Catégorisé:

Étiqueté dans :