WebRankInfo : la plus grande communauté francophone du référencement
Olivier Duffez
Créateur de WebRankInfo,
consultant en référencement
Les problèmes liés aux contenus dupliqués (duplicate content ou DC) figurent désormais parmi les sujets les plus fréquemment discutés sur les forums de référencement comme WebRankInfo. Et pour cause : les moteurs de recherche luttent de plus en plus activement contre les contenus dupliqués. Google a notamment un filtre de détection de contenu dupliqué qui dans certains cas peut faire chuter de 95% le trafic généré vers un site. Ce tutoriel passe tout en revue pour vous aider à mieux comprendre ce qui se passe et mettre en oeuvre des solutions.
Publié le . Auteur : Olivier Duffez
Article mis à jour le 23/08/2014, publié initialement le 22/03/2010
Sommaire :
On parle de contenu dupliqué dès lors qu'un même contenu (indexable par les moteurs) est trouvable à plusieurs endroits sur le web. L'adresse de ces contenus étant l'URL, on parle de contenu dupliqué dès lors qu'un même contenu est accessible à plusieurs URL.
Précision : tout compte dans l'URL, même ce qui suit le point d'interrogation ? et même l'ordre des paramètres. La seule exception concerne le signe # : tout ce qui suit le signe # est exclu. En effet ce qui est derrière le # est considéré comme un fragment, c'est-à-dire le nom d'une ancre interne de la page. On l'utilise normalement pour pointer à un endroit précis d'une page. Si besoin, consultez mon guide du vocabulaire des URL pour le référencement.
La définition officielle de Google est la suivante (source) :
Duplicate content generally refers to substantive blocks of content within or across domains that either completely match other content or are appreciably similar
En gros, Google considère qu'il s'agit de blocs "substantiels" de contenus qui sont soit strictement identiques soit sensiblement similaires à des contenus situés sur le même (nom de) domaine ou sur d'autres domaines.
Si vous souhaitez mieux comprendre dans les détails pourquoi le duplicate content pose problème (à la fois aux moteurs et aux webmasters), je vous encourage à lire mon premier dossier sur le duplicate content. Vous y apprendrez notamment quelles sont les causes les plus répandues et quelles sont les solutions.
Pour ceux qui souhaitent des explications plus détaillées et des réponses personnalisées en fonction de leur cas, je vous propose d'assister à mes formations Ranking Metrics, on parle en détails de l'importance des contenus dupliqués dans le référencement.
Pour ceux qui ont déjà lu mon précédent dossier, je vous propose d'aller plus loin. Dans la suite de ce dossier, je considère donc que vous avez corrigé toutes les erreurs classiques de contenus dupliqués (en général internes mais pas seulement).
Un petit exemple de SERP avec plein de contenus dupliqués, juste pour la route :
Google a obtenu un brevet intitulé "Duplicate document detection in a web crawler system". En voici un très court résumé (source) :
Ce brevet introduit le concept du DupServer, un serveur dédié à l'analyse du contenu dupliqué.
Quand le crawler récupère une page web, il demande au DupServer de vérifier si son contenu n'est pas déjà connu. Dans ce cas, le système décide quelle page doit être considérée comme la version canonique (celle qui sera conservée).
Pour détecter les contenus dupliqués, le système calcule des empreintes pour chaque document (fingerprints). Pour des raisons de performance, il les enregistre de manière compressée dans une base de données. Un algorithme permet de comparer deux documents en comparant simplement les empreintes.
D'après le brevet, cette analyse comparative est effectuée de façon indépendante des requêtes. Autrement dit, si le système estime qu'une page B est un doublon d'une page A, la page B risque d'être filtrée dans les résultats quelle que soit la requête.
Pour en savoir un peu plus sur les traitements imaginés par les ingénieurs de Google, il faut lire les articles publiés par ces chercheurs. J'ai par exemple lu la description de SimHash ("SimHash: Hash-based Similarity Detection" à lire ici au format PDF).
J'ai également étudié l'article de la célèbre Monika Henzinger (de Google) publié en 2006 en collaboration avec l'Ecole Fédérale de Lausanne : "Finding Near-Duplicate Web Pages: A Large-Scale Evaluation of Algorithms" disponible ici au format PDF. Elle détaille sa comparaison des performances de plusieurs algorithmes dans le cas d'une grosse base de documents (1,6 milliard).
Pour ceux qui veulent aller plus loin, je vous ai déniché le meilleur article : il fournit une comparaison quasi exhaustive des algorithmes de détection de contenus dupliqués (assez récent puisqu'il date de 2009). Il s'agit de l'article "Duplicate and Near Duplicate Documents Detection: A Review" de J. Prasanna Kumar et P. Govindarajulu.
J'ai sélectionné un de ces articles pour vous le détailler ici. Il s'agit d'un article publié par 2 chercheurs de Google et un chercheur de l'université de Stanford (ce dernier ayant également travaillé pour Google). Il est intitulé "Detecting Near-Duplicates for Web Crawling" (à lire ici au format PDF) et fut publié en Mai 2007 par Gurmeet Singh Manku (Google), Arvind Jain (Google) et Anish Das Sarma (Université de Stanford et Google).
L'article consiste en une présentation d'algorithmes compatibles avec la recherche de contenus dupliqués sur une base de centaines de millions de documents (ou plus). L'objectif est précisément de détecter les contenus trop similaires (near duplicate content) afin d'exclure les pages concernées et de ne pas tenir compte des liens sortants situés sur ces pages (!). En pratique les pages considérées comme des contenus dupliqués ne sont pas forcément exclues (cela dépend d'autres critères) mais elles sont en quelque sorte pénalisées puisque leur positionnement dans Google risque de se dégrader. En outre, Google diminuera sa fréquence de crawl sur ces pages.
L'algorithme SimHash de Moses Charikar (publié dès 2002 sous l'intitulé "Similarity estimation techniques from rounding algorithms") semble approprié aux chercheurs de Google pour le cas qui les intéresse. Ils ont par exemple vérifié pour une base de 8 milliards de documents, les empreintes SimHash stockées sur 64 bits diffèrent seulement de 3 bits.
Pour que l'algorithme de détection de contenus dupliqués soit efficace, il faut en effet que les signatures de documents (empreintes) diffèrent de seulement quelques positions (bits). Les chercheurs présentent différents algorithmes pour résoudre le problème de la distance de Hamming.
Le calcul d'empreintes de SimHash :
Entre 2004 et 2005, Monika Henzinger (ingénieur chez Google) a comparé SimHash avec l'algorithme de Broder ("Syntactic clustering of the web"). SimHash a été retenu en raison de sa capacité à stocker les empreintes sur un faible nombre de bits. A la différence des algorithmes classiques de hashage (SHA-1 ou MD5), les empreintes SimHash de 2 documents similaires seront elles-mêmes similaires. Les algorithmes exploitant SimHash doivent donc en tenir compte.
L'objectif est de déterminer si un nouveau document est similaire à d'autres documents déjà analysés. Pour cela on cherche ceux dont l'empreinte diffère de celle du nouveau document de k bits au maximum (k=3 par exemple). En résumé, la solution retenue par les chercheurs est de précalculer des tables qui facilitent les comparaisons d'empreintes.
Concrètement chez Google, le système utilise le framework MapReduce sur une infrastructure GFS (c'est le système de fichiers maison de Google).
Aussi intéressants soient-ils, ces articles ne nous fournissent malheureusement pas vraiment d'explications précises sur la façon de détecter les contenus dupliqués. On se rend bien compte des éléments que les ingénieurs sont susceptibles d'analyser ainsi que les conséquences que cela peut avoir en termes de visibilité dans Google.
C'est pourquoi pour aller plus loin, seuls des retours d'expérience peuvent nous aider… Juste avant cela, passons en revue quelques outils.
Voici quelques uns des outils disponibles en ligne pour détecter les contenus dupliqués (et les plagiats).
Version gratuite limitée à 10 résultats par recherche (et nb de recherches limité). La version premium offre plus de fonctionnalités de recherche. Elle inclut également une API.
Outil très simple qui affiche les résultats d'une recherche Google d'un texte
Calcule la similarité entre deux pages (comme mon outil basique disponible depuis des années sur WRI).
Pour aller un cran plus loin dans l'analyse du filtre DC de Google, j'ai pris l'initiative de contacter quelques membres de WebRankInfo qui s'étaient déjà exprimés plusieurs fois sur la question en fournissant des conseils issus de leur expérience. Je leur ai posé les mêmes questions et vous fournis ici leurs réponses, accompagnées de mon humble avis. Je les remercie donc d'avoir pris un peu de leur temps et surtout d'avoir partagé leurs connaissances avec la communauté WRI. Voici ces contributeurs, classés par ordre d'ancienneté sur le site :
J'ai ajouté mon point de vue sous le nom "Olivier" (les 5 intervenants n'avaient pas eu accès à mon point de vue pour répondre). Voici donc la FAQ sur le filtre Contenus Dupliqués de Google :
Comment faut-il définir le contenu dupliqué ?
Inutile de polémiquer sur les termes ! Voici une bonne explication de Denis issue du forum :
Le filtre est un effet algorithmique découlant de différents facteurs qui sont annoncés ou non (à présent, le Duplicate Content est clairement annoncé comme étant un facteur risque). Exemple : la SandBox
La pénalité est la conséquence d'une décision, qui peut découler d'une analyse (humaine) déclenchée par un certain nombre de critères (ie: voisinage, risque link spam (cf. actualité récente), etc.). Exemple : la Black List. Depuis 2013, Google révèle au webmaster la liste des pénalités manuelles qui lui sont éventuellement infligées, via Google Search Console.
NB: Comme le précise L.Jee, "pénalité" ou "filtre" : le résultat est le même dans le cas du duplicate content…
Quand le référencement d'un site est dégradé par Google à cause du contenu dupliqué, comment cela se traduit-il (baisse de positionnement, crawl ralenti, désindexation partielle ou totale, autres) ?
Note : pour éviter de polémiquer sur le vocabulaire, j'ai utilisé autre chose que "filtré" et "pénalisé" (cf. remarque précédente).
Quand un site en est victime, ou une partie d'un site, toutes les pages sont-elles concernées ou bien seulement celles qui ont été précisément identifiées par Google comme étant en DC ? Comment savoir à coup sûr si une page est victime de DC ? Cela dépend-il de la requête ?
Comment savoir si le DC est interne ou externe ?
Quand une rubrique d'un site est filtrée pour cause de DC, une solution qui semble fonctionner est de réécrire un par un chaque contenu afin qu'il soit unique (ex: descriptions de produits sur un site marchand, descriptions de sites dans un annuaire).
Quel outil faut-il utiliser pour mesurer le taux de similarité du contenu réécrit avec ce qui existe ailleurs sur le web ? Autrement dit, comment faire concrètement pour vérifier qu'on ne risque plus d'être considéré comme un contenu dupliqué ? Cela suffit-il de chercher dans Google des extraits du texte à analyser (en mettant des guillemets) ? Si oui, faut-il tester plusieurs extraits ou un seul suffit ? Quelle taille (nb de mots) utiliser pour ces extraits ?
Donc, même si on ne peut pas le mesurer, je pense avoir un bon indice de confiance au regard de Google. De plus, le domaine est exploité depuis 1999 ce qui représente 11 ans d'ancienneté. Peut-être que tous ces élements externes me permette de ne pas être filtré.
De manière un peu plus "philosophique", admettons que pour une recherche, Google ait à choisir parmi une dizaine de pages strictement identiques mais qu'il ne veuille en ressortir qu'une seule à l'internaute. Essayons de nous mettre à sa place pour faire ce choix :
Combien de temps faut-il attendre pour que Google supprime éventuellement son filtre ? Quand une page anciennement filtrée est recrawlée par Google, sort-elle du filtre immédiatement si son contenu est considéré unique ? Ou bien faut-il attendre que 100% des pages filtrées aient été corrigées (contenu réécrit) et recrawlées par Google ? Est-ce conseillé de remplir une demande de réexamen (dans Google Search Console) ou bien vaut-il mieux éviter ?
Edit : depuis la publication de cet article (mars 2010), il n'est plus possible de demander un réexamen si aucune pénalité manuelle n'est appliquée au site. Etant donné que les problèmes de contenus dupliqués sont exclusivement algorithmiques, cette question n'a aujourd'hui plus de raison d'être.
On a beaucoup parlé ces derniers mois du duplicate content dans le cas des annuaires : il est désormais très courant d'avoir à la fois des pages de catégories et des pages décrivant chaque site inscrit. Quand l'annuaire est victime du filtre Google de DC, est-ce l'ensemble de l'annuaire qui est généralement touché ou bien seulement un type de pages (catégories, sites) ? Et quand on réécrit les contenus (nom et description de chaque site), est-ce que les 2 types de pages sortent du filtre ou bien seulement l'un des deux ?
On sait bien qu'il peut y avoir des cas de contenus dupliqués internes : il s'agit en général d'erreurs techniques sur le site qui font que certains contenus sont accessibles à plusieurs URL. Mais il peut aussi y avoir des contenus presque dupliqués (near-duplicate content) : il s'agit de pages ayant un contenu réellement différent mais se ressemblant malgré tout.
Est-ce possible que le filtre de Google sur le contenu dupliqué s'applique aussi à des contenus presque dupliqués internes ?
Dans ce cas comment l'identifier et que faut-il faire pour s'en sortir ?
En pratique, les choses ne sont jamais toujours les mêmes : il peut y avoir des sites avec peu de contenus dupliqués qui semblent filtrés, tandis que d'autres en ont beaucoup mais ne semblent pas filtrés. Comment est-ce possible ?
Premièrement, je pense que ce filtre se déclenche à partir d'un certain seuil : tant qu'on n'a pas atteint une certaine "dose" de contenus dupliqués, on échappe au filtre. Cette dose est-elle mesurée en nombre de pages, en proportion de pages ou autre chose ?
Deuxièmement, tous les sites ne sont pas égaux devant ce filtre. Il apparait que dans les cas suivants on réussit mieux à y échapper :
N'hésitez pas à donner vos commentaires notamment pour cette partie de l'article…
Félicitations, vous avez réussi à lire tout ce dossier ! J'espère qu'il vous aura plu et surtout qu'il vous aidera à trouver des solutions (ou à mettre en place des actions de prévention des risques). Nous discutons de ce dossier sur le filtre Duplicate Content de Google dans le forum.
Sachez aussi qu'il y a une discussion spécifique dans le forum pour obtenir de l'aide pour résoudre vos problèmes de contenus dupliqués.
Cet article vous a-t-il plu ?
42 commentaires
C'est effectivement très difficile de définir un seuil comme de définir à quel point un article est dupliqué en particulier lorsque les marketeurs utilisent les mêmes recettes pour les titres comme par exemple "les 13 tendances à suivre en seo pour 2019'. Je suis convaincu que l'on va trouver un grand nombre d'articles sur les tendances.
Bonjour Olivier,
merci pour ce bon dossier!
ma question c'est comment échapper pour les sites streaming qui sont souvent a des descriptions du films identiques
A bientot!
@Salah : c'est pas évident mais peut-être pris en compte par Google. Il faut apporter d'autre contenu que le synopsis du film.
Copyscape est la meilleure façon de detecter les contenus en doublon sur le web ça vous évite d'avoir des phrases et des textes non indexés surtout dans Google.
Bonjour,
Petite question à laquelle je n'arrive pas à trouver de réponse…
Peut-on considérer une page dupliquée si elle est accessible via : http://www.domaine.com/texte1 et http://www.domaine.com/texte1?
(souci rencontré après une réécriture). Pour moi, j'ai bêtement deux pages différentes mais est-ce que le  ?" est vraiment différenciateur ?
Merci pour votre aide !
Oui Lucile, théoriquement l'URL avec le signe ? à la fin est différente de l'autre, il faudrait éviter de générer cette autre URL.
Le mieux pour nettoyer, c'est une redirection 301 et si c'est trop compliqué, il faut définir une URL canonique
MERCI D AVOIR REPONDRE A MA QUESTION POUR LES OUTILS J AI DEJA TROUVE LA PAGE COPYSCAPE
MERCI POUR VOTRE SOUTIEN MR OLIVIER DUFFEZ
@espaceampouleled Une des solutions serait de réecrire ton textes de présentation de produits, afin de proposer un contenu unique sur la toile, je pense que Google va apprécier…
Sinon, je cherchais des informations sur le duplicate content, j'ai relu cet article et je me posait une question …
Est ce qu'on peu parler de duplicate content si on utilise des images déjà présentes sur le web ?
Cet article date un peu, mais je pense avoir fait la boulette de m'inscrire sur les comparateurs, ceux ci ont récupéré mon flux et quelques jours plus tard j'ai perdu de précieuses places sur google, savez vous comment faire pour limiter le contenu dupliqué ?
bonjour
je suis actuellement en train d apprendre que pour etre indexe par les moteurs de recherche dont principalement google bing et yahoo mon contenu doit etre unique mais je voulez savoir s il ya un un logiciel gratuit pour verifier si le contenu d un site est duplique ou non
merci
@ CreationOptimisation : si tu l'as rédigé toi-même, il devrait être unique n'est-ce pas ? sinon, il y a forcément un risque en effet. Mon dossier liste quelques outils.
Bonjour,
La dé-classification d'un site faite par Google, qui considère qu'il y a DC, est-elle selon vous définitive ou y a t-il ré-examen à fréquence régulière du site ?
régulière je pense, après faut voir si c'est couplé avec Panda
Ok, merci pour votre aide.
Oui, il est revenu sur mes pages, et les pages du copieur également. Les pages du site copieur n'ont pas été désindexé, à dire vrai, les textes volés ont été modifié et c'est tout. Il reste encore quelques similitudes avec mes textes mais ne sont plus identique. Faut-il que je demande la suppression total des textes ? J'ai perdu 80 % de mes visites. Mon site est remonté de la page 4 à la page 2, puis plus rien, ça ne bouge plus. Merci
@Nat : il peut y avoir d'autres raisons. Le plus efficace serait de créer une discussion dans le forum (en + il y aurait + d'aide qu'ici)
Bonjour,
Un site a copié la quasi totalité de mes textes (intro, cgv, livraison…) il y a 2 mois maintenant et j'ai subi une perte de position de page 1 à 4. Les textes copiés ont été retiré mais je n'ai pas retrouvé mes positions d'avant. Dois-je modifier également mes textes pour sortir de la pénalité. Merci pour vos conseils.
@Nat : Est-ce que Google est revenu crawler tes pages ? Et les pages du copieur ont-elles été désindexées de Google ?
Salut ,
une page de mon site a été pénalisé par Panda et cela suite au Duplicate Content .
En effet Ma page X est positionné première sur les résultats de recherche pour un certain mot clé Y , mais à partir du jeudi dernier , elle ne s'affiche plus dans les résultats de Google pour le mot clé Y
En utilisant un outil de Détection du Duplicate Content (positeo) , je découvre que la page qui a pris la première position est un contenu double de mon article et pire c'est un copier coller à 100% (même le nom de domaine de mon site est affiché dans son contenu !!!)
comment je dois procéder , est-ce qu'il y a un outil pour alerter google de cette erreur .
Merci d'avance
@Sebastien : ce n'est pas Google qu'il faut prévenir… Il faut demander au copieur de supprimer la page en faisant valoir vos droits d'auteur.
merci pour cet article
mais bon il est rassurant et en même temps inquietant.
Chacun donne son avis et sa propre expérience mais on ne sait toujours pas quelle est la vraie réalité de google sur le DC.
Hello
Super article, Bravo.
Une question bete: comment google traite il le contenu des agences de presses, reuters ou AP, qui distribue leur news à toute une série de site web.. LEs URLS sont surement différent (car géré par chaque site) amis le contenu – en intégralité – est le même… Est- ce que tous les clients de reuters sont pénalisés ?
Merci de vos lumières
Clément
@Clément : les sites qui exploitent un contenu acheté à une agence de presse sont eux aussi confrontés aux problèmes de contenus dupliqués. Parfois ils s'en sortent grâce à leur notoriété, ou par un mélange avec leurs propres contenus.
Bonjour,
je viens de faire un test est j'ai trouvé une duplication d'une de mes pages sur un site.
environ un paragraphe complet qui me gêne fortement.
Comment dénoncer cette abus et à qui pour le faire retirer?
Merci
Il faut contacter le site qui a reproduit ce texte et lui demander de le retirer.
Est-il exact qu'en modifiant le premier et le dernier paragraphe d'une article copié, la nouvelle page ne sera pas considérée comme étant un contenu dupliqué ? Merci
Non c'est faux, Google pourra le détecter facilement. En tout cas c'est n'est pas ce que je conseillerais.
Merci pour cet excellent article 🙂
C'est vrai .. Google a notamment un filtre de détection de contenu dupliqué qui dans certains cas peut faire chuter de 95% le trafic généré vers un site.
Salut, juste un mot pour signaler cet autre outil sympa de détection du DC
Excellent article, félicitations pour cette mine d'information sur le contenu dupliqué et tous ces témoignages !
J'ai connu cette situation et il est très intéressant pour moi d'avoir ces informations sous la main.
La détection du DC est en effet quasi instantanée !
Très bon article effectivement. Je rajouterai qu'il est très difficile de lutter cependant contre du contenu dupliqué externe d'un site tout frais dont Google à peu de trace. Le duplicate se détecte à posteriori.
Super article, merci.
Bonjour,
Cet article me paraît excellent. Une question: y a-t-il duplicate content si un même texte (un livre) se trouve en format pdf et html sur un même site? Je suppose que non, mais question plus délicate, dans le même sens, le Duplicate content concerne-t-il les fichiers pdf de Google Books ou bien est-ce que Google Books, c'est à part? Par exemple si on a un ouvrage à 30 % voire 100% de visibilité sur Google Books et sur son site un fichier pdf similaire?
Le format PDF est très bien lu et indexé par Google donc oui, cela peut causer des problèmes de contenus dupliqués. Si le PDF existe déjà de façon tout à fait équivalente (en qualité) en HTML, il vaut mieux éviter de le faire indexer.
Je pense que les contenus indexés par Google Books sont en effet à part, non concernés.
Merci pour cette article. Sauf erreur de ma part (j'avoue avoir lu certains paragraphe en diagonal) on parle tres peu ds cet article du tag rel canonical.
Ca ne vous semble pas pertinent ?
Avez-vous mesuré son effet ds le cas de contenus syndiqués ou marque blanche ?
Est-ce que ca a un impact réel sur le site originel (progression ds les serp) et sur les autres sites ? (déclassement ? Exclusion ?)
@Douda : J'aborde la balise d'URL canonique dans mon article sur les solutions pour corriger le duplicate content (qui sont pour la plupart des erreurs internes). Ici mon dossier est axé essentiellement sur le filtre de contenus dupliqués de Google.
Très bon article, en effet.
Petit regret concernant ces logiciels, ils n'ont pas l'air de donner la fameuse "page canonique" que Google retient comme source officielle du texte. Ca m'aurait intéressé, non seulement de savoir qu'un texte était copié mais aussi qui en était l'auteur originel :-).
Très intéressant et c'est la première fois que je lis le terme de "duplicate interne"..
Pour le DC interne et en particulier en cas d'erreur d'URL, le plus simple reste encore d'aller sur "Webmaster tools" et de regarder les "suggestions HTML". Logiquement, le title (etc.) sera en double, on verra rapidement qu'il existe plusieurs URL pour le même titre et donc théoriquement la même page/contenu.
Super article !! félicitations. Par contre, je me posais une question, j'ai fait le test sur le contenu dupliqué du premier paragraphe de axe-net, et moi, google me trouve 333 résultats, et il ne m'informe de contenu dupliqué qu'au bout de la sixième page. Alors axe-net est en premier, mais les autres n'ont pas du tout disparus. Est-ce que c'est parce que ça a changé depuis cet article, ou est-ce que parce que google ne donne pas à tout le monde la même chose ?
J'ai fait la recherche sur le premier paragraphe, qui est en fait une seule phrase, avec les guillemets.
Alors là, je suis vraiment soufflé par la qualité de cet article. Félicitations!
En général, je place sur chaque page un lien vers elle-même. Dans certains cas, la personne qui copie le contenu copie aussi le lien et permet à Google de canoniser ma page. Pas vraiment réalisé de vrais tests mais j'ai l'impression que ça aide.
Encore une fois, bravo pour l'article ! 😉
Les commentaires sont fermés
Inscription à la newsletter
Catégories
Consulting SEO
Envie d'améliorer votre référencement ?
Consultant SEO depuis 2003, j'ai une très grande expérience en audit et consulting. Que ce soit pour une demande ponctuelle, pour un audit ou du long terme, je peux vous aider.
WebRankInfo / Tous droits réservés 2022 – Mentions légalesMe contacter

source

Catégorisé:

Étiqueté dans :