Sélectionner une page
Publié par Olivier Andrieu | 24 Nov 2020 | | Temps de lecture : 7 minutes
Identifier le contenu dupliqué à l’intérieur d’un site web obéit à des logiques différentes de l’intersites, dont nous avons parlé la semaine dernière. Ici, point de pillage ou de duplication éventuelle contre votre volonté, puisque tout se passe au sein de votre site, mais plutôt une perte de “budget crawl” de la part du robot et un risque que celui-ci ne se focalise pas sur le “bon” contenu, celui qui est important pour votre SEO. Il existe dorénavant des outils très performants pour détecter le contenu identique ou similaire (avec le pourcentage de similarité associé) de chaque page de votre site. De quoi éviter et traiter les doublons beaucoup plus facilement…
Voici également la liste des outils dont je parle dans cette vidéo, avec leur lien respectif :

Et voici donc nos outils du contenu dupliqué intrasite dans cette 173e vidéo Abondance :
Les Outils du Contenu Dupliqué Intrasite. Vidéo N°173 proposée par Olivier Andrieu (Abondance). Source : Abondance
Bonjour et bienvenue dans 173e vidéo Abondance qui sera la suite de la vidéo de la semaine dernière dans laquelle je parlais des outils du contenu dupliqué intersites et donc cette semaine, comme promis, je vais vous parler des outils du contenu dupliqué intrasite, ce qui veut dire deux pages qui sont identiques ou similaires sur le même nom de domaine et sur des url différentes. Exemple type : un tee-shirt rose et un tee-shirt bleu, c’est quasiment le même contenu, le même texte, le même descriptif, mais on va avoir du coup un contenu quasiment identique. Donc comment les détecter sur un site et avoir le niveau de similarité pour savoir si on est vraiment dans un contenu dupliqué. Donc on est bien sur le même nom de domaine et sur des url différentes.
Alors, bien sûr, vous pouvez utiliser l’outil de Copyscape que j’ai présenté la semaine dernière, je ne vais pas revenir dessus, mais vous pouvez rentrer 2 URL et il va vous donner le taux de similarité entre les deux. Il marchera d’ailleurs certainement mieux que pour l’intersites, puisque pour l’intrasite, cet outil va vérifier tout le contenu html, charte graphique comprise, donc lorsqu’on a deux pages dans le même site et la même charte graphique, quelques par le pourcentage de similarité sera certainement plus juste qu’en intersites où on a des chartes graphiques différentes. Copyscape très bien, mais il faut le faire url par url.
Au niveau d’un site, personnellement, j’utilise Screaming frog, un outil qui est vraiment intéressant à ce niveau, qui a mis en place depuis quelques mois des possibilités de détection du contenu dupliqué. Dans le menu Configuration > Content > Duplicates, vous allez permettre la détection de contenus dupliqués – moi je commence à 70 %, mais vous pouvez mettre 80%, 90%, etc. Moi je préfère commencer à 70% et une fois que vous avez fait ça – moi j’ai mis en configuration par défaut comme ça je suis tranquille, c’est fait – essayez de le faire avant le crawl du site ce, sera plus facile. Vous lancez le craw, puis l’option Crawl Analysis > Start et ensuite vous avez le crawl à 100%, l’analyse qui est faite à 100% et du coup dans l’onglet Content, vous allez avoir un certain nombre d’informations. Là je l’ai fait sur mon site “Trouvez le panda”, parce que je sais qu’il y a des tas de contenus dupliqués parce qu’il ya très très peu de texte dans les pages.
Donc je vais avoir dans l’onglet Content le pourcentage de similarité le plus fort détecté pour chaque url, le nombre de duplicates pour chaque url, par exemple ici la première url est en near duplicate avec 14 url, la deuxième avec 15, etc. Et pour chacune de ces url, je vais avoir par exemple ici pour l’URL de gauche, je vais avoir à droite la liste des url qui sont en contenu dupliqué ou en near duplicate, avec le pourcentage de similarité correspondant à chaque fois dans l’onglet Duplicate Details. Donc il y a vraiment toutes les informations, l’outil propose même pour chaque couple d’url les différences d’une page à l’autre, donc là on voit qu’il y a des différences qui sont très faibles, c’est pour ça qu’il y a un gros pourcentage de near duplicate, et également une fonctionnalité qui peut être sympa : il faut un petit peu plus d’heures de vol pour l’utiliser, mais qui est assez intéressant dans le menu Configuration > Content > Area, vous avez la possibilité d’indiquer des zones ou des tags html, etc. que vous pouvez inclure ou exclure. Bref, vous pouvez par exemple ne garder que le contenu éditorial et supprimer le header, le footer, le menu et on aura alors vraiment une analyse qui se concentre sur le contenu éditorial, puisque c’est comme ça que Google fonctionne, ça colle vraiment au fonctionnement de Google.
Donc vraiment un bel outil ! Je rappelle que Screaming frog est gratuit jusqu’à 500 url, donc ça peut être intéressant à tester sur des sites qui sont en dessous de cette limite. Sinon, troisième solution avec d’autres outils bien sûr comme onCrawl, ou Botify, et plein d’autres – je parle de onCrawl et Botify parce que ce sont des outils qu’on voit souvent, plutôt sur des sites un petit peu plus gros pour le coup – mais qui ont aussi des outils de détection du contenu dupliqué intrasite, donc à vous de regarder, de tester, pour voir ce que ces outils proposent. Voilà, merci votre attention, je rappelle les autres vidéos Abondance dans le domaine du duplicate, il y en a 7 maintenant , ça commence à faire pas mal, celle-ci est la huitième, il y a une playlist spécifique aussi sur le contenu dupliqué sur ma chaîne Youtube, donc n’hésitez pas à les regarder !
Je vous souhaite une bonne semaine et je vous dis à très bientôt pour une nouvelle vidéo Abondance ! Merci et au revoir !
  
 
 
Partager :
Note :
Bonjour Olivier,
Merci pour cette vidéo, ça a répondu à mes questions au sujet du duplicate content, que je me pose depuis plusieurs semaines… 🙂
Mais je me demande toujours : comment gérerais-tu les pages produits d’un e-commerce en terme de duplicate content ?
Personnellement, j’essaie de rédiger des descriptions les plus uniques possibles mais lorsque je fais le check avec seo spider, j’ai quand même la plupart de mes URLs produits de même collection (exemple, différents modèles de lunettes) qui ont un taux de similarité supérieur à 70%…
Ton critère max est 70% si j’ai bien compris, mais est-ce réellement problématique de dépasser ce critère (exemple, entre 80 et 90% de similarité) ?
à bientôt
N’ai-je pas répondu à ces questions dans mes (nombreuses) autres vidéos sur le sujet sur Abondance ? 🙂
Ah au temps pour moi, je vais chercher l’info.
Merci
La charte Abondance.com pour la soumission de commentaires est la suivante :

– Champ Nom : obligatoire. Seuls les noms de famille et/ou prénoms sont acceptés. Un commentaire n’est pas écrit par une entreprise, mais par une personne physique. Les textes d’ancre (sur)optimisés et les noms d’entreprises indiqués dans ce champ verront automatiquement l’URL associée supprimée et la mention [Anonyme] indiquée à cet endroit.

– Champ E-mail : obligatoire. L’adresse mail n’est pas affichée si le commentaire est validé.

– Champ Site web : facultatif. Uniquement affiché si le champ “Nom” contient le patronyme d’une personne (voir ci-dessus). Le mieux est certainement d’y indiquer l’URL de votre compte Facebook, Twitter ou Google+. Mais vous pouvez également y indiquer l’URL de votre site web (page d’accueil uniquement).

Merci !!!
Consultez le site Livre Référencement !
© Abondance | Toute l'actualité sur le SEO et les moteurs de recherche

source

Catégorisé: