Sélectionner une page
Publié par Olivier Andrieu | 21 Déc 2021 | | Temps de lecture : 9 minutes
Le fichier robots.txt est bien connu de toute personne s’intéressant de près ou de loin au SEO, tout comme la balise meta robots « noindex ». Leur objectif est proche : empêcher les moteurs de recherche de « voir » un contenu, que ce soit une page web, une image, un fichier PDF, etc.
Pourtant, leur fonctionnement est différent, tout comme leur utilisation potentielle. Et on s’aperçoit vite à l’usage qu’il est très important de prendre en compte l’un ou l’autre à bon escient pour optimiser son budget crawl et la qualité globale du site qui sera analysée par les moteurs comme Google.
Vous en saurez donc plus en regardant cette vidéo numéro 213 :
Robots.txt ou Noindex : que choisir en SEO ? – Vidéo N°213 proposée par Olivier Andrieu (Abondance). Source : Abondance
  
« Bonjour et bienvenue dans cette 213e vidéo Abondance, en pull moche de Noël, tradition oblige ! Ce sera la dernière vidéo de l’année et dans celle-ci, je voulais vous parler du choix entre le robots.txt ou le noindex pour traiter des informations sur votre site que vous ne voulez pas voir indexées voire crawlées par les moteurs de recherche.
Alors petit rappel avec les différences entre le robots.txt et le noindex : le robots.txt, c’est un fichier texte qui se met à la racine du site et qui va donner un certain nombre de directives de type Disallow: qui vont donc interdire le crawl aux zones qui sont référencées via ces directives Disallow:. On peut voir aussi parfois du Allow: pour permettre le crawl à l’intérieur d’une zone qui est interdite d’accès,  et donc permettre l’accès à des sous-zones aux moteurs de recherche. Ok donc le robots.txt va interdire le crawl par les robots aux zones qui sont listées par les directives Disallow:.
La balise meta robots noindex par contre, c’est une balise html, une directive aussi, qui va demander aux moteurs de recherche, après avoir crawlé la page, il est demandé aux moteurs de recherche de ne pas indexer. Donc avec la balise meta robots noindex, il y a crawl, mais on demande à ce que l’indexation ne se fasse pas. La grosse différence en fait entre le robots.txt et le noindex, c’est qu’avec le robots.txt il n’y a pas de crawl. Donc logiquement si tout se passe bien – on pourrait en discuter mais théoriquement il n’y a pas d’indexation alors qu’avec le noindex, il y a un crawl par les robots et par la suite donc il n’y a pas d’indexation donc la grosse différence, c’est le crawl en fait entre les deux.
Quand est-ce qu’on peut privilégier le robots.txt ? En fait c’est la plupart du temps lorsqu’on veut demander à Google de ne pas crawler un grand nombre de pages, par exemple dans un répertoire ou souvent lorsqu’on a un pattern ou un schéma d’url récurrent. J’ai mis quelques exemples ici : search?qu=[mot clé] : ce sont les pages de résultats du moteur de recherche interne. Typiquement c’est le robots.txt clairement. Si vous ne voulez pas faire indexer ou voir crawlés vos pdf, vous les mettez tous dans un répertoire qui s’appelle /pdf/ et puis vous l’interdisez via le robots.txt. Ou des articles qui sont des brèves avec très peu de mots par exemple 20, 30, 40, ou 50 mots, on sait qu’en termes de SEO, ça n’aura pas grand intérêt, donc on va les mettre dans un répertoire qui s’appelle /breves/ et on va interdire le crawl. Ou des images avec copyright ou pour les deux exemples suivants avec des t-shirts de taille spécifique ou avec un tri par ordre de prix croissants par exemple, etc., ce qu’on appelle les facettes sur une boutique : tout ce qui est tri, filtre, etc. on va l’interdire, c’est assez classique sur une boutique, au crawl. Ou alors un site en préprod, en test, avant mise en production, on va également l’interdire via le robots.txt (il y a aussi d’autres façons de faire). Voilà en fait c’est toujours des schémas d’url récurrents et beaucoup de pages qui vont être assez facilement interdites au crawl avec le robots.txt.
Avec le noindex, on va plutôt travailler au niveau de la page, par exemple on fait des des articles qui sont longs et puis on a un article qui est trop court pour avoir un intérêt en SEO, donc cet article-là, on va le mettre en noindex ou alors une catégorie où il y a zéro produit – ça arrive assez souvent – ou un seul produit, on peut se dire que ça n’a pas vraiment intérêt à être référencé, donc on le met en noindex ou alors une fiche produit qui a un texte descriptif très court, donc là aussi pas d’intérêt SEO, donc cette fiche produit très spécifique, on va la mettre en noindex, ou alors un article ou un produit qui est deux fois à deux endroits différents d’un site. A priori, ce sera plutôt la balise canonical qu’on va prendre en compte ici, mais bon pourquoi pas, dans certains cas, mettre du noindex. Ou alors une page de test, qu’on ne veut pas voir indexée par les moteurs de recherche parce qu’on fait un test d’A/B testing ou quelque chose comme ça, on va aussi mettre une balise meta noindex.
En fait il y a des avantages et des inconvénients dans les deux : le robots.txt, les avantages c’est qu’on peut très facilement traiter une zone entière d’un site web, c’est assez facile à maintenir parce que finalement ce n’est qu’un fichier texte et logiquement il suffit d’avoir un éditeur de texte sous la main, et surtout le gros avantage c’est que ça ne consomme pas de budget crawl et ça c’est vraiment très très intéressant et ça peut vraiment permettre de grandement optimiser son budget crawl ! Les inconvénients du robots.txt, c’est que parfois, sur certains cms, on n’y a pas toujours accès. Ne serait-ce que par exemple les utilisateurs du cms Shopify qui n’ont eu accès au robots.txt qu’il y a quelques mois. Avant, ils n’y avaient pas accès ! Et puis parfois il peut y avoir une syntaxe un peu complexe alors à la fois la syntaxe est assez complète, dans quel cas on peut mettre des points d’interrogation, des dollars, des étoiles, etc. on peut faire pas mal de choses dans le robots.txt, mais on peut aussi arriver à des syntaxes, des directives qui sont tellement complexes qu’on sait plus ce qui est interdit au crawl ! Donc il faut faire aussi attention ! La balise noindex, l’avantage c’est qu’on peut travailler vraiment au niveau de la page, – c’est vrai qu’on peut le faire aussi sur le robots.txt mais c’est peut-être plus naturel de le faire en noindex. Les inconvénients c’est que on n’y a pas toujours accès. On y accès sur la plupart des cms mais il faut que le cms bien sûr donne accès au noindex. Et puis surtout le gros inconvénient, c’est que ça use du budget crawl pour rien ! Ça consomme du budget crawl puisqu’en fait la page va être crawlée pour ne pas être indexée derrière ! Donc c’est vraiment un crawl a priori pour rien en termes de SEO, bien sûr. Donc j’aurais tendance à dire que le robots.txt permet de faire le gros œuvre, d’interdire au crawl un maximum de pages et puis ensuite on va affiner avec le noindex à l’échelle de la page pour demander une non-indexation, avec quand même un crawl qui est fait . Le gros œuvre pour le robots.txt et puis on affine ensuite avec le noindex !
Voilà pour cette petite vidéo, la dernière donc de l’année 2021. Quelques vidéos bien sûr à revoir et je vous souhaite d’excellentes fêtes de fin d’année ! Joyeux Noël et rendez-vous en 2022 ! Merci beaucoup et à très bientôt ! Merci ! »
 
  
  
Partager :
Note :
Bonjour Olivier,
Dans le cadre d’une refonte de site, nous souhaitons faire un test A/B : site actuel version A versus nouveau site, version B. Pour éviter le duplicate, que faut-il faire pour la version B : mettre des balises noindex partout ou utiliser robots.txt ? y a t’-il un risque pour le SEO de faire un A/B test sur un site entier (le site comporte 22 pages catégories et environ 250 fiches produits ?)
Merci d’avance pour votre répondre.
Mélissa
Un article complet sur Réacteur à ce sujet : https://www.reacteur.com/2017/05/comment-faire-de-la-b-testing-en-seo.html
Il a 5 ans mais tient encore la route ! 🙂
Bonjour Olivier,
Est-ce qu’il faudrait ajouter au robots.txt les pages dupliquées canonisées ? Puisqu’elles sont canonisées, pourquoi dépenser du budget crawl ?
Merci d’avance pour votre aide 🙂
Exact 🙂
Une question Olivier : quel est votre avis sur les urls qui remontent parfois dans la Searchconsole Google et qui sont indiquées dans la partie Index > Couverture > Urls valides avec des erreurs et indiquées comme « indexée malgré le blocage par le robots.txt ».
Pour moi comme expliqué dans votre article le robots.txt doit permettre d’éviter de ne pas gaspiller son budget de crawl, et donc d’interdire le crawl de ce type de pages normalement. Est-ce que ce type de signalement dans la Searchconsole est génant ? De fait certaines de ces pages se retrouvent bien dans l’index Google alors que le blocage robots.txt fonctionne bien. Je dois avouer que je ne sais pas quoi penser de ces cas particuliers …
C’est une situation qu’on retrouve sur beaucoup de sites. Il faudrait creuser ce point en général et au cas par cas pour le site en question mais, en général, cela ne pose pas problème.
Il y a au moins 2 cas différents :
– Des URLs indexées avant leur mention dans le robots.txt. J’ai eu des cas comme ça qui même après 1 an était toujours indexées mais ces pages n’ayant pas d’intérêt SEO on les retrouve pas vraiment dans les SERP sauf à faire de l’exact match sur la title par exemple
– Des URLs pertinentes aux yeux de Google. On voit souvent le cas pour une homepage mise en noindex par erreur (preprod vers prod, le coup classique) mais j’ai déjà vu ça sur des fiches produits. Nonindexée comme le mentionne Olivier dans sa vidéo car peu de contenu sauf que derrière une fiche produit il y a une intention de recherche et plus précisément une intention d’achat et quand Google n’a rien à se mettre sous la dent, il peut faire ressortir.
J’en viens à ma conclusion personnelle, je pense que Google vérifie parfois qu’il n’y a pas d’erreur entre réalité et robots.txt. Cela dit, avec leur politique actuelle d’aller à l’économie de crawling, ils arrêteront peut-être de faire cela dans les années à venir.
Laisser un commentaire (*** Cliquez ici pour lire la charte de saisie de commentaire ***)
Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *







La charte Abondance.com pour la soumission de commentaires est la suivante :

– Champ Nom : obligatoire. Seuls les noms de famille et/ou prénoms sont acceptés. Un commentaire n’est pas écrit par une entreprise, mais par une personne physique. Les textes d’ancre (sur)optimisés et les noms d’entreprises indiqués dans ce champ verront automatiquement l’URL associée supprimée et la mention [Anonyme] indiquée à cet endroit.

– Champ E-mail : obligatoire. L’adresse mail n’est pas affichée si le commentaire est validé.

– Champ Site web : facultatif. Uniquement affiché si le champ “Nom” contient le patronyme d’une personne (voir ci-dessus). Le mieux est certainement d’y indiquer l’URL de votre compte Facebook, Twitter ou Google+. Mais vous pouvez également y indiquer l’URL de votre site web (page d’accueil uniquement).

Merci !!!
Consultez le site Livre Référencement !
© Abondance | Toute l'actualité sur le SEO et les moteurs de recherche

source

Catégorisé:

Étiqueté dans :