WebRankInfo : la plus grande communauté francophone du référencement
Olivier Duffez
Créateur de WebRankInfo,
consultant en référencement
Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, … et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité…
Publié le . Auteur : Olivier Duffez
Article mis à jour le 21/08/2015 (ajout des exemples pour Apache), publié initialement le 13/12/2007
Il s'agit d'informations envoyées par le serveur web à celui qui cherche à accéder à un document (que ce soit le navigateur d'un internaute, le robot d'un moteur de recherche ou n'importe quoi d'autre). Une de ces informations est le code de statut HTTP, dont les valeurs les plus connues sont les suivantes :
Il y a bien d'autres codes (consultez la liste des codes HTTP si vous voulez plus de détails) mais l'entête HTTP peut contenir plein d'autres informations :
Un peu comme la balise meta robots qui peut contenir plusieurs valeurs, sa version HTTP peut contenir les valeurs suivantes :
Tout comme la balise meta, il est possible de combiner plusieurs valeurs en les séparant par des virgules, par exemple : X-Robots-Tag: noarchive, nosnippet.
Cette directive HTTP a été introduite par Google en juillet 2007. Depuis décembre 2007, Yahoo la supporte également.
Voici un exemple d'entête HTTP avec 1 ligne X Robots Tag :
Vous pouvez fournir plusieurs lignes X-Robots-Tag :
Vous pouvez aussi regrouper les valeurs dans une seule ligne, séparées par une(des) virgule(s) :
Il existe des bouts de code très pratiques, à mettre dans le fichier .htaccess concerné (souvent à la racine du site, mais éventuellement directement dans un répertoire précis).
Par exemple, pour ajouter une instruction X-Robots-Tag noindex, nofollow à la réponse HTTP de tous les fichiers .PDF d'un site, ajoutez l'extrait suivant dans le fichier .htaccess ou httpd.conf à la racine du site :
Vous pouvez utiliser l'en-tête X-Robots-Tag pour les fichiers qui ne sont pas des HTML, comme les fichiers image, qui ne permettent pas d'utiliser des balises Meta pour les robots. L'exemple ci-dessous explique comment ajouter une instruction X-Robots-Tag noindex pour les fichiers image (.png, .jpeg, .jpg, .gif) d'un site entier :
A savoir : la commande filetype:pdf dans Google limite la recherche aux fichiers PDF.
Si vous souhaitez voir le contenu de l'entête HTTP, par exemple pour vérifier que votre implémentation de X-Robots-Tag est correcte, il suffit d'utiliser un des nombreux outils à votre disposition :
Sachez que de façon similaire, il est également possible de définir une URL canonique par le biais d'un entête HTTP. En résumé, il faut utiliser le format  suivant :
Par exemple :
Discussion dans le forum : X-Robots-Tag
Cet article vous a-t-il plu ?
Remarques :
Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.
En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé…) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

6 commentaires
Olivier, merci pour l'article. As-tu des exemples de x-tobots tag via Htaccess (Apache 2.4) pour désindexer des URL avec du query string par exemple ?
donne-moi un ou des exemples d'URI
Bonjour,
Est ce que l'entete x-robots-tag NOINDEX est il pris en compte par les moteurs de recherche si dans le même temps il y a un code HTTP différent de 200 (par exemple 404 ou 410) ?
Merci
Non, il est ignoré (source Google)
Peut-on directement mettre cela dans apache au lieu de passer par un fichier php ?
Merci d'avance pour une réponse
Danny
Évidemment, il serait bon d'indiquer comment ajouter cette directive dans les fichiers. 😉
En PHP, il doit en être comme suit :
<?php header ('X-Robots-Tag: noindex,nofollow,noarchive'); ?>
En veillant à ce que rien ne soit généré avant header (), bien entendu.
Inscription à la newsletter
Catégories
Consulting SEO
Envie d'améliorer votre référencement ?
Consultant SEO depuis 2003, j'ai une très grande expérience en audit et consulting. Que ce soit pour une demande ponctuelle, pour un audit ou du long terme, je peux vous aider.
WebRankInfo / Tous droits réservés 2022 – Mentions légalesMe contacter

source

Catégorisé:

Étiqueté dans :