Sélectionner une page
Publié par Olivier Andrieu | 15 Nov 2022 | | Temps de lecture : 4 minutes
On entend régulièrement parler du « crawl budget » (ou budget de crawl) dans le monde du référencement naturel. Ce terme représente le temps-machine à allouer à un site par les robots d’exploration lors du crawl. Avec une augmentation exponentielle des pages à crawler par Google et les autres moteurs, il est nécessaire d’améliorer le budget de crawl afin que les moteurs se concentrent sur l’essentiel. Ils doivent non seulement découvrir de nouvelles pages, mais également actualiser celles qui sont connues dans son index.
Plusieurs leviers sont à notre disposition pour améliorer ce « budget d’exploration », comme le nomme Google (limiter l’exploration aux pages pertinentes, améliorer son temps de chargement, etc.), pour ensuite suivre le crawl des robots d’exploration et s’assurer de l’efficacité des optimisations effectuées.
Nous casserons certains mythes dans cet article, et verrons que tous les sites Web ne sont pas concernés par des problématiques de « crawl budget ». Mais avant tout, rappelons en quoi consiste le crawl de Google.
Afin de proposer des résultats pertinents dans ses pages de résultats, Google doit visiter et actualiser un très grand nombre de pages qu’il stockera dans son index, afin de répondre au besoin informationnel des internautes via ses pages de résultats. La recherche Google fonctionne donc en 3 étapes :
C’est la phase d’exploration qui sera détaillée dans cet article (en rouge ci-dessous) : Google doit visiter de nouvelles URL et les ajouter à l’ensemble des pages déjà connues.
Processus d’exploration, d’indexation et de classement.
Source : https://www.abondance.com/20211112-46544-infographie-le-processus-de-crawl-et-dindexation-de-google.html
Nous savons que Google utilise les liens sous la forme <a href=”/url”>Ancre</a> pour découvrir de nouvelles URL, qui seront ajoutées à sa file d’attente pour être crawlées à leur tour. Mais le crawl est loin de se limiter qu’à des pages Web…
En effet, le crawl peut concerner différents types de fichiers comme les images, les fichiers PDF, mais également les feuilles de style CSS ou encore les fichiers Javascript. Google a besoin de ces fichiers JS et CSS pour être au plus proche de ce que verra l’utilisateur : il faut donc garder à l’esprit que le moteur ne se limite pas qu’aux liens qu’il découvrira via les balises <a href=”/url”> lors de sa phase d’exploration, mais qu’ils visite également des ressources complémentaires.
Bien que cette découverte d’URL se fasse en théorie au travers des balises standardisées (<a><link><script><img>, etc.), le robot d’exploration de Google (Googlebot) peut également suivre des URL sans qu’elles soient incluses dans des balises HTML. Ainsi, une URL sans lien dans le corps d’un texte sera également visitée par ses robots : tout ce qui ressemble à une URL dans le code source d’une page peut potentiellement être crawlé par Googlebot (ce qui peut parfois causer des effets de bord, notamment lors de la découverte d’URL partielles dans un segment de code Javascript).
Le moteur souhaite être au plus près de ce que voient les utilisateurs finaux, il passe donc par un processus de rendu (WRS = Web Rendering Service) en interprétant les feuilles de styles et les fichiers Javascript, ce qui implique qu’il doit également visiter ces fichiers.

[Cet article est disponible sous sa forme complète pour les abonnés du site Réacteur. Pour en savoir plus : https://www.reacteur.com/2022/11/comment-apprehender-au-mieux-le-budget-de-crawl-sur-son-site.html]Un article écrit par Aymeric Bouillat, Consultant SEO senior chez Novalem.


Partager :
Note :
Laisser un commentaire (*** Cliquez ici pour lire la charte de saisie de commentaire ***)
Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *







La charte Abondance.com pour la soumission de commentaires est la suivante :

– Champ Nom : obligatoire. Seuls les noms de famille et/ou prénoms sont acceptés. Un commentaire n’est pas écrit par une entreprise, mais par une personne physique. Les textes d’ancre (sur)optimisés et les noms d’entreprises indiqués dans ce champ verront automatiquement l’URL associée supprimée et la mention [Anonyme] indiquée à cet endroit.

– Champ E-mail : obligatoire. L’adresse mail n’est pas affichée si le commentaire est validé.

– Champ Site web : facultatif. Uniquement affiché si le champ “Nom” contient le patronyme d’une personne (voir ci-dessus). Le mieux est certainement d’y indiquer l’URL de votre compte Facebook, Twitter ou Google+. Mais vous pouvez également y indiquer l’URL de votre site web (page d’accueil uniquement).

Merci !!!
Consultez le site Livre Référencement !
© Abondance | Toute l'actualité sur le SEO et les moteurs de recherche

source

Catégorisé: