Comment fonctionne le crawl du Googlebot ? Découvre sa fréquence de passage, le crawl budget ainsi que 6 astuces pour améliorer le crawl
Accès rapide (Sommaire) :
Le Google Bot est tout simplement un robot qui explore (ou « crawl ») ton site web. On peut également appeler ce genre de système un « spider ».
Ce robot qui parcourt les sites web est à la fois intéressant pour les éditeurs de sites et Google.
Pour toi, qui gère un site web, c’est la porte d’entrée vers l’indexation des pages de ton site dans les résultats de recherche. Il va chercher les informations dont il a besoin et décide ou non d’indexer ta page dans les résultats de recherche. En d’autres termes, si tu souhaites optimiser le référencement naturel de ton site web, il faut déjà passer par cette étape pour espérer être visible.
Google, lui, de son côté, y trouve un intérêt en triant les pages qui méritent ou non d’être affichées dans leurs pages de résultats de recherche.
C’est seulement une fois qu’elles auront été crawlées et indexées que Google décidera où et comment tes pages pourront être consultées (leur référencement naturel).
Ce sont les 3 étapes du classement des pages : Crawling > Indexation > Classement.
Si googlebot rencontre un problème au cours de l’exploration de ton site (page bloquée dans les robots.txt, page en canonical, page répondant en code 500, 404, 301, 302, balise noindex…), l’indexation de tes pages sera alors impossible et le référencement naturel des pages concernées forcément pénalisé.
Pour consulter les principales erreurs associées au crawl de Google, tu peux soit utiliser un outil professionnel d’analyse de crawl comme ScreamingFrog, SEOlyzer ou encore OnCrawl, soit consulter le rapport “Couverture” dédié aux erreurs d’exploration sur ton compte Google Search Console.
La fréquence de passage de Google Bot est variable d’un site à l’autre.
Elle varie entre quelques minutes et jusqu’à quelques jours.
La fréquence de crawl de Google varie en fonction de la taille du site, de la fréquence de publication de nouvelles pages et de la fréquence de mise à jour des pages existantes.
 Si tu ne publies ou mets à jour des pages que tous les 3 mois, le GoogleBot risque d’avoir une fréquence de passage assez faible.
Un autre élément à prendre en compte concernant le crawl de GoogleBot est le Crawl Budget.
Comme son nom l’indique, il s’agit d’un temps spécifique alloué au crawl d’un site par Google.
Pour chaque site, Google va lui allouer des ressources et un temps d’exploration défini.
L’objectif de tout référenceur est alors de diriger le bot de Google vers les pages les plus pertinentes à parcourir. En parallèle, il faudra également au contraire l’empêcher de dépenser trop de ressources sur des pages qui n’ont aucun objectif de positionnement SEO.
Pour cela, différentes stratégies sont possibles et actionnables conjointement :
Googlebot est ce qu’on appelle un User-Agent. Un robot d’exploration comme celui-ci est un user-agent. Google n’utilise pas que Googlebot pour explorer ce qui se passe sur ton site. On peut trouver des AdsBot, qui vérifient la qualité de tes annonces, AdSense ou l’API de Google. On trouve aussi différentes déclinaisons du Googlebot pour Google Images, Googles Actualités ou Google Vidéos.
Pour interagir avec eux, il y a différentes indications à suivre, notamment pour le fichier Robots.txt ou les balises Meta, que tu trouveras ici : https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers?hl=fr&ref_topic=4610900&visit_id=637843187863289655-38369794&rd=1.
C’est un des points les plus importants à vérifier. Sur ce fichier, tu vas concrètement donner des indications aux robots de Google pour leur dire ce qu’ils doivent explorer ou non. SI on veut faire le parallèle avec le Crawl Budget, on peut dire que tu vas lui expliquer où il doit dépenser ce budget.
Si tu ne donnes aucune indication au robot, il va tout explorer. Il est donc préférable de fournir des explications sur ce que le robot doit crawler, selon ce que tu veux voir indexé sur Google ou non.
En plus du robots.txt, tu peux renseigner des instructions directement depuis le code de tes pages.
Tu peux donner des informations dans les balises Meta. Il suffit d’ajouter une balise Meta dans le Head, avec un attribut « name » qui cible le robot auquel tu veux donner une instruction, et un attribut « content » qui donne la directive. Si tu mets « name= »robots » », tu cibleras tous les robots d’exploration (User Agent). À titre d’exemple, si tu souhaites indiquer à Google Bot uniquement qu’il ne doit ni indexer ni parcourir une page web, tu pourras insérer cette balise dans le head des pages concernées : 
<meta name= »googlebot » content= »noindex, nofollow »>
Il est également possible de passer des instructions dans la balise header à l’aide de l’entête HTTP « X-Robots-Tag ». Tu peux y ajouter plusieurs informations telles que « noindex« , pour bloquer l’indexation mais pas l’accès au contenu, « nofollow » pour empêcher le robot d’y accéder ou « noarchive » pour contrer l’archivage. Tu peux combiner les 3 si tu en as le besoin.
Le fichier Sitemap est un élément important qui peut aider à guider le crawl de GoogleBot. Il s’agit du fichier qui va indiquer au Googlebot la structure de ton site et ainsi lui faciliter le crawl et donc l’indexation de tes pages. C’est un fichier important pour favoriser l’indexation de toutes les pages souhaitées. Sans cela, il se peut que Google oublie des pages, à cause d’un maillage interne défaillant ou d’un autre problème technique.
C’est un fichier au format .xml que tu peux déclarer dans la Search Console où dans le fichier robots.txt que nous avons vu juste au-dessus.
Comme on l’a dit, la fréquence du crawl dépend en partie du rythme de publication de nouvelles pages et de la mise à jour de pages existantes. Plus tu mets à jour du contenu, et plus tu en publies du nouveau, plus le robot viendra crawler ton site web.
Le maillage interne est très important en SEO, pour tout ce qui concerne le « transfert de puissance » entre les pages. Ici, pour le Googlebot, ces liens internes entre tes pages ont également beaucoup d’importance. Ce sont ces liens qui vont guider le robot dans ton site web. Une page qui ne reçoit aucun lien sera plus difficilement crawlée et risquera donc de ne pas être indexée.
Un site peu performant qui met du temps à répondre, sera crawlé moins souvent. Google donne de plus en plus d’importance aux critères d’expérience utilisateur et la performance du site web en fait partie. Le budget de crawl diminuera puisque Google considère que s’il utilise trop de bande passante, les utilisateurs du site seront pénalisés.
Même chose sur le côté technique de ton site web. Certains types de contenus ne sont pas lus par le Googlebot, et plus le code sera compliqué à lire, moins le robot pourra l’exploiter, puisque cela lui demande plus de requêtes et donc plus de budget. Tu peux limiter cela en minifiant tout ce qui est en HTML, CSS ou JavaScript. Avoir des images aussi légères que possible est aussi une bonne idée, tout comme installer une solution de cache pour limiter les éléments à charger. Pour que ton site soit performant à l’international, il peut être intéressant d’utiliser un CDN.
Il n’existe pas de solutions miracles pour augmenter la fréquence de crawl du Googlebot. Assurer des mises à jour et des publications de pages régulières est une bonne solution.
Si tu suis les différentes indications que nous avons vues dans la partie précédente, tu devrais pouvoir optimiser l’exploration et donc optimiser ton budget de crawl. Cela n’augmente pas à proprement parlé la fréquence, mais permet une exploration de meilleure qualité.
Néanmoins, tu peux réduire la vitesse d’exploration du Googlebot si tu t’aperçois que cela pénalise les performances de ton site web. Google déconseille de limiter cet aspect, mais rien en t’empêche de le faire. Il faudra tout de même faire une « demande spéciale » si ta vitesse de crawling est déjà considérée comme optimale.
Tu peux aussi le faire en bloquant le crawl sur ton robots.txt ou en renvoyant le code HTTP 5XX/429.Tu sais désormais comment fonctionne Googlebot et comment optimiser le crawl de ton site. Si tu as des questions à ce sujet, n’hésite pas à les communiquer dans l’espace commentaires ci-dessous.
Votre adresse e-mail ne sera pas publiée.





leptidigital
Lancé en 2014 et aujourd’hui visité chaque mois par plusieurs centaines de milliers de professionnels du numérique, LEPTIDIGITAL est un media marketing digital vous proposant le meilleur de l’actualité digitale (SEO, Webmarketing, Social Media, SEA, Emailing, E-commerce, Growth Hacking, UX …) en plus d’astuces et tutoriels détaillés.
Vous souhaitez…
Recevoir notre newsletter marketing digital ?
Annoncer sur leptidigital ?

source

Catégorisé:

Étiqueté dans :