Sélectionner une page
Publié par Olivier Andrieu | 2 Sep 2011 | | Temps de lecture : 3 minutes
Le blog pour webmasters de Google fait aujourd’hui un point sur l’indexation de documents PDF par son moteur de recherche.
Voici les principaux points évoqués dans cet article :
– Google indexe des documents PDF depuis 2001.
– On peut les rechercher au travers de la syntawe “filetype:pdf” (exemple : “seo filetype:pdf“).
– Google indexe à peu près tous les documents PDF, dans la plupart des langues, à partir du moment où ils ne sont pas protégés par mot de passe. Parfois, Google utilise également des techniques d’OCR pour scanner et numériser des images contenant elles-mêmes du texte dans le fichier PDF.
– En revanche, les images présentes à l’intérieur d’un fichier PDF ne sont pas indexées par Google Images.
– Les liens présents dans les fichiers PDF sont en revanche traités comme dans une page HTML. Ils peuvent donc passer du PageRank à un autre document (ce qui signifie qu’un document PDF dispose lui-même d’un PageRank). En revanche, le paramètre “nofollow” ne fonctionne pas dans ces fichiers.
– Pour ne pas voir un document PDF indexé, le mieux est d’insérer un X-Robots-Tag: noindex dans l’en-ête HTTP utilisé.
– Le référencement et le positionnement d’un fichier PDF est souvent similaire à celui d’une page HTML.
– Il est préférable de ne pas proposer le même contenu en HTML et en PDF, car cela peut génèrer des risques de duplicate content. Dans ce cas, il vaut mieux indiquer la version canonique (originale) – et pas la dupliquée – dans le Sitemap du site et/ou utiliser la balise “link rel canonical” dans la version HTML pour indiquer quelle est la version favorite.
– Le titre utilisé par Google pour ce type de document vient de deux sources : la métadonnée “TITLE” à l’intérieur du document (à renseigner en priorité) et le texte d’ancre des liens pointant vers ce fichier. Les deux semblent cependant importantes.
Voici également une vidéo de Matt Cutts, publiée il y a quelques jours, qui traite de ce sujet :
Articles connexes sur ce site :
– PDF Quick View : un viewer PDF dans les résultats de Google (13 octobre 2009)
– Google commence à scanner des documents et à les proposer dans ses résultats (4 novembre 2008)
– Google Docs intègre le PDF (18 juin 2008)
– Quelques guides PDF sur le référencement (11 avril 2007)
Partager :
Note :
Comment intégrer des balises (qui restent du (x)html) au sein des PDF?
La charte Abondance.com pour la soumission de commentaires est la suivante :
– Champ Nom : obligatoire. Seuls les noms de famille et/ou prénoms sont acceptés. Un commentaire n’est pas écrit par une entreprise, mais par une personne physique. Les textes d’ancre (sur)optimisés et les noms d’entreprises indiqués dans ce champ verront automatiquement l’URL associée supprimée et la mention [Anonyme] indiquée à cet endroit.
– Champ E-mail : obligatoire. L’adresse mail n’est pas affichée si le commentaire est validé.
– Champ Site web : facultatif. Uniquement affiché si le champ “Nom” contient le patronyme d’une personne (voir ci-dessus). Le mieux est certainement d’y indiquer l’URL de votre compte Facebook, Twitter ou Google+. Mais vous pouvez également y indiquer l’URL de votre site web (page d’accueil uniquement).
Merci !!!
Consultez le site Livre Référencement !
© Abondance | Toute l'actualité sur le SEO et les moteurs de recherche