WebRankInfo : la plus grande communauté francophone du référencement

… ou les relations particulières de Google avec la pomme de terre et l’indice de densité !
Reconnaître un mot écrit pour tout lecteur va de soi mais comment un robot fait-il pour “lire”, c’est-à-dire identifier et traiter ce fameux mot ? Pour vous, c’est évident, vous en lisez et en écrivez tous les jours, vous les repérez sans même vous en rendre-compte mais un moteur, un robot, comment fait-il ? A-t-il simplement avalé un dictionnaire ? Ceux qui ont participé à ma formation le savent déjà, pour les autres voici un petit aperçu des traitements linguistiques sur la question…
Publié le . Auteur : Véronique
La définition la plus simple pour expliquer la notion de mot à un enfant consiste à dire qu’un mot est reconnaissable comme tel quand on peut le substituer par un autre au sein d’une phrase.

  1. J’aime les fruits.
  2. J’aime la pomme.
  3. J’aime les légumes.
  4. J’aime la pomme de terre.

Cette définition pragmatique permet de comprendre rapidement que définir un mot comme un groupe de lettres séparées des autres par des espaces ou des caractères est insuffisant ; car dans ce cas “pomme de terre” ne rentrerait pas dans la catégorie des mots. Certes, il est classé comme mot composé, mais c’est bien un mot !
Problème : comment expliquer la chose à un moteur ? On ne peut pas lui faire faire des tours de passe-passe sur tout le Web !
Autre aspect du problème : un même mot change de  forme !
La “pomme de terre” devient les “pommes de terre” au pluriel. Google adore la pomme de terre dans tous les cas et surtout Wikipédia qui est premier sur les deux requêtes !

Morphèmes de conjugaison

Les morphèmes de conjugaison

Les morphèmes de conjugaison
Le verbe “aime” varie en “aimes“, “aimons“, “aimez“, “aiment“, “aimer“, –iez… toutes les formes conjuguées ou non avec parfois des formes inédites 😉
Bref, reconnaître un mot n’est pas si simple, il s’agit de le reconnaître quels que soient les changements de forme liés aux accords !
Sans oublier qu’un mot peut ressembler à un autre sans avoir le même sens !
Les mots “voile” et “livre” par exemple sont problématiques  :

  • un voile =  le voile en dentelle / hissez la voile = une voile
  • un livre = je lis un livre /  je livre tel objet = livrer

A grande échelle, on voit bien que le traitement des mots n’est pas une simple affaire de dictionnaire à digérer et à recracher ! Comment un robot peut-il reconnaître un mot ?

Les aides linguistiques pour traiter la notion de mot

Petit préambule sur les termes employés

Pour opérer un traitement informatique sur les mots, on utilise la notion de lemme ou lexème (ce dernier terme est souvent préféré par le monde linguistique). Pour faire court et ne pas rentrer dans des questions théoriques, je considère ici que ces deux termes ont le même sens, j’utilise pour ma part les termes “lexème” ou “morphèmes lexicaux” à la place de lemme (on ne se refait pas !).

Comprendre la notion de lexème (ou lemme)

Le lexème est le plus petit élément qui fait sens, il peut se confondre avec un mot ou être une partie de celui-ci :
Chanter, chantant, chantons ont un lexème commun : chant
Selon les éléments que l’on associe à ce lexème, on obtient soit un mot différent qui a un lien sémantique avec le premier (famille de mots) soit une nouvelle forme du mot (accord ou conjugaison). En passant de l’idée de mot à celle de lexème, on peut ainsi introduire une sorte de “découpage” et de “composition” des mots (lemmatisation pour les puristes) qui permet  2 choses fondamentales pour les moteurs de recherche :

  1. automatiser la reconnaissance des lexèmes (lemmes ou mots) ;
  2. traiter les liaisons sémantiques entre les mots.

La notion de lexème en amène une autre complémentaire, celle de morphème.

Comprendre le principe du morphème

Pour reconnaître un mot, quelle que soit la forme utilisée dans un texte, un moteur a besoin d’une sorte d’inventaire des formes que celui-ci peut emprunter. Il a besoin de connaître les morphèmes qui sont  les plus petites unités de formes.
Comme le lexème, un morphème peut être un mot (morphème lexical = lexème) ou un élément plus petit que l’on ajoute.

  • Chanter = chant + er
  • Chantez = chant + ez

Dans nos exemples, les lexèmes sont les mêmes, seul le morphème change : er/ez. On parle ici de morphème grammatical, c’est-à-dire qu’il n’est pas lié à un problème de lexique mais de grammaire : infinitif (-er) et forme conjuguée (-ez) d’un verbe.
La morphologie qui est l’étude de la forme des mots permet donc d’automatiser la reconnaissance des mots.

  • un avion, des avions = lexème avion + morphème -S du pluriel = mot identique dont la forme change simplement à cause du contexte.

Ce principe permet aussi de reconnaître des pluriels particuliers comme cheval/chevaux, bail/baux. N’oublions pas que -S n’est pas la seule façon de marquer le pluriel en français !
Le fonctionnement est le même pour reconnaître un adjectif au féminin ou au masculin et un verbe quelle que soit la forme conjuguée.

Qu’est-ce que cela veut dire pour le référencement ?

Traitements sémantiques effectués par les moteurs de recherche

Les moteurs font ainsi des traitements sémantiques sur les mots plus avancés qu’il n’y paraît. Ils sont capables de :
Pour finir cette approche linguistique du traitement de l’information, voici une question qui concerne l’indice de densité idéal, le fameux pourcentage qu’il faudrait appliquer pour un mot clef d’après les tenants de cette technique :
Si pour optimiser vos textes vous utilisez cet indice, êtes-vous sûr de bien compter les mots ? D’ailleurs, faut-il compter les mots ou bien les lexèmes… ?
Je rappelle que Google a donné une réponse officielle concernant l’indice de densité et qu’Olivier en parle depuis longtemps sur WebRankInfo…
A bientôt sur le forum WRIl’on discute de mon article sur la reconnaissance des mots par Google.
Véronique Martin
Cet article vous a-t-il plu ?

Cliquez pour voter !

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L’inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé…) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L’inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé…) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

    En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé…) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.


    10 commentaires

    Jerome pasquelin

    ha oui bien vu, je pense qu’il faut l’interpréter comme ça. Ca parait logique en plus. Merci!

    Répondre

    Jerome pasquelin

    J’ai développé un outil de lemmatisation (par dictionnaires) en Français à cette adresse : http://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php

    Donnes moi ton avis à l’occasion

    Sur l’aide de Google par contre ils spécifient qu’ils n’utilisent pas cette technique : http://www.google.fr/intl/fr/help/basics.html
    “Pour garantir des résultats aussi précis que possible, Google n’applique pas de « lemmatisation » (réduction des mots au masculin et/ou au singulier, à l’infinitif, etc.) et ne supporte pas les recherches à base de caractères joker/wildcard”

    Tu en penses quoi?

    Répondre

    Olivier Duffez

    @Jérome : j’ai du mal à comprendre leur phrase, je suppose qu’ils veulent dire qu’ils ne font pas de lemmatisation au niveau de la requête, mais il me parait évident qu’ils en font quand ils indexent les contenus

    Répondre

    Eddy

    A priori et cela avec toutes les mises à jour récentes de Google, on tend à un Google qui classe les sites de plus en plus en fonction du contenu et de la manière dont le contenu sera rédigé.

    Ce n’est pas plus mal quelque part, étant donné que le gagnant final sera l’utilisateur.

    Le métier de rédacteur du web prendra encore de l’ampleur !

    Répondre

    Mini Cooper

    Merci pour cette interview
    j’arrive 2 ans après mais bon, c’est toujours d’actualité.

    Répondre

    Campagne

    Je suis premier sur “galette de patate” dans Google.ca mais pas sur “galette de pomme de terre” mais là bas on dit patate 😉

    Répondre

    ref123

    Bonsoir,

    Justement, s’il s’agit de “linguistique appliquée”, pouvez-vous nous en dire plus sur ce qui intéresse exactement des référenceurs ou webmasters : comment pensez-vous que Google intègre ces notions linguistiques à son algorythme et comment un site avec un mot-clé au singulier ressortira mieux dans les résultats de recherche qu’un site avec le même mot-clé au pluriel, ou quelle importance jouent ces critères, doit-on diversifier singulier et pluriel ou non…

    Merci.

    Répondre

    Olivier Duffez

    Je pense qu’on ne peut pas demander de répondre à toutes les questions sur cette thématique dans le tout premier article 😉 Il va falloir patienter un peu, participer au forum, etc.
    2 pistes sur les sujets évoqués : Google et le singulier/pluriel, Google et les différentes formes des mots

    Répondre

    Véronique Martin

    Il s’agit ici de vulgarisation, les notions présentées n’ont pas pour but de se référer à un courant précis de la linguistique ni de faire véritablement de la lexicologie ou de la morphologie. Je suis tout de même étonnée par votre remarque car j’ai expliqué, il est vrai très rapidement et très simplement (peut-être trop) le recours aux différentes catégories de morphèmes ! Il s’agit de linguistique appliquée.

    Répondre

    ref123

    Bonjour,
    La première partie de l’article est intéressante pour le linguiste que je suis même si j’ai un certain nombre d’objections quant à certains notions.
    Par contre la deuxième partie me semble un peu rapide. Google fait-il le même traitement d’un singulier et d’un pluriel, d’un féminin et d’un pluriel, on peut en douter… S’il fait le même traitement, comment le fait-il ?…
    Mais merci à son auteur(e) : la lexicologie est enfin reconnue officiellement !!!

    Ref123

    Répondre

    ha oui bien vu, je pense qu’il faut l’interpréter comme ça. Ca parait logique en plus. Merci!
    J’ai développé un outil de lemmatisation (par dictionnaires) en Français à cette adresse : http://www.jerome-pasquelin.fr/tools/outil_lemmatisation.php
    Donnes moi ton avis à l’occasion
    Sur l’aide de Google par contre ils spécifient qu’ils n’utilisent pas cette technique : http://www.google.fr/intl/fr/help/basics.html
    “Pour garantir des résultats aussi précis que possible, Google n’applique pas de « lemmatisation » (réduction des mots au masculin et/ou au singulier, à l’infinitif, etc.) et ne supporte pas les recherches à base de caractères joker/wildcard”
    Tu en penses quoi?
    @Jérome : j’ai du mal à comprendre leur phrase, je suppose qu’ils veulent dire qu’ils ne font pas de lemmatisation au niveau de la requête, mais il me parait évident qu’ils en font quand ils indexent les contenus
    A priori et cela avec toutes les mises à jour récentes de Google, on tend à un Google qui classe les sites de plus en plus en fonction du contenu et de la manière dont le contenu sera rédigé.
    Ce n’est pas plus mal quelque part, étant donné que le gagnant final sera l’utilisateur.
    Le métier de rédacteur du web prendra encore de l’ampleur !
    Merci pour cette interview
    j’arrive 2 ans après mais bon, c’est toujours d’actualité.
    Je suis premier sur “galette de patate” dans Google.ca mais pas sur “galette de pomme de terre” mais là bas on dit patate 😉
    Bonsoir,
    Justement, s’il s’agit de “linguistique appliquée”, pouvez-vous nous en dire plus sur ce qui intéresse exactement des référenceurs ou webmasters : comment pensez-vous que Google intègre ces notions linguistiques à son algorythme et comment un site avec un mot-clé au singulier ressortira mieux dans les résultats de recherche qu’un site avec le même mot-clé au pluriel, ou quelle importance jouent ces critères, doit-on diversifier singulier et pluriel ou non…
    Merci.
    Je pense qu’on ne peut pas demander de répondre à toutes les questions sur cette thématique dans le tout premier article 😉 Il va falloir patienter un peu, participer au forum, etc.
    2 pistes sur les sujets évoqués : Google et le singulier/pluriel, Google et les différentes formes des mots
    Il s’agit ici de vulgarisation, les notions présentées n’ont pas pour but de se référer à un courant précis de la linguistique ni de faire véritablement de la lexicologie ou de la morphologie. Je suis tout de même étonnée par votre remarque car j’ai expliqué, il est vrai très rapidement et très simplement (peut-être trop) le recours aux différentes catégories de morphèmes ! Il s’agit de linguistique appliquée.
    Bonjour,
    La première partie de l’article est intéressante pour le linguiste que je suis même si j’ai un certain nombre d’objections quant à certains notions.
    Par contre la deuxième partie me semble un peu rapide. Google fait-il le même traitement d’un singulier et d’un pluriel, d’un féminin et d’un pluriel, on peut en douter… S’il fait le même traitement, comment le fait-il ?…
    Mais merci à son auteur(e) : la lexicologie est enfin reconnue officiellement !!!
    Ref123
    Inscription à la newsletter
    Catégories
    Consulting SEO
    Envie d’améliorer votre référencement ?
    Consultant SEO depuis 2003, j’ai une très grande expérience en audit et consulting. Que ce soit pour une demande ponctuelle, pour un audit ou du long terme, je peux vous aider.
    WebRankInfo / Tous droits réservés 2023 – Mentions légalesMe contacter

    source

  • Catégorisé:

    Étiqueté dans :