En septembre dernier, Qwant a bien voulu nous ouvrir ses portes à Nice, là où l’entreprise concentre ses équipes. L’occasion d’ouvrir le capot de ce moteur. Ce rendez-vous a été rythmé par une longue interview d’Éric Léandri, cofondateur et directeur général que nous publions ci-dessous. Elle sera suivie par un échange avec les équipes en place.
2010, Google change de direction. Larry Page nous dit que cet outil n’est plus un moteur de recherche, mais un univers. Si on reprend la théorie des ensembles, le tout c’est Internet, l’univers c’est une partie de l’Internet. Si on n’est donc qu’une partie de l’Internet, on n’est pas Internet et on décide de faire du vertical…
Avec Jean-Manuel Rozan, on s’est dit alors que l’on pourrait démarrer un nouveau concept, ouvert. L’idée est d’autant plus prégnante que Google a décidé d’arrêter de crawler les réseaux sociaux. À l’époque, l’entreprise avait démarré Google Plus, stoppant dans la foulée l’indexation de Twitter ou ses liens avec Facebook. Pour la première fois, Google décidait donc de ne pas tout indexer, alors qu’auparavant, si on n’était pas sur ce moteur, on n’était pas sur Internet. Ce moteur n’était donc plus la Suisse de l’Internet, un intermédiaire neutre qui te met premier si tu as un bon ranking.
Sont arrivés ensuite Google Shopping, Google Travel, et ainsi de suite. À partir du moment où on verticalise, on ferme le web. Or, j’insiste : Internet, c’est « Interconnexion Network », pas « interconnection d’une partie du network. »
C’est aussi à ce moment-là que le tracking a commencé à faire sa place au soleil. Si je peux comprendre que le retargeting puisse améliorer le taux de clics sur la publicité qui finance des sites d’actualités, j’ai plus de difficultés à comprendre l’utilité pour un moteur de savoir si je suis malade, si je suis grand petit, un homme, un enfant, etc. Je ne vois pas l’intérêt de tout savoir sur quelqu’un, ou plus exactement – je ne suis pas idiot – quelle est cette logique. Nous avons donc pensé que le mieux était de revenir à quelque chose de simple et de faire un moteur de recherche.
Jean-Manuel Rozan vient de la finance, moi de la sécurité et de l’informatique. Patrick Constan de Pertimm, un moteur de recherche utilisé par Pages Jaunes, Auchan, Meeting, Monoprix, Cdiscount, etc. L’intérêt initial était d’amener des finances. En 2011, nous sommes allés voir des gens pour leur demander un coup de pouce. Nous avons levé alors 3 millions d’euros entre nos apports et ceux des proches.
On est toujours majoritaire à trois. On a un quatrième actionnaire, Alberto Chalon qui nous a rejoints assez rapidement. Tous les quatre, nous avons en tout 72 %. Outre les « families and friends », Axel Springer détient 19,11 % du capital.
Comme beaucoup de monde, nous avons eu le CIR (crédit impôt recherche), outre des abattements en tant que JEI (jeune entreprise innovante). Rien de plus que cela, même si c’est déjà pas mal. Ce n’est pas l’État qui nous finance. C’est nous et le privé qui continuons à mettre de l’argent avec un objectif aujourd’hui : s’ouvrir à l’Europe pour être le plus en conformité avec nos valeurs.
Google c’est 93 % du marché de la recherche en Europe. Aux États-Unis, 60 % environ. Au Brésil, 65 %, au Japon, 50 %, en Russie, c’est 45 %, en Corée du Sud 8 %. En gros, il n’y a qu’ici que Google obtient de tels chiffres.
La première chose est simple : on a tous essayé de faire la même chose, du Google contre Google, c’est quasiment impossible ! Exalead a essayé, tout comme Voilà ou Orange. Faire contre le meilleur du monde, celui doté du plus grand nombre de serveurs, c’est compliqué !
Alors est-ce qu’il y a une place ? Oui. Est-ce qu’elle est facile à prendre ? Non, mais ce n’est pas impossible. Partout dans le monde, des acteurs se sont fait cette fameuse place. Et nulle part, il ne s’est agi de remplacer une boite de 600 milliards de dollars. En Corée, le moteur phare fait par exemple des réponses comme Google, mais ne lui ressemble pas. Il s’appuie sur des fonctionnalités supplémentaires reposant notamment sur l’échange en direct. En Russie, il est possible de trouver des taxis à Moscou, etc.
On commence depuis le début. On essaye d’abord d’en créer un, de le rendre effectif, de le faire marcher, d’expliquer ce qu’on veut faire, en présentant le projet à des testeurs, des hackers, des « early adopters », des gens de l’INRIA, du CNRS, etc. On cherche en parallèle des financements pour pérenniser le projet sur plusieurs années, et on embauche des gens pour essayer de faire grandir tout cela progressivement. C’est tout bête. Le moteur de recherche dans Internet, c’est une industrie. Il faut du monde, réussir, indexer le web, le mettre à l’écran. Il n’y a pas d’autres options, pas de feinte. Dans tous les cas, vous n’avez pas besoin de tracker. Rappelons qu’Adword n’a traqué personne jusqu’en 2009…
Quand Snowden s’est pointé pour nous expliquer que ce n’est pas bien d’être tracké, soit. Mais dès 2011, nous le disions déjà : le seul endroit où il ne faut pas pister, c’est avant tout sur un moteur, car c’est le pire des endroits où on sait tout sur un utilisateur. Je dirais même plus : c’est le seul endroit où il faut arrêter le tracking et où il n’a aucun sens. Personne ne chercherait un site de cul devant tout le monde. Pourtant c’est le cas…
Oui, pendant des années, on a cru que chercher sur Internet, c’était tranquille, on était seul. On a téléchargé un film, une musique, à minuit, à la maison en croyant que tout se passait bien. Puis Hadopi est arrivée. On a vu l’extraordinaire résultat de cette machine de guerre, mais il y a tout de même des gens qui se sont pris des avertissements.
Quand Snowden a expliqué que tout ce qui avait été dit avant n’était pas de la science-fiction, mais bien encore pire que prévu, cela a commencé à être clair dans la tête des gens. En Allemagne, pays qui a connu la Stasi, tout le monde sait à quoi ça sert de cacher – non pas des méfaits, c’est le rôle de la police – mais des éléments de la vie de tous les jours, de la vie personnelle, conjugale, etc.
J’en ai une liste. Le fait de réussir à avoir un index suffisamment bon, le fait d’aller assez vite pour que les utilisateurs n’aient pas l’impression que Qwant est moins rapide que le voisin. Le fait d’améliorer les résultats donnés. Le fait d’être multilingue, tout en gérant les problématiques CNIL en fonction des pays et des usages. Le fait qu’aujourd’hui, nous avons tous nos réseaux, nos serveurs, nos firewalls chez nous. Quand je veux augmenter de X mon infrastructure, je dois commander des serveurs, les poser chez moi, les configurer. Ce n’est pas en appelant Amazon pour en rajouter une cinquantaine, en faisant tranquillement grossir tout cela sur les serveurs des voisins, avec une IP et des datas qui passent partout…
Ce sont des contraintes qu’on s’est rajoutées, mais qui demain nous amèneront un point fort si nous réussissons à avoir un index complet. Un tel index ne se construit pas en trois secondes. Il y a des gens qui trouvent plein de choses sur Qwant, d’autres, pas grand-chose, qui trouvent cela nul…
Il y a aussi le problème de ceux qui font des grandes requêtes, ceux qui sont entrés dans Google avec un mode « je lui raconte ma vie » et j’appuie sur Entrée. Les grandes phrases sur Qwant, ce n’est pas le top, car on n’est pas au niveau de Google pour la sémantique, mais on s’améliore. Il nous fallait avant tout des requêtes pour améliorer la situation. Voilà pourquoi le démarrage de Qwant a pris un certain temps. Et cette situation se reproduit à chaque lancement dans un nouveau pays.
En Allemagne, par exemple, nous avons fait un nouveau portail d’actualités. Si sa version française marchait plutôt bien, celle outre-Rhin montrait ses limites tout simplement parce que parfois on n’a pas assez de « n-gramme », soit le nombre de mots qui vont donner une information. Rappelez-vous cette horrible histoire survenue cet été, ces migrants morts dans un camion frigorifique autrichien. Nous sommes passés à côté d’un grand nombre d’articles le jour du drame, car « Migrants », « Autriche » et « Camion » n’étaient pas forcément les expressions que nous avions identifiés comme mots clefs importants dans la liste des dictionnaires sémantiques allemands. C’est le genre d’incidents qu’on a réparé, mais qu’on ne peut réparer qu’en les constatant.
On utilise environ 200 critères, dont le fonctionnement est proche de ce que fait un moteur classique. Sorti de cela, voilà quatre ans qu’on a déposé des brevets concernant les liens entre réponses sociales et web, car pour nous, les commentaires sous les vidéos YouTube, dans les réseaux sociaux, etc. doivent avoir du poids dans les résultats et un poids variable. Un exemple : ta page Twitter, qui est plutôt bien « followée ». C’est une page. Elle a un pagerank, un nombre de mots, un ensemble de contenus sémantiques, sauf que même si tu es bien suivi, il n’y a pas autant de monde que sur NextINpact.com.
Aujourd’hui chaque objet sur Internet est différent. Un objet vidéo avec ses commentaires est différent d’une page web. Pour la vidéo de PSY, ce qui a du sens n’est pas seulement que cette page est connectée à plein d’autres, mais aussi les commentaires et le nombre de fois où les internautes ont été voir ce contenu. De même, dans les actualités politiques, il y a parfois des pages très peu vues, mais avec des gens qui disent des choses très intéressantes.
L’idée est donc de trouver un moyen de donner un poids pour chacun de ces verticaux. C’est très différent de ce que fait Google, même si au départ on a tous fait comme cet acteur.
La question est plutôt de se demander si Mme Michu serait mieux avec du shopping en moins ou en plus, au final… Tous les systèmes de ranking sont basés sur des critères, sur la crédibilité des liens, etc. bref tout ce qui est le moins subjectif possible. Ceci a très bien marché sur Google de 1998 à 2009. Moi, l’ancien Google me plaisait plutôt pas mal ! Le nouveau commence à me fatiguer, car en fin de journée, j’ai l’impression que de temps en temps, il y a plein de services qui tombent. J’ai aussi l’impression que ce sont toujours un peu les mêmes qui montent, les nouveaux services de Google. Et je trouve du coup qu’on est en train de fermer plutôt que d’ouvrir…
C’est de l’infinie scroll, qui va jusqu’à la page 5. Sur les autres moteurs de recherche, rares sont ceux qui vont jusque-là. Nous n’avons pas été plus loin, car nous savons que c’est peu pertinent. Il vaut mieux donc être un peu malin, affiner sa requête. Ouvrir plus avec des résultats de moins en moins pertinents n’est pas absolument génial.
Déjà, mettre Qwant en open source. Cela ne tardera pas, car on attend que le « front » soit bien écrit, bien commenté.
On aimerait aller le plus loin possible, mais cela supposerait qu’on mette le rank en open source. Pour le front, nous allons opter pour une licence qui ne nous obligera pas à tout ouvrir, tout en vous permettant de vous en servir si vous trouvez cela sympa.
Parmi les autres points forts, le site marche bien, est responsive, va vite… Nous avons supprimé tous les cookies, les trackers et tous nos partenaires s’engagent à ne pas en installer…
Les sources mises en avant sont souvent celles qui postent les premières. On tient aussi compte de celles qui ont le plus de commentaires, le plus d’informations. Ce n’est jamais basé sur le fait qu’on va me payer pour terminer premier ou deuxième. Il faut faire une information, il faut qu’elle soit retweetée, commentée, validée, qu’elle soit arrivée la première, et pas une ne dépêche AFP en CTRL+C CTRL+V, etc. Ceux qui respectent ces critères terminent dans les premiers de façon algorithmique. Il n’y a pas de retouche à la main, ou quoi que ce soit qui ne soit pas mathématique.
Oui et ça, beaucoup plus vite que le reste, car cet univers est plus restreint, fort de sites qui ont une certaine crédibilité.
Une seule information d’un blog qui vient d’ouvrir, extrêmement commentée, mais en mode anonyme, avec aucune crédibilité au départ, terminera dans le web ou le social. Inversement, un blog, là depuis des années, qui poste une actualité reprise par des réseaux différents, peut terminer dans la partie News. Le critère de crédibilité est lié à la page, à la date de création, au nombre d’articles, au retweet des articles, etc. bref, à plusieurs poids. Aujourd’hui, il y a des blogs sur la page actualité de Qwant. Ce sont des contenus quasi journalistiques, créés avec de vraies valeurs ajoutées.
Le jour où on a accepté Axel Springer, on a pris soin d’opter pour des clauses particulières. Ce groupe reste chez Qwant tant qu’est garantie la neutralité et que personne n’est mis en avant. En rentrant chez nous, Axel Springer a plutôt faussé sa possibilité de passer devant que l’inverse, car on passe nos journées à vérifier qu’on ne fait pas d’erreur. Pour les autres qui entreront derrière, c’est exactement pareil : rentrer chez nous, c’est arriver chez des gens qui ont des algorithmes identiques pour tout le monde, qui sont neutres, même s’il y a une dose de subjectivité dans le choix des poids. Entrer chez nous, ce n’est pas terminer premier.
En toute évidence, des grands titres comme Build, The Bilt, The Guardian, etc. ont une crédibilité et des journalistes professionnels et doivent normalement sortir de bons articles avec de bons retours.
Car ces personnes croient à la nécessité de disposer d’index en Europe, d’alternatives les plus claires possible. Cela les rassure que l’on veuille quelque chose d’objectif, de neutre et de clair. Qwant est parti pour ouvrir, d’autres pour fermer.
Le montant est confidentiel, disons entre 5 et 10 millions d’euros. Avec, on a pu recruter, acheter des serveurs, augmenter nos capacités de crawl, d’indexation et d’affichage, tout en améliorant l’ergonomie, le sémantique en français et en allemand. L’idée globale est aujourd’hui de se préparer à la croissance et d’obtenir des compétences vraiment fortes dans le sémantique.
Avec les levées de fonds, l’idée est aussi de continuer l’indexation, mieux valoriser le shopping, les images, les vidéos… tout ce qu’on a crawlé est en train d’être amené à l’écran.
Neutralité des plateformes et d’Internet, ce n’est pas la même chose. Comment font alors les publicités pour être neutres, puisqu’il suffit que la régie paye pour être premier ? Pour nous, on peut être neutre parce qu’on fait la même chose pour tout le monde et on ne te met pas en avant parce que tu payes. Il suffit finalement de suivre tous les standards, les obligations du Net érigées depuis le début afin de ne pas les dévoyer.
Maintenant clairement, vouloir transformer la subjectivité de la recherche en quelque chose d’objectif, un algorithme mathématique parfait, merveilleux, personne ne sait le faire. On est sur une plateforme « fair » qui est un concept très différent à la quête de ce type de neutralité. Cela vise notamment à ne pas renverser le business de tous les autres en jouant sur des paramètres. Quand Google, qui pèse 93 % de la recherche, fait un pas, il écrase tout le monde. C’est comme si Auchan décidait de fermer toutes les boutiques qui sont en face de chez lui pour ne conserver que les siennes. Avec 30 %, il écrasera encore, mais pas tout le monde. Aujourd’hui, l’enjeu est de créer de la concurrence et du B2C qui soient les plus proches de nos valeurs européennes.
C’est super simple. On tape iPad, on trouve iPad, on clique sur un lien, on fait de l’argent. C’est de l’affiliation, sachant qu’un moteur concurrent accapare 93 % du chiffre d’affaires de ces activités.
À partir du moment où on trouve un système dans lequel les algorithmes ouverts tiennent face à des stratégies de S.E.O (search engine optimisation, optimisation pour les moteurs de recherche), c’est avec grand plaisir qu’on deviendra le plus transparent possible !
Aujourd’hui, si on ouvre tout, le plus grand risque serait de se faire défoncer les résultats… C’est donc un jeu compliqué cependant, s’il y a un truc que j’aime beaucoup, c’est de se faire auditer par des gens de l’open source. Quand on ne peut pas ouvrir complètement, optons pour ces audits puisque la confiance n’exclut pas le contrôle. De même, lorsque la CNIL passera l’un de ces quatre matins, nous n’aurons évidement aucun problème pour tout lui présenter.
À partir du moment où vous pouvez décider d’un droit de vie et de mort sur tel acteur, ce qui va aller en avant en arrière, ce n’est plus du tout la même chose : on entre dans une problématique non d’algorithme, mais de position dominante. Personne n’a eu d’appel d’offres pour mettre Google dans tous les ordinateurs, et maintenant pour l’en sortir, c’est plus compliqué. Les administrations font des marchés publics pour les stylos, non pour les moteurs qui sont gratuits. Or, si vous enlevez le baobab qui empêche aux autres de grandir, vous leur laissez plus de lumières.
On s’inscrit dans un cadre européen. Aujourd’hui, je fais un maximum pour ne plus rien avoir à conserver, car je ne suis pas éditeur de contenu. Je fais juste mon job de provider des liens vers le web. Si vous avez un site djihadiste à surveiller, ce n’est pas le moteur à surveiller, mais le site. C’est idiot, mais c’est comme ça.
De notre côté, on est à un déplacement de front de régler le problème d’une boite noire, s’il venait à se poser. Je comprends qu’on essaye de trouver des gens, d’empêcher les attentats, mais je ne comprends pas l’idée de mettre un tamis géant qui va tout prendre pour essayer de trouver les vilains petits poissons. Quel est l’algorithme qui permet de trouver un terroriste ? Comment marche-t-il ? Sur quoi est-il basé ? Qu’est-ce qui est pris ? De plus, en termes de coût, avec les pétas que l’on crawle, rien que nous, cela va représenter de 1 à 2 millions d’euros par mois de serveurs.
Oui, sauf si je déplace mon front. C’est quelque chose que j’ai déjà dit 10 fois. Sans évoquer la morale, je ne vais pas détruire tout un business, qui m’a couté des millions d’euros, pour ce que je considère être une problématique d’affichage de fermeté. Qui va garder son front en France alors que les points de chute en Europe foisonnent ? Maintenant, est-ce qu’on va le faire ? Je ne pense pas, car je crois qu’aujourd’hui on est plus dans des effets d’annonce alors que les faits se repèrent peut être davantage sur Twitter et Facebook…
Ni éditeur ni hébergeur. Dans l’un et l’autre de ces statuts, il faut garder les données des utilisateurs. Nous sommes dans un cadre très particulier et on fait tout pour y rester.
J’ai des demandes, je les exécute au cas par cas, via notre juriste, puisqu’un traitement automatisé est impossible. Quelqu’un m’a demandé par exemple de déréférencer le fait qu’il était scientologue. Nos avocats nous ont dit que cela relevait du fait religieux, on l’a enlevé.
On en arrive malgré tout à un système assez fou qui consiste à ce que je demande la pièce d’identité des personnes que je dois déréférencer, moi qui ne veut traquer personne ! En attendant, outre les questions de coûts, ceci nous confronte à des cas parfois très problématiques.
On a travaillé tout l’été sur la violence et le sexe. Les tests se sont montrés efficaces dans les écoles, voire très satisfaisants. Le problème est qu’on se devait d’être plus que parfait. Ces tests ont continué au-delà, car il y a eu des petites défaillances que nous avons corrigées. On a eu par ailleurs des opportunités de déploiement avec des partenaires qui font des tablettes pour enfant.
Il y a plus de 4,5 millions de sites sur la liste noire. Nous avons pris pour appui celle de Toulouse (cette université diffuse une liste noire d’URLs depuis plusieurs années, ndlr) en l’enrichissant au fil des crawls. Nous avons également des listes blanches de sites, traitant pourquoi pas de biologie puisque jusqu’à preuve du contraire, les fesses sont aussi une partie du corps humain.
Autre fait intéressant : « Djihad » est aujourd’hui synonyme de guerre sainte et de folie, mais c’est aussi des règles de l’Islam. On ne peut pas virer tout l’islam d’Internet sous prétexte qu’il y a des fous. La violence a finalement été plus complexe à gérer que le sexe, notamment parce que ceux qui éditent des vidéos sont parfois très forts pour tricher.
Qwant Jurior, c’est finalement 1 ou 2 milliards de sites indexés, minus le sexe et la violence. On a utilisé également des ranking différents, les sites commerciaux ayant été repoussés. L’idée a été finalement de rendre le web plus propre, plus orienté sur l’apprentissage.
Oui, mais on les prend ces risques. Entreprendre c’est prendre des risques, prendre ses responsabilités. On a aussi une astuce dans Qwant Junior : celle qui permet de signaler une image en un clic. Ce signalement entre alors dans nos algorithmes aux fins de vérification.
Non, mais si quelqu’un nous refait le même tableau en photo avec sa copine, on le supprimera. Juridiquement, on s’astreint à mettre tous les meilleurs moyens pour apporter ce service.
La mise en avant des photos et des vidéos, dès la première page, avant même que vous ayez tapé quoi que ce soit. L’idée est de vous amener des choses récupérées d’un peu partout afin de vous éviter d’avoir à les chercher. Cela pourra être dopé grâce à l’actualité, aux films, à votre Netflix, votre Canal Play, etc.
Il y avait un deal payant qui a pris fin, mais nous utilisons toujours ces produits, que nous continuons à auditer. Nous regardons également notre bande passante pour voir ce qui entre et ce qui sort. Via nos firewalls et nos fronts, qui ne sont pas du Huawei, on vérifie s’il ne se passe rien. Et il ne se passe rien.
Pour information, nous avons signé un accord avec le fabricant pour interdire ce genre de pratique sous peine de lourdes sanctions commerciales avec compétence des tribunaux français. J’avais proposé la même chose à d’autres industriels, mais il n’y que Huawei qui a signé. Pourquoi pas les autres ? Il paraîtrait que très bientôt certains grands groupes américains seraient prêts à signer la même chose et ouvriraient leur code…
À Paris. On a plusieurs pétas en SSD pour crawler le web avec une centaine de machines, et bientôt plusieurs milliers. On a multiplié nos chiffres par 10 l’an passé, on devrait les multiplier par 10 l’année prochaine.
Côté utilisateurs et nombre de requêtes, on a fait 30% de plus en avril, 50 % de plus en mai, 60 % de plus en juin, 10 % de plus en juillet. En août, on a perdu 0,31% du trafic et depuis la dernière semaine d’août, nous avons explosé tous nos chiffres. En gros, on est à 30 à 40% au-dessus de nos prévisions et j’espère finir l’année à +50%. Les chiffres des statistiques entre les moteurs ne sont pas bien pertinents sachant que les modes de calcul diffèrent. Chez Qwant, entre la page 1, 2 et 3 ou telle catégorie, il n’y a qu’une requête. Et chez les autres ?
Il a été produit grâce au soutien de nos abonnés, l’abonnement finance le travail de notre équipe de journalistes
2000 – 2023 INpact MediaGroup – SARL de presse, membre du SPIIL. N° de CPPAP 0326 Z 92244.
Marque déposée. Tous droits réservés. Mentions légales et contact
Vous n’avez pas encore de notification
Vous n’êtes pas encore INpactien ?
ABONNÉS
7569