Nous sommes heureux de vous annoncer la mise à disposition de Datafari 5.3. Pas mal de changements depuis la version 5.0 sur laquelle nous avions communiqué, on en fait la liste un peu plus bas.
Pour rappel, Datafari est une solution de recherche pour entreprise, sous licence Apache v2. Où que les connaissances se trouvent et sous quelque format que ce soit, elle permet aux employés de retrouver les données utiles. Plus concrètement, il s’agit de récupérer et d’indexer les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et de permettre de chercher aussi bien l’intérieur des documents que leurs métadonnées. On parle également de fédération des connaissances et des savoirs au sein d’une organisation. Pour cette dépêche, on se concentre sur la version libre et open source (mais il y a aussi d’autres nouveautés sur la version entreprise propriétaire).
Page de resultats de recherche dans Datafari
Les nouveautés et changements principaux par rapport à la 5.0 version Communautaire Open Source :
Pour voir à quoi ça ressemble, nous avons téléversé une courte vidéo de démonstration. Pour démarrer tout de suite, le mieux est d’aller lire le quick start guide. Nous mettons gratuitement à disposition notre documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement.
Pour rappel, on trouvera ci-dessous les principales fonctionnalités de Datafari en tant que moteur de recherche.
Datafari est un moteur de recherche pour entreprise : membres de la famille des outils de gestion des connaissances, les solutions de recherche fédèrent les connaissances en analysant et indexant tous les documents d’une organisation, aussi bien leur contenu que leurs métadonnées. Pour cela, le moteur de recherche doit être multi‐sources, multi‐formats, et gérer la sécurité. En outre, il faut permettre l’administration de l’outil.
Pour 2023, nous passerons à Datafari 6 avec Solr 9, qui permettra de démarrer des travaux de R&D sur la recherche vectorielle en natif. En parallèle, nous travaillons à l’intégration de modules d’extractions d’entités à la phase d’indexation.
Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez-en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ha et si vous l’utilisez déjà, n’hésitez pas à en parler sur le web !
Posté par  . Évalué à 6 (+4/-0).
Ne trouvant pas mention de la license de ce projet libre, je suis allé à la pêche aux infos. Datafari est sous license Apache-2.0. Les téléchargements sont fournis en paquets Debian, image Docker et image pour machine virtuelle. Y’en a qui font les choses bien!
Posté par  . Évalué à 2 (+1/-0).
Ma faute désolé, j’avais mis en étiquette “Apache2” mais en me relisant, je me dis que ca ne veut pas dire grand chose. Vous avez raison, nous sommes en licence Apache v2.
Posté par  (site Web personnel) . Évalué à 4 (+1/-0).
Info ajoutée dans la dépêche, merci.
Posté par  . Évalué à 3 (+0/-0).
Quelqu’un a déjà fait un test ? Par exemple sur le contenu de linuxfr ?
On voit bien l’intérêt de ce genre d’outil, mais j’ai toujours été déçu par la qualité des résultats retournée. On est d’habitude loin d’un moteur de recherche classique.
"La première sécurité est la liberté"
Posté par  . Évalué à 4 (+3/-0).
Il faut faire attention au fait que Datafari fait partie de la famille des moteurs de recherche pour entreprise: à ce titre, sa spécialité n’est pas d’être un des meilleurs moteur de recherche web (il y a des projets comme Apache Nutch pour cela, et des crawlers comme Norconex ou scrappy), mais d’être multisources et multiformats: cela veut dire pouvoir tout aussi bien indexer des contenus drupal que nuxeo, xwiki, partages de fichiers, bases de données etc, et des fichiers de types libre office, MS office, zip, pdf … C’est un défi à part entière de gérer tout ca en même temps, et c’est là-dessus que se spécialise Datafari, pas dans l’optimisation du crawl web (même si c’est bien sûr tout à fait possible et certains le font, mais ca nécessite de la customisation pour que le résultat soit plaisant). J’espère avoir été plus clair !
Posté par  . Évalué à 4 (+1/-0).
J’imagine bien que le défi pour lire plein de format est complexe pour construire l’index. Mais ensuite, pour répondre à une demande que l’on index du html ou du word, la qualité de résultat attendu est la même.
Je pense à un autre truc : comme gérez-vous les droits d’accès ? Souvent, on a le droit de lire un document mais on n’a pas l’accès qu’il faut demander. Est-ce que le moteur index aussi ce qui est protégé ?
"La première sécurité est la liberté"
Posté par  . Évalué à 6 (+5/-0).
“La qualité de résultat attendu est la même” => en fait non, cela dépend des process métiers qui nécessitent l’usage de l’outil de recherche.
Il y a deux aspects à concilier pour un algorithme de calcul de la pertinence des résultats, c’est la précision et le rappel (resp. combien de documents sont corrects parmi ceux retournés, et combien de documents le moteur a réussi à trouver parmi tous ceux qui sont pertinents).
Certains comme les juristes sont souvent plutôt orientés sur le rappel: ils peuvent vouloir voir tous les documents pertinents pour une enquête, même s’il faut regarder des pages et des pages de résultats; d’autres comme les opérateurs de maintenance vont être orientés plus sur la précision: ils veulent la dernière version du document technique du matériel à maintenir. En dehors du monde de l’entreprise, les internautes sur le web sont plutôt orientés sur la précision: le premier résultat est celui qu’on va sans doute vouloir regarder, les autres c’est moins grave.
On ne peut pas “automatiquement” concilier les deux, cela va se faire en fonction du contexte. Dans notre cas on préconfigure Datafari pour être au milieu du guet.
Et pour les outils qui se spécialisent sur du pur web, ils peuvent aussi bénéficier du calcul du cross référencement (type pagerank), qui n’existe pas dans les corpus intranet types partages de fichiers.
Pour ce qui est de la sécurité, on ne la propose pas dans la version open source mais dans la version Entreprise (et on pense le faire bien, c’est qui fait que Datafari est utilisé dans le nucléaire ou la défense par exemple). A noter cependant que nous n’avons mis aucun bloqueur technique pour empêcher la communauté de rajouter une telle fonctionnalité, il faut par contre apprendre comment Datafari fonctionne.
Posté par  . Évalué à 3 (+1/-0).
nous n’avons mis aucun bloqueur technique pour empêcher la communauté de rajouter une telle fonctionnalité
Ça m’interpelle. Depuis tant d’années, vous auriez pu décider de fermer un peu les choses, mais vous demeurez très ouverts. C’est une conviction forte ?
Posté par  . Évalué à 2 (+2/-0).
s/vréer/créer/ ?
Posté par  (site Web personnel) . Évalué à 4 (+1/-0).
Corrigé, merci.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.
Revenir en haut de page

source

Catégorisé: