Le CEO de Dataiku détaille sa stratégie 2022 ainsi que sa feuille de route en R&D. Une interview accordée ce 20 octobre 2022 à l’occasion de l’événement mondial de la société qui se tenait à Paris.
Fondé en 2013 à Paris, Dataiku a enregistré un chiffre d'affaires de plus de 150 millions de dollars en 2021, en hausse de plus de 60% sur un an. Présente dans 8 pays étrangers (Allemagne, Royaume-Uni, États-Unis, Singapour, Australie, Dubaï, Canada, Pays-Bas), l'entreprise compte plus de 1000 salariés dont 250 environ basés dans l'Hexagone. Elle revendique plus de 500 sociétés clientes dont 150 figurent dans le Forbes Global 2000.
Florian Douetteau. D'abord, nous constatons que le marché français du machine learning est très comparable aux autres. Les entreprises françaises qui investissent dans ce domaine sont aussi matures que les sociétés américaines. Autre tendance, les plateformes d'IA sont en train de migrer massivement vers le cloud. Les entreprises comprennent que cette voie leur permet de bénéficier d'un socle fédérant 90 à 95% de leurs données analytics pertinentes, avec une fluidité d'accès et une agilité. En se basant sur ce socle, elles peuvent ensuite créer toutes leurs applications intelligentes. Ce n'est d'ailleurs pas un phénomène propre à l'IA. Il concerne tous les développements d'entreprise.
En parallèle, nous observons une démocratisation du machine learning. Beaucoup de profils business ont une appétence pour l'analytics et le prévisionnel. Que ce soit dans le marketing stratégique, l'ingénierie financière, la supply chain, l'ingénierie en mécanique ou en process industriel. Tous ces métiers ont de plus en plus besoin des données. Un chimiste par exemple, qui accède aux données de sa cuve, sent qu'il y a quelque chose de plus à faire au-delà du choix de la température via une règle de trois en fonction de la température extérieure. Il connaît parfaitement ses data métier. Il sait les normaliser et les manipuler. Appliquer un algorithme d'apprentissage automatique est tout à fait à sa portée. Son approche en la matière sera d'ailleurs beaucoup plus pertinente que celle d'un data scientist pour décider comment faire.
Notre plateforme a été conçue pour tourner chez les trois principaux cloud providers (Amazon Web Services, Microsoft Azure et Google Cloud, ndlr). Mais aussi sur les principaux cloud data warehouse, notamment Snowflake. La première vague de migration vers le cloud consistait à basculer les serveurs et bases de données on-premise dans le nuage. La seconde porte sur les applications qui sont encore sur le poste de travail et sur les processus métier qui n'étaient pas encore dématérialisés. La grande majorité de nos clients ont atteint cette deuxième phase, et déploient Dataiku dans le cloud.
La plateforme Dataiku est historiquement conçue pour l'IA no code. Dès le départ, en 2013, nous l'avons imaginée comme un atelier de machine learning graphique, orienté no code / low code. Evidemment, c'est un environnement dans lequel le data scientist est libre de coder. Mais notre véritable enjeu était de permettre aux profils qui n'ont pas le temps d'apprendre à programmer de pouvoir plancher sur leurs données et modèles. C'est ce qui fait le succès de notre plateforme.
"La couche visuelle de Dataiku permet aux profils métier d'être autonomes vis-à-vis des data scientists"
On estime à un milliard le nombre de personnes à travers le monde équipées d'un ordinateur pour travailler. Au sein de cette population, 300 à 500 millions de professionnels au moins manipulent des données via des applications de type tableur. Quant aux data scientists, on estime leur nombre à 1 ou 2 millions. Un data scientist pour 1000 utilisateurs est un ratio très faible à l'heure où l'analytics et l'IA figurent parmi les briques clés de la transformation du travail. La couche visuelle de Dataiku que nous ne cessons pas d'améliorer permet aux profils métier d'être autonomes vis-à-vis des data scientists.
Dans la continuité de cette logique de démocratisation, notre premier enjeu est de fournir de plus en plus d'applications packagées au-dessus de notre plateforme pour faciliter et accélérer la prise en main du machine learning. On vit à l'époque de Netflix. Le logiciel d'entreprise se doit lui-aussi d'apporter une satisfaction en 48 minutes. Notre temps cerveau se calque désormais sur celui d'un épisode de série. Dans cette logique, il s'agit de proposer des applications préconstruites dans lesquelles la manière d'utiliser visuellement un modèle au sein d'un processus opérationnel est déjà fournie. Pour la finance par exemple, il pourra s'agir de modèles orientés gestion de risque ou prévision de cash.
"Nous avons déjà des clients qui se développent dans l'IA multimodale"
Notre deuxième enjeu en matière de R&D est lié à la gouvernance, l'explicabilité des modèles et l'IA de confiance. Ce qui passe par la traçabilité et la problématique de la qualité des données, mais aussi par une intelligence artificielle responsable.
Enfin, nous souhaitons renforcer les possibilités de notre plateforme dans l'ingestion de données non-structurées, en matière de textes, d'images voire de sons. 80 à 90% des cas d'utilisation de nos clients s'adossent à des données structurées. Mais il est clair que le recours à des données non-structurées en IA va devenir massif dans les années qui viennent. D'où cette stratégie.
Nous l'anticipons. Nous avons d'ailleurs déjà des clients qui se développent dans l'IA multimodale. C'est le cas dans la maintenance prédictive, le contrôle qualité sur des chaînes de fabrication ou encore dans l'optimisation de processus industriels. Dans ces différents cas, les modèles combinent des données de type textuel, par exemple des rapports écrits sur le terrain, avec des images des flux de fabrication.
Nous les prenons en charge. Dataiku s'intègre notamment avec les LLMs disponibles sur Hugging Face. L'utilisation de ces modèles fait aussi partie du futur. Pour les modèles de plusieurs centaines de milliards de paramètres qui ont été dessinés pour des cas d'utilisation générale dans le cadre de démonstration technologique, se pose la question de la pertinence en entreprise sur des contextes métiers souvent pointus, par exemple dans le cas d'un corpus de données pharmacologiques. Cette question reste ouverte. Idem pour les modèles génératifs (taillés pour automatiser la création d'images par exemple, ndlr) pour lesquels on cherche encore à cerner des cas d'usage business.
Florian Douetteau est CEO et co-fondateur de Dataiku. Diplômé de l'Ecole Normale Supérieure, il débute sa carrière chez Exalead, qu'il rejoint en 2000 pour mener une thèse sur le développement du langage de programmation Exascript. Il y restera jusqu'en 2011, occupant successivement plusieurs postes de direction et de vice-président dans les domaines de la recherche, du développement et du management de produits. Après un passage chez Is Cool Entertainment en tant que directeur technique, il intègre Criteo pendant quelques temps comme data scientist freelance, avant de se lancer dans l'aventure Dataiku en 2013.
Fondé en 2013 à Paris, Dataiku a enregistré un chiffre d'affaires de plus de 150 millions de dollars en 2021, en hausse de plus de 60% sur un an. Présente dans 8 pays étrangers (Allemagne, Royaume-Uni, États-Unis, Singapour, Australie, Dubaï,…
Je gère mes abonnements push
Les informations recueillies sont destinées à CCM Benchmark Group pour vous assurer l’envoi de votre newsletter.
Elles seront également utilisées sous réserve des options souscrites, par CCM Benchmark Group à des fins de ciblage publicitaire et prospection commerciale au sein du Groupe Le Figaro, ainsi qu’avec nos partenaires commerciaux.
Le traitement de votre email à des fins de publicité et de contenus personnalisés est réalisé lors de votre inscription sur ce formulaire. Toutefois, vous pouvez vous y opposer à tout moment
Plus généralement, vous bénéficiez d’un droit d’accès et de rectification de vos données personnelles, ainsi que celui d’en demander l’effacement dans les limites prévues par la loi.
Vous pouvez également à tout moment revoir vos options en matière de prospection commerciale et ciblage. En savoir plus sur notre politique de confidentialité ou notre politique Cookies.