Trouver un article
Thèmes populaires
Avec ses 175 milliards de paramètres, GPT-3 est l’intelligence artificielle la plus sophistiquée jamais réalisée à ce jour. Découvrez comment fonctionne la technologie à la base de cette IA, ses qualités et ses usages, grâce au décryptage de Michel Poujol, expert de l’IA chez Sopra Steria.
L’IA GPT-3 développée récemment par OpenAI (société créée par Elon Musk) rivalise avec BERT, une autre IA guère moins sophistiquée et conçue par Google pour accomplir différentes tâches en traitement automatique du langage. Or, derrière GPT-3 et BERT, se cache une technologie commune : celle des Transformers.
Les premières IA à base de Transformers sont apparues fin 2017 dans le domaine du traitement automatique du langage naturel. Michel Poujol, co-responsable des activités sur l’intelligence artificielle au sein de la direction technique de Sopra Steria, nous explique comment fonctionnent ces Transformers, quels en sont les usages actuels et à venir, notamment dans l’industrie.
Les Transformers ont été développés initialement pour le traitement automatique du langage naturel, que nous appelons communément NLP (Natural Language Processing). Ils résultent d’un assemblage judicieux de concepts très astucieux mis au point et testés par des laboratoires de recherche comme ceux de Google ou d’OpenAI. Ils sont fondés sur des mécanismes dits « d’attention » qui ne sont pas nouveaux, mais qui sont ici magistralement bien utilisés. Ils offrent aussi des modes d’apprentissage semi-supervisés qui constituent également des atouts majeurs.
Non, actuellement les modèles d’IA à base de Transformers sont énormes et même gigantesques pour certains comme GPT-3, qui comporte 175 milliards de paramètres et qui constitue le modèle d’IA le plus gros et le plus sophistiqué jamais réalisé. À titre de comparaison, les modèles BERT ne présentent que de l’ordre de 100 à 400 millions de paramètres. Ces chiffres sont impressionnants, mais cela s’explique par le fait que ces IA ont pour ambition de pouvoir être déclinées dans chaque langue en une quasi-infinité de modèles très performants répondant chacun à un cas d’usage particulier. Pour cela, ils doivent emmagasiner un savoir « quasi universel » dans chaque langue. Si nous reprenons l’exemple de GPT-3, il a été entrainé sur des milliards de documents en anglais incluant l’intégralité des pages de Wikipédia dans cette langue, mais, pour vous donner un ordre de grandeur, ces pages ne représentent que 0,6 % du corpus total de texte dont il s’est servi pour son apprentissage.
Initialement, les Transformers ont été créés pour faire de la traduction, de la classification ou de la génération de textes. Très vite, on s’est aperçu qu’ils excellaient aussi dans pratiquement toutes les autres tâches de NLP.
Les précédentes solutions de NLP utilisaient une représentation statique des mots sous forme de vecteurs, et quand bien même des techniques (comme Word2vec) avaient permis des progrès très significatifs dans cet encodage, celui-ci était figé et indépendant du contexte. Par exemple, si je dis : « en particulier, ma voiture que j’ai vendue » ou « ma voiture que j’ai vendue à un particulier », dans ces deux expressions, nous constatons que le terme « particulier » n’a pas du tout le même sens. Avec les anciennes approches, sa représentation aurait été la même.
Les Transformers utilisent en entrée cette même représentation des mots, mais ensuite ils l’adaptent en fonction du contexte à l’aide d’un modèle dynamique de langage qui est appris. Les Transformers apprennent donc non seulement à représenter dynamiquement les mots et expressions en fonction de leur contexte d’usage, mais aussi à identifier ces différents contextes à l’échelle d’une phrase ou d’un paragraphe, voire plus.
L’une des qualités les plus remarquables des Transformers, du moins en NLP, est de pouvoir réaliser l’essentiel, voire tout leur apprentissage de manière non supervisée, c’est-à-dire sur des textes « bruts » sans plus d’information ou d’annotation sur leur contenu. Avec les anciennes méthodes, les modèles de NLP devaient apprendre, en même temps et de manière supervisée, à la fois le langage et la tâche qu’ils devaient accomplir dans ce langage. Cela nécessitait beaucoup d’exemples et de nombreux efforts pour constituer les jeux d’apprentissage.
Avec les Transformers, l’entraînement se déroule en deux étapes :
J’ai la conviction que ces principes d’apprentissages semi-supervisés, qui confèrent à cette technologie un atout considérable en NLP, sont transposables à bien d’autres domaines, comme le traitement d’images ou de signaux. La recherche dans ces domaines en est toujours à un stade exploratoire, mais les premiers résultats sont très encourageants.
Si on revient au NLP, on peut dire qu’en moins de 2 ans les Transformers ont permis des avancées considérables dans pratiquement toutes les tâches de ce domaine. Sur certaines de ces tâches, nous avons aujourd’hui des IA qui sont au même niveau que les humains, voire même plus performantes. Il a d’ailleurs été nécessaire de définir de nouveaux tests de comparaison, car les anciens portaient trop à penser que les humains étaient déjà dépassés.
Ce qui est certain, c’est que les Transformers permettent d’envisager des cas d’application qui paraissaient illusoires il y a seulement quelques mois. Pour autant, aussi puissantes que soient ces IA et aussi spectaculaires que puissent être leurs résultats, notamment pour GPT-3 qui fait couler beaucoup d’encre, elles n’ont toujours aucune conscience de ce qu’elles font. Personnellement, je partage l’avis de nombreux chercheurs, qui préfèrent employer l’expression « intelligence augmentée » plutôt que d’« intelligence artificielle » pour désigner ce type de technologie.
Comme on vient de le voir, cette technologie est loin d’avoir été pleinement exploitée dans le domaine du NLP, notamment pour toutes les problématiques de recherche d’informations dans des corpus documentaires très importants et très complexes. Peut-être en avez-vous déjà pu faire l’expérience avec des moteurs de recherche qui intègrent déjà cette technologie, comme celui de Google : pour rechercher une information, vous n’avez plus intérêt à n’utiliser que des mots clés. Il est préférable de formuler votre requête le plus naturellement possible avec un contexte autour des mots clés, car ce contexte va aider à trouver des informations plus pertinentes. Il y a énormément de travaux en cours sur ce sujet et sur un thème connexe, qui est celui des moteurs de recommandations. Sopra Steria est totalement investi sur ces 2 sujets phares de l’IA.
Mais nous pensons que les Transformers ont aussi un bel avenir dans d’autres domaines car, comme évoqué précédemment, leurs atouts sont totalement transposables en dehors du NLP. D’ailleurs, nous voyons apparaître des cas d’applications de Transformers en vision par ordinateur ou en traitement de signaux. Certaines de ces applications constituent déjà le nouvel état de l’art, comme par exemple en classification d’images ou en transcription textuelle de signaux audio (speech to text).
De nombreux cas d’application des Transformers sont particulièrement prometteurs dans l’industrie, comme la recherche d’informations à partir de manuels techniques, ou les moteurs de recommandation pour aider à la prise de décisions. Mais en fait, cette technologie peut permettre de répondre à une multitude d’autres problématiques typiques de l’industrie : détection de défauts, maintenance prédictive, automatisation…
De plus, dans l’industrie, il est courant de disposer de grandes quantités de données, mais très peu sont annotées et validées. Cela constitue autant de cas d’application intéressants de cette technologie qui peut offrir un apprentissage semi-supervisé nécessitant beaucoup moins de données annotées.
Les modèles de Transformers les plus connus actuellement, tels que BERT et GPT3, sont des modèles de NLP. Ils sont très gros parce qu’ils permettent, à partir d’un même modèle pré-entrainé, d’être déclinés par fine-tuning en une quasi-infinité de modèles très performants répondant chacun à un cas d’usage particulier. Pour cela, ils sont obligés d’apprendre un savoir « quasi universel » qui ne peut pas être circonscrit dans un modèle simple.
Cependant, je suis convaincu que les Transformers ne sont pas condamnés à être de gros modèles et qu’ils n’ont d’ailleurs pas de raison d’être significativement plus importants que d’autres modèles créés par des approches différentes, si on les applique aux mêmes cas d’usage avec les mêmes objectifs de performances et sans cette exigence ou ambition « d’universalité ».
Je crois donc beaucoup à l’utilisation de Transformers pour créer des IA de tailles beaucoup plus raisonnables, voire même de petites tailles :
Il est aussi important de noter, dans un contexte où la confiance et l’éthique deviennent des préoccupations majeures en IA, que les Transformers sont des réseaux uniquement à propagation avant (Feed Forward) et basés sur des mécanismes d’attention, ce qui constitue des qualités indéniables d’un point de vue de leur explicabilité, comme le montrent d’ailleurs certains travaux de recherche récents.
Nous accompagnons nos clients pour qu’ils puissent en faire le meilleur usage et se les approprier. Actuellement, nous les utilisons principalement sur des problématiques de traitement automatique du langage naturel, mais nous effectuons une veille technologique constante sur des cas d’application dans d’autres domaines et nous réalisons régulièrement des évaluations des solutions qui nous paraissent intéressantes. Notre équipe ne cesse de s’agrandir avec de nouveaux profils techniques, qui nous rejoignent régulièrement. Les Transformers représentent une technologie très prometteuse en intelligence artificielle.
Votre adresse email ne sera pas publiée.


En cliquant sur “S’inscrire”, vous acceptez les CGU ainsi que notre politique de confidentialité décrivant la finalité des traitements de vos données personnelles.
En cliquant sur “S’inscrire”, vous acceptez les CGU ainsi que notre politique de confidentialité décrivant la finalité des traitements de vos données personnelles.

source

Catégorisé: