Les techniques algorithmiques de l’IA | L’approche connexionniste
Par Sylvain Longhais – auxiliaire de recherche au Laboratoire de cyberjustice.
En matière d’intelligence artificielle, l’approche connexionniste est certainement celle qui a le plus le vent en poupe de nos jours. Il suffit pour s’en rendre compte de jeter un œil à la grande majorité des projets de développements en intelligence artificielle se basant sur le traitement de (très) grandes quantités de données à des fins d’analyses, de traitement du langage ou d’images pour le meilleur et pour le pire. On se souvient en effet des déboires de Google ou encore de Microsoft. En termes d’études du connexionnisme en intelligence artificielle, nul besoin d’aller chercher très loin puisque Montréal abrite Mila, un pôle mondialement reconnu dans le domaine de l’apprentissage profond fondé en 1993 par le Pr Yoshua Bengio, lui-même icône et précurseur de l’approche connexionniste.
Dans ce blog nous vous proposons humblement d’aborder l’approche connexionniste en trois temps. Tout d’abord, on s’intéressera à ce qui caractérise le connexionnisme en tant que tel en intelligence artificielle. Puis nous retracerons l’ascension de ce courant jusqu’à sa consécration tout en faisant état des prouesses en la matière. Enfin, nous adresserons les critiques qui sont formulées à l’encontre de ce courant.
1.Les caractéristiques du connexionnisme en IA
Le connexionnisme en IA reproduit de manière très simpliste le schéma de fonctionnement du cerveau humain en se basant sur l’architecture de neurones (unités) interconnectés (réseau) par des synapses (connecteurs). C’est ce que l’on appellera un réseau de neurones « formels » élémentaires interconnectés entre eux. Le terme de neurone formel renvoie à une représentation mathématique et informatique du neurone biologique. Concrètement, il s’agit d’un réseau de neurones connectés virtuellement où chaque neurone ou unité reçoit de l’information entrante et émet de l’information sortante.
Un réseau de neurones est généralement composé de plusieurs couches. On a une couche d’entrée, puis une ou plusieurs couches cachées, et enfin une couche de sortie. Chaque couche est généralement composée de plusieurs neurones. L’objectif de ce réseau est qu’en fonction des données brutes apportées, la machine prédise un résultat en sortie, comme réponse aux données brutes d’entrée. Plus concrètement, on va fournir en données brutes des images de chat afin que la machine traite ces données et prédise en sortie la probabilité qu’il s’agisse ou non d’un chat.
Prenons par exemple un réseau de neurones simple avec trois couches :
Les unités de la couche d’entrée ont la charge de capter les données brutes (lettres des mots d’un document écrit, couleurs de pixels, etc..) et vont s’activer ou non en fonction des paramètres d’activation déterminés. En cas d’activation, ces neurones d’entrée vont envoyer les informations sous la forme de signaux aux neurones de la seconde couche.
Les neurones de la seconde couche (couche cachée) vont alors traiter l’information qui leur est envoyée et vont s’activer ou non. En effet, le niveau d’intensité d’activation du neurone ou l’absence d’activation seront déterminés selon l’intensité du signal de la donnée brute envoyé, le type de connecteur par lequel passe le signal (on parle de balance entre les contributions activatrices ou inhibitrices) ainsi que son poids (qui est en fait l’épaisseur du conduit), le biais ajouté par le neurone et enfin par la configuration d’activation du neurone de seconde couche elle-même. Ainsi, les neurones de seconde couche déterminent le niveau d’activation ou l’absence d’activation en fonction de l’ensemble de ces paramètres et traitent en conséquence l’information reçue. Ils vont ensuite envoyer cette information traitée aux neurones de la couche de sortie.
Les neurones de la couche de sortie vont eux s’activer en fonction de l’activité des neurones de la couche d’entrée et de la seconde couche, mais également en fonction de leurs paramètres propres ce qui signifie de manière simple que les neurones de cette couche ne se contentent pas de formaliser une réponse qui aura été déterminée par les neurones de la seconde couche, mais bien de traiter l’information avant de la restituer sous la forme d’une réponse aux données brutes qui ont été traitées. Ainsi ils agissent de la même manière que les neurones de la seconde couche à la différence qu’ils vont formuler une réponse de sortie.
Dans le cas auquel on vient de s’intéresser, les informations transitent par les synapses uniquement dans un seul sens, de la couche d’entrée vers la couche de sortie. C’est ce que l’on appelle un réseau « feedforward » ou unidirectionnel en français. Ainsi, si l’on reprend notre exemple du chat, on fournit des données brutes (une image d’un chat) et on observe en sortie la prédiction du résultat par la machine, c’est-à-dire la probabilité calculée par cette dernière que l’image fournie représente un chat.
Ce sont ici les bases du connexionnisme. Nous allons maintenant nous intéresser à son ascension puis à sa consécration au travers des applications les plus fructueuses comme le deep learning.
2. De l’ascension jusqu’à la consécration : les succès du connexionnisme
Le connexionnisme est un courant dispersé. En effet, il a connu des développements interrompus puis a connu un regain d’intérêt au gré des développements des performances des machines ainsi que de la production de données en quantité toujours plus importante. Bien qu’il soit couramment admis que l’approche connexionniste soit datée de la fin des années 1950, certains chercheurs font remonter les origines du connexionnisme à la cybernétique dans les années 1940. Bien que ne relevant pas de l’intelligence artificielle, on retrouve des modèles d’expérimentation en neurophysiologie se basant sur un neurone formel qui applique un biais sur des données d’entrées et déclenchant ou non l’activation du neurone en fonction du résultat. Cela constitue la première modélisation mathématique d’un réseau de neurones (McCulloch et Pitts, 1943).
Cependant, la première machine connexionniste voit le jour en 1957 avec le Perceptron de Frank Rosenblatt. S’inspirant des travaux de McCulloch et Pitts, le perceptron est un algorithme d’apprentissage supervisé basé sur un réseau de neurones formels. Dans sa version initiale, il s’agissait d’un classifieur binaire, c’est-à-dire qu’il séparait les données entrées en deux catégories. Il fut implémenté dans une machine conçue pour la reconnaissance d’images baptisée Mark 1. Elle était constituée de 400 cellules photoélectriques connectées aux neurones formels et les poids synaptiques étaient réglables par des potentiomètres. Pendant l’apprentissage, les changements de poids étaient assurés par des moteurs électriques. Concrètement, des données visuelles étaient insérées en entrée et la machine les classifiait en sortie en déterminant une ligne séparatrice entre les deux classes. Cette classification était rendue possible en modifiant la variation des poids synaptiques afin d’obtenir le résultat attendu en sortie. Ce sont alors les prémices de l’apprentissage supervisé. Mais les limitations techniques de l’époque et le développement de l’IA symbolique ou GOFAI va venir stopper le développement du connexionnisme.
La renaissance des approches connexionnistes voit le jour dans les années 1980 concomitamment au déclin de l’intelligence artificielle symbolique qui ne parvient pas à la hauteur des attentes placées en elles, notamment à cause de l’incapacité des systèmes experts à produire des résultats et de la complexité des cathédrales de règles édictées notamment.
Se basant sur les travaux du Perceptron, il s’agit de permettre à chaque neurone du réseau de mettre à jour ses valeurs de manière indépendante. Cela est notamment rendu possible par le développement de réseau de neurones plus sophistiqués qui vont comporter des couches supplémentaires ; c’est ce que l’on va appeler les réseaux multicouches. Mais la révolution de l’apprentissage en IA connexionniste, c’est la rétropropagation. C’est un algorithme qui permet de renvoyer l’information traitée et notamment l’erreur en sortie vers les neurones des différentes couches cachées afin que ces derniers mettent à jour et corrigent les valeurs. Cet algorithme est à la base de l’optimisation des réseaux de neurones et jette les bases de ce que l’on va appeler le deep learning (LeCun, Bengio Hinton) (qui tire son nom de la profondeur des réseaux multicouches de neurones). Cependant, le principe n’a pas convaincu dans un premier temps et certains continuaient de lui opposer d’autres systèmes tout aussi efficaces pour les jeux de données qu’il y avait à traiter. Mais plus le volume de données à traiter a augmenté, plus les réseaux de neurones se sont montrés convaincants.
La consécration de l’approche connexionniste, des réseaux de neurones et de son application au deep learning a lieu en 2012 lors d’une compétition réunissant les plus grands chercheurs en matière d’IA. Avant cette compétition, le taux d’erreur en matière de traitement d’image par des IA est d’environ 25 % sur un dataset. Mais lors de cette compétition, une machine fait 17 % en utilisant des techniques de deep learning, ce qui constitue une révolution en matière de taux d’erreurs en traitement d’image.
L’approche connexionniste a donc longtemps été mis à part, voire même moquée, mais elle est aujourd’hui l’approche qui est la plus développée et sur lequel on fonde le plus d’espoir en matière d’intelligence artificielle.
3. Les critiques adressées au connexionnisme
Si l’approche connexionniste a fait l’objet de beaucoup de critiques depuis le début du développement des réseaux de neurones, nous nous cantonnerons ici aux critiques actuelles dont fait l’objet l’approche connexionniste. On peut notamment en identifier deux.
La première critique est que dans le cadre de l’apprentissage, il faut des jeux de données colossaux pour obtenir des résultats convaincants. C’est entre autres pour cette raison que l’approche connexionniste a connu des débuts difficiles et s’est développée au train des innovations technologiques en matière de puissance de calculs et de traitements de données. On peut dès lors se questionner sur l’accumulation de ces grands jeux de données. Cela signifie t’il que seuls les acteurs ayant la capacité d’engranger de très grands jeux de données sont à même de concevoir des IA connexionnistes qui soient performantes ? De la même façon il faut s’interroger sur la manière dont ces données sont collectées en grand nombre et la manière de réguler cette vaste circulation de données. Par conséquent le « fuel » des IA connexionnistes est une problématique multidisciplinaire.
La seconde critique concerne la fameuse boîte noire. Cela signifie en fait qu’on ne peut pas donner d’explication du calcul qui a été fait par l’algorithme. De manière générale donc c’est l’explicabilité des systèmes eux-mêmes qui est rendu complexe. On ne sait donc pas vraiment comment la machine arrive à tel ou tel résultat et comment expliquer le calcul ayant mené à ce résultat. Cette boîte noire induit des problématiques directement en droit. En effet, certaines règles développées en matière de données personnelles viennent conférer aux individus un droit à l’explication d’une décision automatisée qui est difficilement applicable si le responsable de traitement est incapable d’expliquer comment la machine en est arrivée à cette décision.
L’avenir nous dira si l’approche connexionniste continue son ascension ou si elle est remplacée par un courant plus moderne ou tout simplement combiné au courant de l’IA symbolique.
This content has been updated on 11 February 2021 at 10 h 04 min.