Les techniques algorithmiques de l’IA | L’inférence bayésienne
L’inférence bayésienne : l’intelligence artificielle par la statistique
Par Tomas Rojas Vazquez – auxiliaire de recherche au Laboratoire de cyberjustice.
L’inférence bayésienne est une méthode d’inférence statistique. Elle a pour objectif de calculer le degré de confiance à accorder à une cause hypothétique. Cette technique algorithmique prend comme point de départ le théorème de Bayes, qui présente les principes permettant de calculer une probabilité conditionnelle. Le théorème détermine la probabilité qu’un événement se produise en considérant la probabilité d’un autre événement qui s’est déjà produit.
La méthode d’inférence bayésienne présente trois caractéristiques essentielles. Premièrement, la connaissance a priori ou antérieure contribue au calcul de probabilité. Deuxièmement, suivant l’acquisition d’une nouvelle donnée, toute hypothèse ou classification potentielle est évaluée en fonction de la connaissance antérieure. La nouvelle hypothèse peut alors être en conflit avec la connaissance a priori ou elle peut la confirmer. Troisièmement, le processus de calcul est de nature itérative, c’est-à-dire que les résultats sont continuellement réévalués en considérant la connaissance antérieure lors de l’acquisition de nouvelles informations et en déterminant par la suite l’impact de ces dernières sur la connaissance antérieure. De cette manière, le calcul est révisé à chaque nouvelle information et la prédiction devient progressivement affinée.
L’histoire de l’inférence bayésienne est longue. Nous pouvons néanmoins extraire quelques événements majeurs qui ont marqué le calcul bayésien et les techniques algorithmiques qui en découlent :
- 1814 : Pierre-Simon Laplace, publie son Essai philosophique sur les probabilités. Le calcul bayésien, tel qu’on le connaît aujourd’hui, émerge.
- XIXe et XXe siècle : opposition avec l’école fréquentiste. L’école fréquentiste propose une méthode d’inférence statistique qui tire des conclusions à partir des données d’un échantillon en mettant l’accent sur leur fréquence ou leur proportion. Elle se distingue de la méthode bayésienne au niveau de l’importance accordée à la connaissance a priori. De ce fait, le calcul fréquentiste est plus simple et demande moins de puissance computationnelle.
- 1950 : L’inférence bayésienne devient une partie essentielle des systèmes informatiques de reconnaissance (« pattern recognition » en anglais), car le théorème se prête très bien à ce type de tâches. En effet, la connaissance a priori peut souvent jouer un rôle essentiel dans une tâche de classification d’objets par ordinateur, notamment lorsque les informations entrant dans le système ne sont pas tout à fait fiables. Pensons par exemple à la reconnaissance de caractères manuscrits : lorsque la lisibilité de la calligraphie est faible, il est très utile de poser une hypothèse fondée sur des connaissances a priori (comme le contexte ou la fréquence d’apparition d’un caractère) afin d’effectuer une prédiction juste.
- 1980 : amplification de la recherche et de l’application des méthodes bayésiennes. Celle-ci est principalement attribuée aux développements en informatique ainsi qu’à la découverte de nouvelles méthodes – comme les méthodes de Monte-Carlo par chaînes de Markov – qui ont éliminé de nombreux problèmes de calcul.
- 1990 : alors que les méthodes bayésiennes dominent dans le domaine de l’apprentissage automatique, une alternative émerge : la théorie Vapnik–Chervonenkis (VC). La théorie VC propose un cadre d’apprentissage dans lequel aucune place d’importance n’est accordée à la connaissance a priori. Cette théorie est au cœur du fonctionnement des systèmes qui apprennent par analogie. Ces derniers feront l’objet d’un billet de blogue à venir.
L’inférence bayésienne permet de transformer de manière efficace de grandes quantités de données en des recommandations ou des classifications utiles et opérationnelles. Pour cette raison, elle est aujourd’hui largement utilisée. Nous retrouvons cette méthode dans les filtres anti-spam, les moteurs de recommandation, ou encore des outils de diagnostic médical. Les algorithmes de reconnaissance, les systèmes experts, les réseaux neuronaux artificiels et l’apprentissage automatique – supervisé notamment, mais non exclusivement – reposent sur les principes du calcul bayésien.
La méthode bayésienne est un outil très efficace en robotique. La logique bayésienne aide les structures robotiques d’intelligence artificielle à mettre à jour automatiquement leur mémoire et leur intelligence à travers l’estimation récursive bayésienne ou « filtrage bayésien ». Cette technique est notamment utilisée en locomotion, pour calculer la probabilité de plusieurs croyances afin qu’un robot en déduise sa position et son orientation. Il s’agit ici d’un algorithme récursif – plutôt qu’itératif – qui consiste en deux parties. La première est une prédiction quant à la position la plus probable dans un système de coordonnées, en fonction des informations recueillies par les différents capteurs sensoriels du robot. La seconde est une innovation, un nouveau mouvement.
On utilise aussi l’inférence bayésienne dans le développement de modèles de classification probabiliste, par exemple la classification naïve bayésienne (« Naive Bayes » an anglais). Ce classificateur, appartenant à la famille des classificateurs linéaires, peut être utilisé pour la classification d’ensembles de données binaires ou multi classes. Il est dit « naïf » du fait que la valeur attribuée à chaque prédicateur est supposée indépendante. Autrement dit, une classification naïve bayésienne suppose que la présence d’une caractéristique particulière dans une classe n’est pas liée à la présence d’une autre caractéristique. Cette supposition est introduite afin de simplifier le modèle de calcul au lieu de tenter la tâche complexe de calculer les relations entre chacun des prédicateurs. Par conséquent, la classification naïve bayésienne est facile à construire et particulièrement utile pour les très grands ensembles de données. Malgré son caractère simplifié, elle a tendance à fonctionner assez bien en tant qu’algorithme de classification, même si cette hypothèse d’indépendance n’est pas vraie la plupart du temps.
L’inférence bayésienne est le fondement du système de classification le plus performant aujourd’hui, la classification optimale bayésienne (« Bayes Optimal Classifier » en anglais). Ce modèle, contrairement à la classification naïve bayésienne, prend en compte la complexité des relations entre les prédicateurs et donne une prévision pour toute nouvelle entrée en prenant ceci en compte. En moyenne, aucun autre modèle de classification ne peut surpasser cette technique.
Ce classificateur est optimal, il permet ainsi d’établir l’erreur de prédiction la plus faible possible qui peut être obtenue. On appelle ceci l’erreur bayésienne (« Bayes Error » en anglais) : une erreur irréductible ou, autrement dit, l’erreur minimale possible pouvant être commise lors de la réalisation de prévisions. Elle constitue un idéal à poursuivre dans la recherche de prédictions ou classifications adéquates.
Au Canada, la classification naïve bayésienne est utilisée dans différents outils d’apprentissage automatique. Par exemple, des chercheurs de l’Université de la Saskatchewan mènent un projet d’apprentissage automatique visant à remplacer le Level Service Inventory – Ontario Revised (LSI-OR). Le LSI-OR est un instrument utilisé afin de procéder à des évaluations des risques et des besoins dans le système correctionnel canadien. Si cette technologie est enfin adoptée, elle sera le premier exemple au Canada d’une technique algorithmique utilisée dans le contexte correctionnel. Elle pourrait avoir une influence directe les décisions concernant la liberté des individus.
***
Pour aller plus loin:
- Barber, David. Bayesian Reasoning and Machine Learning. Cambridge : Cambridge University Press, 2012.
- Bertsch Mcgrayne, Sharon. The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy. New Haven : Yale University Press, 2012.
- Pierre Bessière et al., Bayesian Programming, Oxford : CRC Press, 2013.
- Tippin Michael E., “Bayesian inference: An introduction to Principles and practice in machine learning.” In Bousquet et al. (Eds.), Advanced Lectures on Machine Learning, New York : Springer, 2004, p. 41.
- Towards Data Science, Bayesian Methods for Machine Learning, en ligne : <https://towardsdatascience.com/bayesian-methods-for-machine-learning/home>
This content has been updated on 11 February 2021 at 10 h 04 min.