Autrices: Mathilde GELIN (consultante IBM Data & AI) & Lydia BESSAI
CHAPITRE II: Vision humaine et computer vision
Article 2: L'Humain et l'IA, les yeux dans les yeux
[Bienvenue dans la série “Brain & AI”: une série qui confronte le point de vue des neurosciences à celui de l'intelligence artificielle! La série sera composée de plusieurs chapitres avec différents articles. Chaque article peut être lu de manière indépendante.]
Vous voici au sein du deuxième article (" L'Humain et l'IA, les yeux dans les yeux") du second chapitre de cette série "Vision humaine et computer vision".
A travers ce deuxième article, nous confronterons les techniques d'intelligence artificielle d’analyse d’images à notre système visuel humain. Nous passerons en revue ce qui a biologiquement inspiré le développement d'algorithmes de reconnaissance visuelle, en comparant le fonctionnement humain aux solutions artificielles. L’humain et la machine ont des caractéristiques parfois similaires et parfois différentes : leurs stratégies dépendent directement de leurs natures et de leurs capacités. C’est ce que nous allons découvrir à travers cet article.
NB: Si vous n'avez pas le temps de lire l'article en entier, reportez-vous aux sections "En Bref'" à la fin de chaque partie ou cliquez sur les sections concernées sur le sommaire ci-dessous ;).
C'est parti...
Aujourd’hui, la vision par ordinateur (ou computer vision) peut être appliquée à une infinité de cas d'usage : l'analyse photos de sinistre dans le secteur de l'assurance, la détection d'humains sur des voies ferrées dans le secteur des transports, la détection de mouvements anormaux sur des vidéos dans le secteur de la sécurité, etc... Dans cet article, nous appellerons SARI, les Solutions Artificielles de Reconnaissance d’Image.
Mais ces solutions sont-elles aussi efficaces que le cerveau humain ? La réponse peut être complexe. La machine présente de nombreux avantages quant à la détection d'éléments non visibles par l'œil humain. Elle peut donc traiter des informations supplémentaires. Cependant, le cerveau humain a la capacité d’apprendre avec beaucoup moins de données que la machine : il suffit de montrer 2 ou 3 fois un objet à un enfant afin qu’il le reconnaisse par la suite. La machine est loin de ces résultats… Comparons aujourd’hui ces deux systèmes intelligents dans le cadre de la (computer) vision !
Image 1 : Le processus de reconnaissance visuel par la machine et par l'œil humain.
Le processus de reconnaissance visuelle par une solution artificielle ou par un humain peut se découper en plusieurs étapes. Nous avons regroupé ces étapes en trois phases. La première phase concerne les données d’entrée : le traitement d’image par la machine en comparaison au traitement de la scène visuelle par l'œil humain. La deuxième phase du processus concerne l'apprentissage : l'entraînement d’une solution artificielle versus l’apprentissage du cerveau afin d’intégrer une nouvelle information visuelle. La dernière phase se focalise sur les données de sortie : l'étape de compréhension et de reconnaissance des objets analysés par la machine ou l'œil humain.
A - Les données d’entrées : entre image et vision humaine
1 - La nature des données
Pour qu’un système de reconnaissance visuelle - machine ou humain - parvienne à reconnaître un objet, il faut tout d’abord l’alimenter. La première étape de la première phase consiste à acquérir et à ingurgiter la donnée d’entrée.
Du côté de la machine : les multiples natures d’image
L’acquisition des données d’une SARI nécessite un ensemble d'images cataloguées comme données d'entrée (ou "input"). Une image peut être utilisée de manière brute (non modifiée) ou peut être modifiée pour simplifier le traitement par la machine, on parlera ici de différentes natures d’image.
Le choix de la nature d’image varie en fonction du cas d'usage. L’image dite brute classique, prise à partir d'un drone ou d'une caméra, peut être modifiée par un filtre appliqué directement par l'outil de prise d'image. Les images d’entrée peuvent être LIDAR, infra-rouges on encore ultra-violettes. Ainsi, l'entraînement de la SARI sera facilité grâce à la nature de l'image. Les différentes natures apportent des informations supplémentaires à la machine que l’oeil humain serait incapable de détecter. La qualité du matériel utilisé ainsi que le nombre de récepteurs et de capteurs impactent fortement l’analyse qui en suivra.
Pour des raisons de simplicité, nous considérerons dans l’article que l’image d’entrée ou la scène visuelle analysée est de bonne qualité (non flouté, illuminée, claire). De même que nous parlerons de détection "d'objet" pour indiquer aussi bien “un humain”, “un objet”, “un paysage”, etc. A savoir que le processus d’analyse d’images est applicable sur une vidéo.
Du côté de l’humain : de l’œil aux prémices du cerveau
Contrairement à la machine, les données que le cerveau humain ingurgite ne sont pas aussi immuables qu’une image. Premièrement, pour analyser une scène visuelle, nos yeux doivent être capables d’interpréter les objets qui la composent et comprendre l’espace dans lequel elle est définie. Comme écrit dans le premier article qui explique les mécanismes de la vision, le système visuel humain interprète la scène visuelle en traduisant la lumière comme une onde électromagnétique. Cependant, les humains ne sont pas capables de percevoir l’ensemble des ondes électromagnétiques existantes : les UVS et les infrarouges nous sont par exemple imperceptibles. Nous pouvons seulement percevoir les ondes qui sont comprises entre 400 et 700 nm : c’est ce qu’on appelle le spectre visible (1). Les données d’entrée envoyées à l'œil humain sont donc une combinaison d’informations lumineuses qui sera traduite par le cerveau. A la différence de la machine, notre entraînement est ainsi basé sur une seule nature d’image.
Image 2 : La lumière visible de l’oeil humain.
EN BREF….
La machine ou l’humain s’alimente de données qui peuvent être brutes ou directement modifiées. Par exemple, un système de capture d’image peut modifier la nature d’une image avant que la machine procède à son traitement. La machine peut aussi s’alimenter de données brutes sans effet ajouté. Pour l’humain, nous pouvons considérer qu’un filtre “naturel” est déjà activé : notre cerveau se nourrit de données passées au crible du spectre visible. Par ailleurs, il est intéressant de souligner que l’humain et la machine sont physiquement différents : l’humain a deux yeux donc combine deux champs visuels différents contrairement à la machine qui a une vision unilatérale. Il est cependant possible de créer des solutions intelligentes en analysant les données provenant de plusieurs sources d’image(s) ou vidéo(s) à la fois, lorsque cela est plus pertinent pour le résultat.
2 - Traitement des données d’entrée
Une fois que la donnée est acquise par une SARI ou est intégrée par l'œil humain, une nouvelle étape primordiale dans notre première phase consiste au traitement de l’image ou de la scène visuelle.
Du côté de la machine : traitement de l’image
Le traitement de la donnée d’une SARI permet de transformer l'information visuelle en information numérique interprétable. Il existe différentes méthodes de traitement d'image qui peuvent être utilisées unitairement ou en combinatoire, dépendant de l'objectif final de la SARI souhaitée. Deux notions sont importantes à comprendre dans l'étape de traitement : la couleur d’une image, ainsi que sa segmentation.
La couleur d’une image :
Avant de démarrer le traitement d’une image, il faut tout d'abord comprendre la description de la couleur de ses pixels. Il existe différentes descriptions : la plus moderne est la détection du degré de Rouge Vert Bleu (RGB) dans chacun des pixels. D’autres approches des couleurs appelées TSL et TSV existent, basées sur la Teinte, la Saturation et la Luminosité ou la Valeur des pixels. L'information numérique de chacun des pixels d'une image sera utilisée et interprétée lors des différentes phases de traitement de l'image (2).
Image 3 : Approche de couleur TSV et TSL.
Le traitement par la segmentation :
La segmentation est une méthode efficace qui permet de faire ressortir les informations primordiales lors du traitement d'une image. Ce processus permet de découper une image originale en différentes parties, en fonction des couleurs et des objets détectés, afin de faciliter leurs analyses (3). Ces choix de paramétrage se font en fonction du cas d'usage. La segmentation permet de récupérer uniquement les informations pertinentes d’une image en se débarrassant du bruit : les informations inutiles qui peuvent induire en erreur la reconnaissance d'objet. La solution artificielle qui sera entraînée pourra ainsi se concentrer uniquement sur les détails souhaités comme les contours et les formes d'objets dans l'image. En plus de mettre en lumière ces informations, les méthodes utilisées permettent souvent de réduire drastiquement le volume d'information, ce qui n'est pas négligeable pour les données de grande qualité utilisées pour la plupart des solutions artificielles.
La segmentation peut s’appliquer de différentes manières. Une des techniques efficaces est la technique du "seuillage" qui consiste à binariser l'image en noir et blanc après l’avoir interprétée en dégradé de gris. Ci-dessous, un exemple de seuillage par binarisation.
Image 4 : Binarisation d’une image.
La segmentation permet également d'appliquer des filtres pour flouter, lisser, illuminer ou assombrir (correction de gamma par accentuation ou diminution de contraste) l’image initiale. Chaque filtre a une fonctionnalité spécifique et plusieurs filtres peuvent être combinés pour augmenter la performance d'un modèle.
Une fois qu'un filtre (ou kernel) a été choisi, il est appliqué sur chaque partie de l'image pour traiter l'ensemble de cette dernière. Ce principe sous-tend un processus mathématique appelé la convolution.
Image 10 : Explication d’une couche de convolution.
Un filtre correspond au choix des poids de la matrice de convolution : par la modification de l'information numérique en fonction des poids choisis, l'effet escompté sera l'extraction des informations pertinentes dans l'image traitée. Informations qui seront utilisées pour la reconnaissance d’objet dans l’image.
Les dernières avancées en termes de puissance informatique de calcul ont permis d'aller encore plus loin dans l’utilisation de convolution dans des couches de neurones. En les combinant avec des notions de récurrences, la création de nouveaux modèles plus performants ont émergé : appelés transformers, ils permettent d’utiliser un nombre de paramètres bien plus important (4). Loin d’être moins complexe, mais de toute autre nature, l'œil humain permet de réaliser des traitements d’information visuelle également très pointus.
Du côté de l’humain : traitement de la scène visuelle
Du côté de l’humain, le traitement de l’image se fait à partir de l'œil - un organe particulièrement complexe. Parallèlement à chaque fonction de traitement des SARI, chaque cellule présente au sein de l'œil a un objectif dédié et simulera la fonction de filtre que la machine sait si bien faire.
Ces cellules sont présentes sur la rétine : la membrane qui tapisse le fond de l'œil. Parmi ces cellules, on compte les photorécepteurs, les cellules horizontales, les cellules bipolaires, et les cellules ganglionnaires (5,6,7).
Image 5 : schéma de la rétine et des cellules qui composent cette dernière (inspirée de 8).
Les photorécepteurs sont les premières cellules réceptrices du message lumineux. Elles sont capables de convertir l’information lumineuse en information neurale pour interpréter la scène visuelle. Elles sont responsables de la détection de l’intensité lumineuse en niveaux de gris et de l’identification de la couleur bleue, verte et rouge. Cette approche du traitement de la lumière est davantage en phase avec la décomposition TSL ou TSV des SARI qui prend en compte la Teinte, la Saturation, la Luminosité ou la Valeur. La méthode plus moderne de décomposition en couleur RGB (Rouge, Vert, Bleu) est moins en adéquation avec le comportement de la rétine.
Pour comprendre le traitement de l’information lumineuse par la rétine, il est nécessaire de comprendre le fonctionnement des cellules qui interviennent après les photorécepteurs. Par exemple, les cellules dites “horizontales”, sont des cellules qui sont latéralement connectées à plusieurs photorécepteurs. Leur rôle est d’inhiber l'activité de certaines cellules voisines pour augmenter notre acuité visuelle. En d’autres termes, lorsqu’une source lumineuse atteint la rétine et active un grand nombre de photorécepteurs (1), les cellules horizontales supprimeront les informations redondantes concernant la luminosité et la chromaticité pour mieux détecter les éléments de l’image.
Les photorécepteurs communiquent aussi avec des cellules “bipolaires” puis “ganglionnaires” qui constituent un autre filtre de cellules. En fonction du type des cellules ganglionnaires, il sera détecté : le flou des éléments, des contrastes subtils, des détails plus précis, ou une différenciation de couleurs spécifiques (8,9,10,11,12,13). Par exemple, une cellule ganglionnaire qui aura un petit champ récepteur (autrement dit, une petite zone sensorielle associée), sera capable de discriminer davantage de détails. Plusieurs cellules ganglionnaires peuvent être associées à un photorécepteur. Ainsi, les cellules ganglionnaires permettent d’apporter au cerveau une information déjà traitée.
Tout comme pour les SARI, l’objectif de notre cerveau est de détecter les contrastes, et donc la différence entre un fond et un objet. In fine, notre premier traitement biologique réside en l’action de plusieurs cellules de la rétine qui émettra une première image traitée à notre cerveau.
Image 6 : exemple vulgarisé de traitements des cellules ganglionnaires.
EN BREF….
La machine a la possibilité de traiter les données d’entrée en appliquant plusieurs filtres (comme la segmentation) afin de mettre en lumière les détails intéressants de l’image. Au niveau biologique, ces filtres sont imités par l’ensemble des cellules qui tapissent notre œil. Le traitement de l’image ou de la scène visuelle est ainsi instancié grâce aux fonctions de traitements d’une solution artificielle ou par les multiples cellules de la rétine. Les données sont enfin prêtes à être utilisées pour détecter des éléments importants.
3 - Détection des éléments dans les données d’entrée
Une étape importante pour l’interprétation d’une image est la capacité à déterminer les contours des objets qui la composent afin de pouvoir les reconnaître. C’est une nouvelle étape qui se situe toujours dans la phase des données d’entrées.
Du côté de la machine : détection de contours et de coins
Pour cette nouvelle étape de traitement de l’image, différentes approches de détection de contour d’objets existent concernant les SARI.
Les contours des objets sont les courbes rejoignant les points continus de même couleur ou de même intensité. Ce sont des outils utiles pour l'analyse de formes et la reconnaissance d'objets dans une image (14). La détection de coins peut ainsi se calculer soit par la jonction de deux contours, soit par le changement soudain de luminosité.
L'utilisation d'opérateurs morphologiques permet de détecter les contours d'objet d'une image ainsi que de réduire son bruit. Le principe de ces opérateurs en morphologie mathématiques est de comparer et rechercher dans une image des éléments structurants connus (caractéristiques d'un objet). Plus qu'une simple segmentation, le modèle pourra détecter et isoler un élément de l'image, et ignorer ce qui n'est pas pertinent et ne correspond pas à l'opérateur morphologique souhaité (2). La dilatation et l'érosion sont deux exemples d'opérateurs morphologiques : ils agissent sur les formes d'une image en ajustant les valeurs de chaque pixel en fonction de la valeur des pixels voisins. Les contours d'objets recherchés peuvent ainsi être mis en avant et peuvent se démarquer du reste de l'image (15).
Image 7 : Dilatation et Erosion sur image.
Une information supplémentaire utilisée pour la détection de contours est le gradient morphologique d'une image. Le gradient morphologique est la combinaison d'opérateurs morphologiques : c'est l'association des gradients internes (différence entre l'image et son érodé) et externes (différence entre le dilaté et l'image) (16). Il correspond au changement de direction d'intensité ou de couleur dans une image et permet de faire un contouring complet des objets de l'image.
N.B. : L’érodé étant l’image après érosion, le dilaté étant l’image après dilatation.
Image 8 : Gradient morphologique d’une image.
Du côté de l’humain : détection de la complexité de la scène visuelle
Contrairement aux solutions artificielles, la détection des contours dans notre cerveau n’est pas dû à un traitement plus poussé de l’image mais à des étapes de détection supplémentaires par de nouvelles cellules.
Une fois que les cellules de la rétine ont traité la première source lumineuse, l’information est premièrement envoyée dans une structure appelée le “corps géniculé latéral” (CGL). Puis, cette information est acheminée dans le “cortex visuel” (de V1 à V8) : une zone située dans le cortex occipital à l’arrière de notre crâne. L’information lumineuse traverse donc une grande partie de notre cerveau.
Image 9 : Le trajet de l’information lumineuse de la rétine au cortex visuel (17).
Les cellules du CGL et du cortex visuel seront déjà sensibles à l’orientation d’un objet. L’ensemble de ces cellules vont combiner leurs réponses pour former les cellules dites “simples”. Par exemple, certaines cellules vont seulement être activées si l’orientation est verticale, oblique ou horizontale. Les cellules suivantes, dites cellules “complexes”, seront une étape de traitement supplémentaire pour détecter le mouvement de l’axe. Enfin, les cellules “hypercomplexes” représentent la dernière couche de cellules de ce traitement par le cortex visuel : elles pourront détecter les angles et les bords. C'est donc en fonction de l'activité de ces cellules que les contours d'un objet présents dans notre champ visuel au sein d'une scène complexe seront différenciés.
Image 10 : les traitements conjoints de la rétine, du corps genouillé latéral (CGL) et du cortex visuel primaire.
Bien que le traitement de l’information lumineuse soit déjà compliqué, l’architecture du cortex visuel l’est encore plus. Ce dernier est divisé en colonnes, elles-mêmes divisées en zones particulières. En fonction du traitement de l’information lumineuse et de l'activité des cellules, l'information sera relayée dans la zone concernée du cortex visuel. Autrement dit, si l’objectif est de traiter la couleur, l’information sera communiquée vers la partie spécifique du cortex visuel qui se charge de cette fonction. Ainsi, il est possible de créer une carte de l’image perçue en repérant les cellules activées et l’endroit dans lequel ces cellules ont eu une réponse dans le cortex visuel. Hubel et Wiesel ont par exemple montré que chaque point du champ visuel génère une réponse dans une région de 2x2 millimètres dans le cortex visuel !
EN BREF...
Pour résumer, la machine peut identifier les contours et les coins d’un objet grâce à de nouveaux traitements comme la dilation, l’érosion, ou les opérateurs morphologiques. Pour l’humain, le cerveau est capable d’identifier le mouvement, la forme, et les couleurs en fonction :
de la réponse finale des cellules activées (à quel point elles peuvent être inhibées par des cellules collatérales comme les cellules horizontales)
du type des cellules activées (par exemple, le type de cellules ganglionnaires)
des chemins cérébraux utilisés (dépendant de l’endroit où les cellules sont connectées au cortex visuel).
B - L’analyse : apprentissage par la machine vs. par le cerveau humain
Nous entrons désormais dans la deuxième phase de reconnaissance visuelle, par la machine et par l'œil humain, qui représente le cœur du processus : la phase d’apprentissage. Elle permet l’analyse et l’interprétation d’une image ou d’une scène visuelle.
1 - Apprentissage et reconnaissance d'objets par les algorithmes
Après les étapes d’acquisition et de traitement de l’image par la machine, les données peuvent enfin être utilisées dans une phase d'apprentissage ou phase d'entraînement. Les modèles des SARI peuvent utiliser différents algorithmes en fonction du cas d'usage et du besoin final. Les algorithmes de Deep Learning et de Machine Learning seront entraînés sur les images prétraitées afin de pouvoir correctement détecter un objet, et possiblement le remettre dans un contexte grâce au croisement de données supplémentaires (textes, données de géolocalisation...). Pour en savoir plus sur les algorithmes d'apprentissage profond (Deep Learning) et l’origine des réseaux de neurones artificiels (Artificial Neural Networks - ANN), vous pouvez vous référer à l’annexe 3.
Lors d'un suivi d'objet, un tracé (pattern) reconnaissable peut être rattaché à l'objet que l'on souhaite détecter afin de pallier la potentielle déformation radiale et tangentielle que peut apporter le point de vue d'une caméra. Néanmoins, en fonction de l'algorithme utilisé, il n'est pas toujours nécessaire d'avoir une correspondance exacte entre l'objet attendu et les objets des images analysées. Par exemple, si l’objet attendu est un visage, les objets des images analysées pourront être des visages de femmes, d’hommes ou d’avatars car ils ont les mêmes caractéristiques (pattern) de détection. Un modèle de reconnaissance visuelle peut se baser sur la correspondance des caractéristiques clés d'un objet présentes dans l’image d’origine. Pour ce faire, le modèle utilise la détection de coins, des bordures et des contours des objets, puis utilise un calcul de distance entre les caractéristiques détectées afin de trouver toutes les correspondances dans l'image analysée. C'est la méthode qui est utilisée pour la détection d'individus grâce aux caractéristiques d'un visage (bouches, nez, sourcils…).
Le type de réseau de neurones le plus utilisé en reconnaissance visuelle est le réseau neuronal à convolution (Convolutional Neural Network - CNN). Il est composé d'une couche d'entrée (input), de plusieurs couches cachées, ainsi que d’une couche finale de sortie (output). Vous pouvez vous référer à l’annexe 4 pour en savoir plus sur l’origine du CNN. Chacune des couches d'un réseau neuronal à convolution examine une part graduellement plus grande de l'image analysée. Les couches du milieu sont appelées “cachées” car leurs inputs et leurs outputs sont masqués par la fonction d'activation et la convolution finale.
D'autres approches existent encore. Prenons l’exemple d’un des algorithmes en vogue dans les projets de reconnaissance visuelle : l'algorithme de détection YOLO (You Only Look Once). Il a l'avantage d'être plus rapide que ses confrères RCNN (Region Based Convolutional Neural Network) et Fast RCNN. Sa différence majeure réside sur le fait que YOLO applique un unique réseau neuronal sur la totalité de l'image analysée. Le réseau divise l'image en régions et prédit des boîtes de délimitation et des probabilités pour chacune des régions - les boîtes étant pondérées par les probabilités prédites (18). Encore plus rapide que l'algorithme YOLO, l’approche de l’architecture EfficientNet utilise une technique appelée coefficient composé permettant de mettre à l’échelle (sur les dimensions de profondeur, largeur et résolution d’une image) des modèles ainsi plus efficaces et pertinents (19).
Il existe d’autres types d’algorithmes comme les modèles multimodaux à grande échelle qui poussent les performances de reconnaissance et d’interprétation des images. Vous avez sans doute entendu parler de “Chat-GPT” et de son modèle le plus abouti : GPT-4 (version payante). Ce type de modèle représente aujourd’hui un large sujet de recherche et l’application de ces modèles est grandissante. Ci-joint, une image provenant du rapport technique d’Open AI (20) qui démontre la précision de reconnaissance d’image de GPT 4. Nous pouvons le voir sur l’image ci-dessous : GPT-4 arrive à reconnaître des objets particulièrement complexes qui auraient pu ne pas être détectés avec un algorithme classique.
Image 11 : exemple une requête avec image fournie à GPT-4 démontrant ses capacités de reconnaissance visuelle.
2 - Apprentissage et reconnaissance d’objets chez l'homme
A contrario de la machine, le cerveau n’a pas besoin d’un énorme corpus d’entraînement pour apprendre à reconnaître un objet de la scène visuelle. Comme écrit dans l’article “Comprendre le mécanisme de la vision dans notre cerveau”, un transfert d’informations s’opère du cortex visuel au cortex temporal ou au cortex pariétal.
Image 12 : La voie ventrale et la voie dorsale du cortex utilisées pour la reconnaissance d’objet.
La première voie qui utilise le cortex temporal est appelée la “voie ventrale”. C’est une voie qui a pour but de reconnaître les objets de la scène visuelle. En parallèle, la “voie dorsale”, qui sollicite le cortex pariétal, nous permet de localiser les objets dans l’espace. Ce traitement conjoint est essentiel pour élaborer nos futures actions. Par exemple, une lésion cérébrale localisée dans une région de la voie dorsale appelée “V5/MT” provoque une perte de perception du mouvement (akinétopsie).
Mais comment fait-on pour « apprendre » à reconnaître un objet ? L’apprentissage commence par la captation du stimulus lumineux grâce à nos yeux. L’information de ce stimulus sera stockée dans notre mémoire sensorielle grâce à notre perception. Si nous répétons cette information, elle sera encodée et consolidée dans la mémoire à long terme pour créer un nouveau souvenir.
Cependant, l’apprentissage n’est pas seulement régi par ce système sensoriel. En effet, si ce seul système sensoriel existait, cela signifierait que notre cerveau ne disposerait d’aucune autonomie d’apprentissage et ne serait qu’une machine à ingérer des données.
Un deuxième système d’apprentissage existe chez l’humain : le système probabiliste d’inférences bayésiennes. Grâce à ledit système, notre cerveau a la capacité d’établir des hypothèses sur le monde. Ces hypothèses s'établissent en fonction de l'expérience de chaque individu. En s’appuyant sur ces hypothèses, notre cerveau devient prédictif : un organe capable d'anticiper chaque situation. Si par malheur une situation devient surprenante et n'était pas prévue selon nos hypothèses, nous rectifions ces dernières en intégrant une erreur. Par exemple, nous pouvons émettre l’hypothèse que tous les chats ont un profil prononcé et des oreilles grandes et pointues. Mais si demain nous apercevons un persan, notre système d’apprentissage nous avertira d’une erreur pour modifier l’hypothèse conçue sur les chats (c’est-à-dire, inclure dans notre hypothèse que certains chats sont différents).
Ainsi, dans l’apprentissage de la reconnaissance d’objet, l’humain utilisera deux systèmes d’apprentissage : le système sensoriel et le système bayésien probabiliste. Notre continuelle amélioration du système bayésien renforcera la reconnaissance d’objet.
EN BREF...
Pour apprendre à reconnaître un objet ou à interpréter une scène visuelle, plusieurs algorithmes existent du côté de la machine. Ces algorithmes s’entraînent sur les données pré-traitées afin de pouvoir correctement identifier un objet et être capable de le remettre dans son contexte. Actuellement, les algorithmes de Deep Learning sont les plus efficaces. Parmi eux, on compte les réseaux de neurones à convolution (CNN), les RCNN, les YOLO ou encore EfficientNet. Chez l’humain, nous apprenons à reconnaître et à localiser un objet grâce aux traitements conjoints des aires ventrales et dorsales du cerveau : c’est notre système d’apprentissage sensoriel. Ajouté à cela, le système probabiliste d’inférences bayésiennes nous permet de créer et de modifier des hypothèses sur le monde. Ces deux systèmes nous permettent d’être capables d’apprendre de manière flexible et plus robuste. Il est intéressant de noter que l’humain naît avec une architecture cérébrale déjà câblée, et que la machine peut hériter d’une base de connaissance à sa création. Ces éléments, que nous considérons comme davantage innés, peuvent améliorer le processus d’apprentissage de la reconnaissance visuelle qui, lui, est une expérience acquise en fonction des données ingérées.
Conclusion
Image 13 : Le processus de reconnaissance visuelle par la machine et par l'œil humain.
Ensemble, nous avons pu comparer les Solutions Artificielles de Reconnaissance d’Image (SARI) face à la vision humaine. Les deux systèmes - machine et cerveau humain - se ressemblent sur plusieurs points, puisqu’ils :
ont besoin d’une source de données pour acquérir l’information
traitent la donnée pour optimiser l’apprentissage de la reconnaissance d’objet
détectent les caractéristiques complexes de l’image ou de la scène visuelle pour identifier un élément
apprennent à partir des données déjà traitées pour pouvoir reconnaître un élément
Les deux systèmes fonctionnent tous les deux grâce à une énergie électrique et sont tous les deux de fins stratèges. Bien que la matière qui sous-tend ces deux grosses entités soit différente (électronique pour la première, biologique pour la deuxième), le même objectif est défini : corriger l’erreur de la perception.
Néanmoins, ils sont tous les deux à la fois similaires et différents. Ils ont chacun des caractéristiques qui leurs sont propres et qui sont en lien avec leurs conditions et leurs capacités. La machine est dotée d’un esprit neutre et complet qui lui permet d’évaluer tous les composants d’une image et de détecter des détails parfois invisibles à l'œil nu. Cette stratégie de l’analyse fine de l’image surpasse probablement nos capacités humaines. Malgré ses capacités, la performance de l’analyse dépend de la puissance de la machine, de la nature d’image utilisée (normale, infrarouge, ultraviolette…), ainsi que de la pertinence des traitements de l’image sélectionnée. Rappelons également que toute solution d’intelligence artificielle est entraînée à une tâche unique, ce qui veut dire qu’une solution pourrait être très performante sur un cas d’usage mais pas forcément sur un autre. Aussi, la manière d’entraîner la machine impacte directement son résultat, notamment quand des biais algorithmiques sont glissés dans les données d’entrée (exemple : quand la détection de la couleur de peau influe sur le résultat). L’humain a, quant à lui, des biais cognitifs : l’attention est une des composantes à prendre en compte dans la perception d’une scène visuelle. En tant qu’humain, nous choisissons, de manière consciente ou non, de nous focaliser sur un détail. Cette stratégie peut être d’une grande économie pour le cerveau afin de traiter les informations que nous jugeons pertinentes (faites le test vous-même avec cette vidéo qui montre notre capacité d’attention sélective ! ).
Ils utilisent des stratégies différentes, nous l’avons bien compris. Mais est-ce que les deux systèmes peuvent s’inspirer mutuellement pour s’améliorer ? Plus précisément, est-il possible d’atteindre les précisions de détection de notre système visuel par la machine ? Il se trouve que c’est une des questions explorées par Elmoznino et Bonner dans un de leurs derniers articles (21) dans lequel ils tentent de modéliser l’architecture du cortex visuel par le deep learning (approche computationnelle). L’article démontre une relation positive entre la précision et la dimensionnalité des algorithmes. En d’autres termes, un algorithme (DNN - Deep Neural Network) avec une géométrie à haute dimension permet d’exprimer davantage de variations pour la lecture des images naturelles. Cette recherche montre que les neurosciences et le deep learning sont des domaines qui se complètent et s’enrichissent toujours mutuellement. Mais encore, cela remet au centre les recherches portées sur le biomimétisme - ou l’art de savoir s’inspirer de la nature pour faire grandir la technologie.
Toutefois, il ne faut pas oublier qu’une part d’illusion se cache derrière certaines reconnaissances visuelles, que ce soit par la machine ou par l'œil humain. Pour la machine, la détection n’est pas toujours évidente quand certains objets sont trop similaires et partagent les mêmes caractéristiques. Elle pourra ainsi ne pas faire la distinction entre un Chihuahua et un Muffin, alors que l’homme trouvera cette analogie particulièrement rigolote par l’évidence de leurs différences.
Image 14 : Caractéristiques communes entre Muffin et Chihuahua (20).
Pour l’homme, il est parfois très difficile de ne pas être berné par certaines illusions optiques. Prenons l’exemple connu des illusions optiques du psychiatre Franz Müller-Lyer avec le schéma ci-dessous. Bien que nous soyons à première vue convaincu que le trait (a) soit plus grand que le trait (b), cela reste une illusion : les deux traits ont la même taille.
Image 15 : Illusion optique du psychiatre psychiatrist Franz Müller-Lyer (21).
Alors qui est le plus fort ? Une réponse tranchée à cette question serait limitée. Les deux sont complémentaires et raisonnent différemment en fonction de leurs natures. Pourtant, il reste une certitude déconcertante qui s’applique à ces deux instruments : nous sommes encore loin de comprendre entièrement la facilité d’apprentissage du cerveau humain tout comme nous sommes encore loin d’atteindre la capacité maximale d’une SARI. Notre connaissance encore partielle de la complexité du cerveau humain ainsi que notre manque d’emprise actuel sur les boîtes noires des réseaux neuronaux, nous poussent finalement à rester humbles face à ces deux titans. Que va t-on découvrir dans la compréhension du cerveau humain grâce aux futures recherches ? Qu’est ce que la technologie sera capable de réaliser demain ?
Bravo pour cette lecture si vous êtes arrivés jusqu'à la fin. Nous espérons que vous avez appris des choses (et pas qu'un peu) et que vous êtes toujours réveillés.
En BONUS, nous avons caché des images surprises dans le texte…. A vous de les retrouver ! Nous espérons que l’article vous a plu, n’hésitez pas à nous faire vos retours.
Autrices: Mathilde GELIN (consultante IBM Data & AI) & Lydia BESSAI
Annexes
Annexe 1 : La complexité de l’architecture du cortex visuel
Bien que le traitement de l’information lumineuse soit déjà compliqué, l’architecture du cortex visuel l’est encore plus. Ce dernier est divisé en colonnes, elles-mêmes divisées en zones particulières. En fonction du traitement de l’information lumineuse et des cellules, une connexion sera établie dans une zone particulière du cortex visuel. Autrement dit, si l’objectif est de traiter la couleur, l’information sera relayée à une partie spécifique du cortex visuel attribuée pour cette fonction. Ainsi, il est possible de créer une carte de l’image perçue en fonction des cellules activées et de l’endroit dans le cortex visuel dans lequel ces cellules ont eu une réponse. Hubel et Wiesel ont par exemple montré que chaque point du champ visuel génère une réponse dans une région de 2x2 millimètres dans le cortex visuel !
Annexe 2 : Origine des algorithmes d’apprentissage profond (Deep Learning)
Les algorithmes d'apprentissage profond (Deep Learning) utilisent des réseaux de neurones artificiels (Artificial Neural Networks - ANN) directement inspirés des caractéristiques des neurones biologiques : les neurones artificiels reproduisent le fonctionnement des neurones biologiques. Un réseau de neurones est appelé profond lorsqu'il détient au moins trois couches de neurones entre une donnée d'entrée et le résultat de sortie.
Annexe 3 : Origine du réseau neuronal à convolution
Le type de réseau de neurones le plus utilisé en reconnaissance visuelle est le réseau neuronal à convolution (Convolutional Neural Network - CNN), également inspiré des caractéristiques biologiques et plus précisément à partir du cortex visuel des mammifères. Des recherches ont révélé que le cortex visuel a un petit champ de réception local qui correspond à une sous-section de l'image vue par un individu. Différentes sous-sections peuvent se chevaucher et créer une large image et un large champ. C'est ce processus qui a inspiré le réseau artificiel neuronal qui deviendra le réseau neuronal à convolution (18).
BIBLIOGRAPHIE
Thoreson, Wallace B., and Dennis M. Dacey. ‘Diverse Cell Types, Circuits, and Mechanisms for Color Vision in the Vertebrate Retina’. Physiological Reviews 99, no. 3 (1 July 2019): 1527–73.https://doi.org/10.1152/physrev.00027.2018.
“Teinte saturation luminosité.” In Wikipédia, April 24, 2021. https://fr.wikipedia.org/w/index.php?title=Teinte_saturation_luminosit%C3%A9&oldid=182246519.
Sikandar, M. « Modified Watershed Algorithm for Segmentation of 2D Images ». Issues in Informing Science and Information Technology. Consulté le 22 septembre 2022. https://www.academia.edu/53105202/Modified_Watershed_Algorithm_for_Segmentation_of_2D_Images.
Liu, Yang, Yao Zhang, Yixin Wang, Feng Hou, Jin Yuan, Jiang Tian, Yang Zhang, Zhongchao Shi, Jianping Fan, et Zhiqiang He. « A Survey of Visual Transformers ». arXiv, 2 mai 2022. https://doi.org/10.48550/arXiv.2111.06091.
Ramon y Cajal S: The structure and connexions of neurons.
Nobel Lect Physiol or Med 1901-1921. 1906.
Behar-Cohen, Francine, Emmanuelle Gelizé, Laurent Jonet, and Patricia Lassiaz. ‘[Anatomy of the retina]’. Medecine Sciences: M/S 36, no. 6–7 (July 2020): 594–99. https://doi.org/10.1051/medsci/2020094.
Vlasits, Anna L., Thomas Euler, and Katrin Franke. ‘Function First: Classifying Cell Types and Circuits of the Retina’. Current Opinion in Neurobiology 56 (June 2019): 8–15. https://doi.org/10.1016/j.conb.2018.10.011.
Rheaume, Bruce A., Amyeo Jereen, Mohan Bolisetty, Muhammad S. Sajid, Yue Yang, Kathleen Renna, Lili Sun, Paul Robson, and Ephraim F. Trakhtenberg. ‘Single Cell Transcriptome Profiling of Retinal Ganglion Cells Identifies Cellular Subtypes’. Nature Communications 9, no. 1 (17 July 2018): 2759. https://doi.org/10.1038/s41467-018-05134-3.
Masland, Richard H. ‘The Neuronal Organization of the Retina’. Neuron 76, no. 2 (18 October 2012): 266–80. https://doi.org/10.1016/j.neuron.2012.10.002.
Sanes, Joshua R., and Richard H. Masland. ‘The Types of Retinal Ganglion Cells: Current Status and Implications for Neuronal Classification’. Annual Review of Neuroscience 38 (8 July 2015): 221–46. https://doi.org/10.1146/annurev-neuro-071714-034120.
Baden, Tom, Thomas Euler, and Philipp Berens. ‘Understanding the Retinal Basis of Vision across Species’. Nature Reviews Neuroscience 21, no. 1 (January 2020): 5–20. https://doi.org/10.1038/s41583-019-0242-1.
Marshak, David W., and Stephen L. Mills. “Short-Wavelength Cone-Opponent Retinal Ganglion Cells in Mammals.” Visual Neuroscience 31, no. 2 (March 2014): 165–75. https://doi.org/10.1017/S095252381300031X.
Lecun, Y., L. Bottou, Y. Bengio, and P. Haffner. “Gradient-Based Learning Applied to Document Recognition.” Proceedings of the IEEE 86, no. 11 (November 1998): 2278–2324. https://doi.org/10.1109/5.726791.
Joesch, Maximilian, and Markus Meister. “A Neuronal Circuit for Colour Vision Based on Rod-Cone Opponency.” Nature 532, no. 7598 (April 14, 2016): 236–39. https://doi.org/10.1038/nature17158.
“Erosion and Dilation | SpringerLink.” Accessed January 30, 2023. https://link.springer.com/chapter/10.1007/978-3-662-05088-0_3.
Beaini, Dominique, Sofiane Achiche, Yann-Seing Law-Kam Cio, and Maxime Raison. “Novel Convolution Kernels for Computer Vision and Shape Analysis Based on Electromagnetism,” n.d.16. https://trajectoires.site/la-vision/
Feng, Haogang, Gaoze Mu, Shida Zhong, Peichang Zhang, et Tao Yuan. « Benchmark Analysis of YOLO Performance on Edge Intelligence Devices ». Cryptography 6, no 2 (juin 2022): 16.https://doi.org/10.3390/cryptography6020016.
Sarkar, Arjun. « Understanding EfficientNet — The Most Powerful CNN Architecture ». MLearning.Ai (blog), 8 mai 2021. https://medium.com/mlearning-ai/understanding-efficientnet-the-most-powerful-cnn-architecture-eaeb40386fad.
OpenAI. “GPT-4 Technical Report.” arXiv, March 27, 2023. https://doi.org/10.48550/arXiv.2303.08774.
Elmoznino, Eric, and Michael F. Bonner. “High-Performing Neural Network Models of Visual Cortex Benefit from High Latent Dimensionality.” bioRxiv, July 13, 2022. https://doi.org/10.1101/2022.07.13.499969.
« PHOTOS. Chihuahua ou muffin? » Consulté le 22 septembre 2022. https://www.huffingtonpost.fr/actualites/article/photos-chihuahua-ou-muffin_73514.html.
Keith, Kenneth D. “Müller-Lyer Illusion.” In The Encyclopedia of Cross-Cultural Psychology, 903–4. John Wiley & Sons, Ltd, 2013. https://doi.org/10.1002/9781118339893.wbeccp370.
Kumar, Ashish. « Computer Vision: Gaussian Filter from Scratch. » Medium (blog), 19 mars 2019. https://medium.com/@akumar5/computer-vision-gaussian-filter-from-scratch-b485837b6e09.
Neurosciences - D.Purves et al, 4eme édition (2012)
Plongée au coeur du cerveau - National Geographic (2019)
CNRS Le journal. “L’image de la semaine: «Henry Molaison, l’homme qui ne pouvait plus se souvenir».” Accessed January 30, 2023. https://lejournal.cnrs.fr/nos-blogs/aux-frontieres-du-cerveau/limage-de-la-semaine-henry-molaison-lhomme-qui-ne-pouvait-plus.
La plus belle histoire de l'intelligence,S. Dehaene, Y. Le Cun, J. Girardon, Robert Laffont, 2018. « Human Skin Detection Using RGB, HSV and YCbCr Color Models ». In Proceedings of the International Conference on Communication and Signal Processing 2016 (ICCASP 2016), 2017.https://doi.org/10.2991/iccasp-16.2017.51.« Morphologie Mathématique — Documentation Traitement et analyse d’images 1 ». https://perso.esiee.fr/~perretb/I5FM/TAI/morpho/index.html#gradient-morphologique.
Kolkur, S., D. Kalbande, P. Shimpi, C. Bapat, et J. Jatakia. « Human Skin Detection Using RGB, HSV and YCbCr Color Models ». In Proceedings of the International Conference on Communication and Signal Processing 2016 (ICCASP 2016), 2017. https://doi.org/10.2991/iccasp-16.2017.51..
News, Neuroscience. « A New Model of Vision ». Neuroscience News (blog), 5 mars 2020. https://neurosciencenews.com/computer-vision-15862/.
Rogojan, Ben. « From Neuroscience to Computer Vision ». Medium, 30 octobre 2019. https://betterprogramming.pub/from-neuroscience-to-computer-vision-e86a4dea3574.
Schmitt, Michel, et Juliette Mattioli. Morphologie mathématique. Presses des MINES, 2013.
Comments