Recherche
Les systèmes naturels explorent la scène visuelle grâce à un mécanisme de saccades. A tout instant, ils n'en analysent qu'une faible partie. La sélection de points d'intérêt dans une scène visuelle, afin de guider le regard grâce aux mécanismes attentionnels, conduit à n'analyser qu'une faible partie de la scène. On réduit ainsi très fortement la charge computationnelle du système. Cette exploration, qui relie la perception à l'action, conduit par ailleurs à labéliser l'espace à l'aide d'indicateurs naturels liés aux actions d'exploration (deictiques Ballard). La transposition aux système artificiels de vision de telles capacités sélectives devrait permettre d'augmenter l'efficacité de leurs mécanismes perceptifs.
Afin de prendre en compte de telles possibilités, il est nécessaire de remplacer la vision dans son contexte environnemental. On peut ainsi considérer le mécanisme perceptif comme se déroulant dans une interaction constante entre le système qui l'héberge et son environnement. On peut alors qualifier un tel système d'agent situé.
Nous présentons dans ce travail la réalisation d'un tel agent muni d'un système de vision exploratoire. L'architecture de son système de vision s'inspire des particularités des systèmes de vision naturels. Son caractère situé lui permet de fonctionner en interaction avec un utilisateur, dans une boucle perception-action. Ce mode de fonctionnement autorise le recours à des techniques d'apprentissage par conditionnement et, plus généralement, à des mécanismes de fonctionnement comportementaux.
Pour démontrer l'efficacité d'un tel système dans la recherche d'éléments pertinents d'une scène visuelle, nous avons comparé l'exploration fondée sur les saillances spontanées de la scène (exploration bottom-up) à une exploration prenant en compte un guidage attentionnel (exploration top-down). Nos résultats démontrent que la seconde méthode est beaucoup plus efficace en terme du nombre de points explorés et de précision des résultats obtenus. Afin de montrer l'intérêt d'un tel mécanisme dans l'analyse de séquences d'images, nous avons également étudié la robustesse du processus de détection vis à vis des conditions d'éclairement qui, dans une scène naturelle, sont souvent variables.
Description
Dans l'espoir de produire des systèmes artificiels de vision plus adaptatifs que les réalisations existantes, on peut penser s'inspirer des mécanismes qui sous-tendent les capacités des systèmes visuels naturels. Notre travail s'inscrit dans cette problématique. Il consiste à mettre en place les éléments d'un système de vision qui s'inspire de l'architecture et des fonctionnalités du système de vision des primates. Il s'inscrit dans un cadre général qui considère qu'un système perceptif est avant tout destiné à fournir des informations permettant l'action et doit être replacé dans un contexte comportemental.
Ce point de vue conduit à analyser la capacité du système nerveux à organiser les informations provenant du monde extérieur pour y sélectionner celles qui sont immédiatement utiles à son action en cours. L'élaboration d'un système de vision située conduit ainsi naturellement à s'intéresser aux mécanismes de l'attention, c'est à dire à la façon dont le sujet choisit, dans son espace visuel, les éléments qui sont utiles à son but immédiat. Plusieurs caractéristiques de la vision naturelle ont ainsi été retenues dans la conception du système (capacités attentionnelles, traitement différentiel des fréquences spatiales).
L'introduction de mécanismes actifs dans les systèmes de vision par machine est considérée comme un moyen d'augmenter leurs capacités. La capacité des systèmes actifs à rechercher les éléments utiles de la scène visuelle par une exploration dynamique et à orienter leur recherche vers les stimuli pertinents grâce à des mécanismes attentionnels permet de résoudre le problème de la charge computationnelle.
Cette exploration, qui relie la perception à l'action, permet également de labéliser l'espace à l'aide d'indicateurs naturels liés aux actions d'exploration. Une part de l'organisation des systèmes perceptifs naturels est destinée à résoudre des problèmes imposés par les contraintes biologiques. Cependant, ce n'est pas le cas pour certains aspects du fonctionnement du système visuel. Depuis quelques années, un certain nombre d'auteurs se sont interrogés sur la nature du traitement visuel considéré comme devant résoudre des contraintes liées au traitement de l'information plutôt que de nature physiologique. Le fondement de cette approche réside dans la proposition de Barlow selon laquelle le système visuel est organisé pour réduire la redondance des images initiales. Cette idée a conduit à s'interroger sur l'organisation statistique des images naturelles et à constater que celle-ci n'est pas quelconque. Les images naturelles ont en effet une statistique stationnaire et une structure fortement auto-similaire. Il en résulte un spectre de puissance des fréquences spatiales en 1/f2 . Dans ce contexte, plusieurs auteurs ont montré qu'une façon de transformer la redondance initiale était de recoder l'image sous forme de descripteurs statistiquement indépendants. Une autre façon d'interpréter ce processus est de considérer la scène comme formée de la superposition linéaire d'un certain nombre de sources statistiquement indépendantes.
Ces auteurs ont ainsi montré que les filtres générés par l'application de ces principes sont des filtres locaux, détecteurs d'orientations multiéchelles similaires à une base d'ondelettes de Gabor. Cependant, bien que beaucoup de travaux aient été consacrés à la compréhension des bases théoriques du traitement de l'information dans les systèmes visuels naturels, peu de tentatives ont été faites pour utiliser ces principes dans les systèmes artificiels de vision. Nous avons donc cherché à montrer que l'introduction de ces principes dans un système artificiel de vision permet d'améliorer l'exploration de la scène.
A partir de ces principes, nous avons élaboré un système de perception visuelle doté de capacités exploratoires. Ce système est conçu comme un agent capable d'interagir avec son environnement dans une boucle perception-action. L'exploration effectuée par le système est guidée par les saillances spontanées provenant de l'environnement (contrôles ascendants), ces saillances pouvant être modulées par des informations internes sur l'action à effectuer (contrôles descendants). Nous montrons qu'il est possible de construire un espace de projection de la scène permettant la détermination de points de saillances multiples groupés selon différentes modalités. Nous obtenons ainsi une représentation structurée de l'espace visuel qui peut être mise à profit pour le segmenter de diverses manières. Par ailleurs, une telle représentation peut être contrôlée de façon descendante afin de réaliser une exploration guidée de la scène. Le caractère situé d'un tel agent perceptif nous permet d'envisager l'utilisation de techniques d'apprentissage par renforcement rendant possible une analyse expérimentale de l'émergence de la notion d'objet visuel. La première étape de ce travail a consisté à:
- Analyser les différences introduites par une analyse à haute et à basse fréquence de signaux décorrélés statistiquement.
- Tenter de comprendre comment une analyse du contexte, préalable à l'analyse des détails fins d'une part et une perception à basse fréquence de la périphérie de la scène d'autre part pouvait conduire à un comportement efficace d'exploration et de reconnaissance des objets.
Une deuxième étape a consisté à s'appuyer sur cette étude pour construire un système de vision exploratoire conçu comme un agent situé. L'exploration s'effectue de deux manières:
- Ascendante (ou bottom-up): le système est guidé par des saillances issues de la scène visuelle.
- Descendante (ou top-down): le système utilise une information issue de sa mémoire et de l'action qu'il effectue au travers d'un processus attentionnel.
Résultats et Perspectives
Les études des résultats obtenus ont montrés que le mécanisme d'exploration prenant en compte l'information basse fréquence de l'objet recherché (exploration ascendante) dans la scène visuelle est beaucoup plus efficace en terme du nombre de points explorés et de la précision des scores obtenus. Nous avons testé ce système pour l'exploration et la recherche d'objets dans des scènes visuelles représentants une scène d'intérieur photographiée dans différentes conditions d'éclairement. L'utilisation d'une exploration descendante pour la recherche d'objets dans une séquence d'images a montré que le résultat de reconnaissance est invariant par rapport à la luminance de la scène explorée.
Références
[1] Machrouh J., J.S. Liénard, P. Tarroux
"Multiscale feature extraction from the visual environment in an active
vision system". Fourth International Workshop on Visual Form, Capri,
Italy, May 28-30, 2001. Springer Verlag, Berlin.
[2] Machrouh J., P. Tarroux "Perceptual agents : A situated framework for
image analysis" . International Workshop on Attention and Performance
in Computer Vision (WAPCV 03) Graz, Autriche, Avril 3, 2003