ARC LSF

Acquisition du geste par vision artificielle monoscopique

GET / INT / EPH / Intermedia

Sommaire :

Approche

La vision monoscopique est plus facile à mettre en oeuvre que la stéréovision mais fournit une information plus pauvre qui nécessite des techniques spécifiques d'analyse. Retrouver l'information 3D requiert des connaissances a priori sur la scène observée. Cliquez pour aller à la description Cliquez pour aller à la description Cliquez pour aller à la description

Les séquences vidéo que nous analysons présentent des personnes qui signent. Cette connaissance est représentée par un modèle 3D articulé du corps humain obéissant à des contraintes morphologiques et biomécaniques. L'état du modèle est décrit par ses paramètres de position et les angles des articulations. Nous avons ainsi défini 21 paramètres pour la main et 24 paramètres pour le buste (doigts rigides).

La procédure d'acquisition du geste consiste alors à rechercher, pour chaque image, l'état du modèle qui lui correspond le mieux selon un critère de ressemblance à définir, tout en respectant les contraintes biomécaniques qui interdisent les positions impossibles.

Évaluation du recalage

Le meilleur recalage du modèle 3D articulé sur une image donnée est celui qui minimise l'écart entre des caractéristiques extraites de l'image et celles correspondantes calculées à partir du modèle 3D. Cet écart peut être par exemple :


  • la distance entre contours extraits de l'image et les projections des contours occultants,
Cliquez pour agrandir
  • le taux de non recouvrement entre la silhouette segmentée dans l?image et celle du modèle projeté: 
Cliquez pour agrandir
  • la différence entre les textures de l?image à des instants successifs rétro projetées sur le modèle,
Cliquez pour agrandir
  • la différence entre le flot optique calculé dans la séquence d?images et les déplacements apparents point par point du modèle. 
Cliquez pour agrandir

Parmi ces fonctionnelles, le taux de non recouvrement est à la fois relativement rapide à calculer, et robuste au bruit dans les images ainsi qu'aux variations des conditions d'éclairage. Toutefois, le traitement des auto-occultations du corps requiert un traitement particulier.

Contraintes biomécaniques

Les contraintes biomécaniques sont d'abord des intervalles de variation possibles pour chacun des angles des articulations. La main suit en outre les relations suivantes :Cliquez pour agrandir

Chaque contrainte, formulée sous forme d?une inégalité sur les paramètres articulatoires du modèle, définit un demi-espace dans l?espace des paramètres. Leur intersection est un domaine convexe qui contraint le vecteur d?état du modèle.

Optimisation sous contraintes biomécaniques

Trouver le meilleur recalage du modèle revient donc à minimiser une fonctionnelle de coût, non linéaire et pas forcément dérivable, tout en respectant les contraintes biomécaniques. On se reportera aux publications de H. Ouhaddi pour une comparaison des algorithmes d'optimisation, qui a finalement abouti à choisir un algorithme de descente de simplexe.

Recalage sans auto-occultation

La fonctionnelle de mesure de l'erreur sur la distance entre contours se révèle sensible au bruit et aux conditions d'initialisation. Les différences de textures et de flot optiques permettent de lever certaines ambiguïtés présentes dans les silhouettes, mais sont perturbées par la variation de l'éclairage au cours du mouvement. Le taux de non-recouvrement des silhouettes nous donne des résultats satisfaisants pour une séquence de mouvements d'abduction et adduction des bras en vue de face (CyberAnatomy Tutorials).

Cliquez pour voir l'animation Toutefois, cette méthode, basée sur la seule silhouette, ne permet pas de suivre des mouvements présentant des auto-occultations du corps.

Recalage avec auto-occultations

Cliquez pour voir l'animation Lorsque les images peuvent être simplifiées un en petit nombre N de classes de couleur homogènes et relativement distinctes (par exemple l'arrière-plan, les vêtements et la peau, soit N=3), nous modélisons leur histogramme comme un mélange de N gaussiennes. Cette classification fournit une segmentation des images, dont nous gardons les plus grandes régions. Les classes de couleurs sont également plaquées sur le modèle, ce qui permet de le recaler sur les images segmentées en appliquant classe par classe le critère de comparaison sur la silhouette.

Cette information de couleur permet de suivre les membres même en cas d'auto-occultation. Par exemple, dans cet extrait du conte Blanche Neige édité par l'IVT,  les bras devant le buste sont positionnés au bon endroit dans les images. D'autres résultats, sur des gestes de communication, sont disponibles.

Régularisation du geste

La silhouette peut être identique pour différentes positions du modèle, par exemple lorsqu'ilest de face ou de dos. Ceci conduit à des ambiguités lors du recalage. La régularisation du geste permet de régler ce problème et stabilise les éventuels "tremblements" du modèle causés par des variations lors de la segmentation.

Réduction du temps de calcul

Le coût de calcul peut être réduit en réalisant la détection des zones du modèle articulé qui sont en mouvement et en limitant le processus d'optimisation à elles seules. Nous détectons les parties en mouvement en comparant l'index des différentes classes de couleurs des images successives. Ceci nous permet ensuite de déterminer quelle région de couleur se déplace relativement à une autre. Les parties du modèle qui se projettent sur ces régions sont sélectionnées pour effectuer le recalage. Le temps de calcul moyen est ainsi réduit de six minutes par image à une minute.

Résultats: Application à la langue des signes française

Un petit corpus vidéo de cinq mots signés cinq fois par quatre personnes différentes a été constitué. Voici les résultats de l'acquisition des gestes sur ce petit corpus de langue des signes.


Page modifiée le 23/10/02 par Patrick.Horain@int-evry.fr.