La vision monoscopique est plus facile à mettre en oeuvre que la stéréovision mais fournit une information plus pauvre qui nécessite des techniques spécifiques d'analyse. Retrouver l'information 3D requiert des connaissances a priori sur la scène observée.
Les séquences vidéo que nous analysons présentent des personnes qui signent. Cette connaissance est représentée par un modèle 3D articulé du corps humain obéissant à des contraintes morphologiques et biomécaniques. L'état du modèle est décrit par ses paramètres de position et les angles des articulations. Nous avons ainsi défini 21 paramètres pour la main et 24 paramètres pour le buste (doigts rigides).
La procédure d'acquisition du geste consiste alors à rechercher, pour chaque image, l'état du modèle qui lui correspond le mieux selon un critère de ressemblance à définir, tout en respectant les contraintes biomécaniques qui interdisent les positions impossibles.
Le meilleur recalage du modèle 3D articulé sur une image donnée est celui qui minimise l'écart entre des caractéristiques extraites de l'image et celles correspondantes calculées à partir du modèle 3D. Cet écart peut être par exemple :
Parmi ces fonctionnelles, le taux de non recouvrement est à la fois relativement rapide à calculer, et robuste au bruit dans les images ainsi qu'aux variations des conditions d'éclairage. Toutefois, le traitement des auto-occultations du corps requiert un traitement particulier.
Chaque contrainte, formulée sous forme d?une inégalité sur les paramètres articulatoires du modèle, définit un demi-espace dans l?espace des paramètres. Leur intersection est un domaine convexe qui contraint le vecteur d?état du modèle.
Toutefois, cette méthode, basée sur la seule silhouette, ne permet pas de suivre des mouvements présentant des auto-occultations du corps.
Cette information de couleur permet de suivre les membres même en cas d'auto-occultation. Par exemple, dans cet extrait du conte Blanche Neige édité par l'IVT, les bras devant le buste sont positionnés au bon endroit dans les images. D'autres résultats, sur des gestes de communication, sont disponibles.
La silhouette peut être identique pour différentes positions du modèle, par exemple lorsqu'ilest de face ou de dos. Ceci conduit à des ambiguités lors du recalage. La régularisation du geste permet de régler ce problème et stabilise les éventuels "tremblements" du modèle causés par des variations lors de la segmentation.
Le coût de calcul peut être réduit en réalisant la détection des zones du modèle articulé qui sont en mouvement et en limitant le processus d'optimisation à elles seules. Nous détectons les parties en mouvement en comparant l'index des différentes classes de couleurs des images successives. Ceci nous permet ensuite de déterminer quelle région de couleur se déplace relativement à une autre. Les parties du modèle qui se projettent sur ces régions sont sélectionnées pour effectuer le recalage. Le temps de calcul moyen est ainsi réduit de six minutes par image à une minute.
Un petit corpus vidéo de cinq mots signés cinq fois par quatre personnes différentes a été constitué. Voici de l'acquisition des gestes sur ce petit corpus de langue des signes.