Institut National des TélécommunicationsTélémondes : Acquisition des gestes humains par vision artificielle

Responsable : P. Horain (INT / EPH).

Nous avons adapté nos travaux antérieurs sur l'acquisition des gestes de la main, pour acquérir les gestes de la moitié supérieure du corps (buste, tête, 2 bras). Notre algorithme procède par recalage d'un modèle articulé sur une séquence vidéo monoscopique et sans marqueur. Dans l'espace des paramètres d'animation du modèle, nous recherchons la position qui maximise la correspondance avec l'image. Celle-ci était évaluée dans un premier temps en comparant d'une part la silhouette segmentée dans l'image avec celle du modèle projeté, et d'autre part la texture plaquée sur le modèle à partir d'images initiales avec celle observée.

Ces méthodes présentent des limitations intrinsèques en cas d'auto-occultations ou de changement d'orientation de la surface par rapport aux sources lumineuses. Sous l'hypothèse, vérifiée sur nos séquences, que les images peuvent être segmentées par un petit nombre N de classes de couleur et relativement distinctes (par exemple l'arrière-plan, les vêtements et la peau, soit N=3), nous  modélisons leur histogramme comme un mélange de N gaussiennes. Cette classification fournit une segmentation des images, dont nous gardons les plus grandes régions. Les classes de couleurs sont également associées aux segments du le modèle, ce qui permet de le recaler sur les images segmentées en appliquant classe par classe le critère de comparaison sur la silhouette. Dans le cas d'auto-occultations, par exemple la bras devant le buste, le recalage des différentes parties est alors globalement effectué correctement.

Les attitudes que peut prendre le modèle sont limitées par les contraintes de la biomécanique afin de garantir le réalisme des résultats du recalage en cas d'ambiguïté sur la silhouette.

Cliquez pour voir l'animationCliquez pour voir l'animation

A partir des paramètres angulaires des articulations dumodèle recalé sur la séquence, des fichiers d'animation gestuelle sont produits au format MPEG-4 / BAP (Body Animation Parameters). Ils peuvent être visualisés en 3D au moyen d'un humain virtuel en VRML animé par une applet Java, ou être diffusés par le serveur d'animation de la plate-forme VREng pour être simultanément observés par plusieurs utilisateurs distants.

Le tableau suivant présente les résultats sur 3 séquences :
 
 
Séquence initiale
Séquence segmentée avec modèle incrusté
Fichiers BAP calculés(1)
Visualisation 3D de l'animation(2)
Bonjour
vidéo
vidéo
BAP
VRML
Au revoir
vidéo
vidéo
BAP
VRML
Je ne comprends pas
vidéo
vidéo
BAP
VRML

(1) Format ASCII imprimable.
(2) Les liens de cette colonne requièrent une extension (plug-in) du navigateur pour afficher des modèles VRML, par exemple CosmoPlayer pour Netscape ou Internet Explorer sous Windows. Les BAPs peuvent aussi être joués dans VREng (grâce aux avatars qui  se trouvent dans le monde androids par exemple, après avoir cliqué sur un des avatars pour afficher la liste des gestes possibles).
En savoir plusVoir aussi Acquisition du geste humain pour la langue des signes dans le cadre de l'Action de Recherche Coopérative de l'INRIA "Vers un système d'interprétation de la langue des signes française" (ARC-LSF).


Patrick Horain,
Patrick.Horain@int-evry.fr, tél.: 01 60 76 47 48
INT/EPH, 9 rue Charles Fourier, 91011 Evry Cedex, France.

Page précédente : Acquisition des expressions du visageRetour en haut de cette pageRetour à l'accueil du projetUsages pour la formation


Page éditée le 08/02/2002 par P. Horain.