Nous avons adapté nos travaux antérieurs sur l'acquisition des gestes de la main, pour acquérir les gestes de la moitié supérieure du corps (buste, tête, 2 bras). Notre algorithme procède par recalage d'un modèle articulé sur une séquence vidéo monoscopique et sans marqueur. Dans l'espace des paramètres d'animation du modèle, nous recherchons la position qui maximise la correspondance avec l'image. Celle-ci était évaluée dans un premier temps en comparant d'une part la silhouette segmentée dans l'image avec celle du modèle projeté, et d'autre part la texture plaquée sur le modèle à partir d'images initiales avec celle observée.
Ces méthodes présentent des limitations intrinsèques en cas d'auto-occultations ou de changement d'orientation de la surface par rapport aux sources lumineuses. Sous l'hypothèse, vérifiée sur nos séquences, que les images peuvent être segmentées par un petit nombre N de classes de couleur et relativement distinctes (par exemple l'arrière-plan, les vêtements et la peau, soit N=3), nous modélisons leur histogramme comme un mélange de N gaussiennes. Cette classification fournit une segmentation des images, dont nous gardons les plus grandes régions. Les classes de couleurs sont également associées aux segments du le modèle, ce qui permet de le recaler sur les images segmentées en appliquant classe par classe le critère de comparaison sur la silhouette. Dans le cas d'auto-occultations, par exemple la bras devant le buste, le recalage des différentes parties est alors globalement effectué correctement.
Les attitudes que peut prendre le modèle sont limitées par les contraintes de la biomécanique afin de garantir le réalisme des résultats du recalage en cas d'ambiguïté sur la silhouette.
A partir des paramètres angulaires des articulations dumodèle recalé sur la séquence, des fichiers d'animation gestuelle sont produits au format MPEG-4 / BAP (Body Animation Parameters). Ils peuvent être visualisés en 3D au moyen d'un humain virtuel en VRML animé par une applet Java, ou être diffusés par le serveur d'animation de la plate-forme VREng pour être simultanément observés par plusieurs utilisateurs distants.
Le tableau suivant présente les
résultats sur 3 séquences :
|
|
|
|
|
Bonjour |
|
|
|
|
Au revoir |
|
|
|
|
Je ne comprends pas |
|
|
|
|
Patrick
Horain,
Patrick.Horain@int-evry.fr,
tél.: 01 60 76 47 48
INT/EPH, 9 rue Charles Fourier, 91011
Evry Cedex, France.