Face Cloning and Video Spatialization: Tools for Virtual Teleconference. Clonage de Visage et Spatialisation Video: Outils pour la Téléconférence Virtuelle

Face Cloning and Video Spatialization: Tools for Virtual Teleconference

Clonage de Visage et Spatialisation Video: Outils pour la Téléconférence Virtuelle

Jean-Luc Dugelay Katia Fintzel  Stéphane Valente  Hervé Delingette 

Institut EURECOM, Département Communications Multimédia 2229, route des Crêtes, B.P. 193, F-06904 Sophia-Antipolis Cedex, France

INRIA, Projet Epidaure B.P. 93, F-06902 Sophia-Antipolis Cedex, France

Espri Concept Les Taissounières HB2 B .P. 277, F-06905 Sophia-Antipolis Cedex, France

15 June 1998
28 February 1999
| Citation



In this paper, we propose powerful virtual image processing tools (face cloning and video spatialization) which can be useful to design new teleconferencing systems offering a better comfort for users even if very low bit rate links are used. These tools allow a new teleconferencing concept, relying on the metaphor of a virtual meeting room where participants can choose their position and point of view. In particular, we propose video cloning modules to represent all participants vith 3D synthetic models of their face, constructed from range data with simplex meshes. These models are meant to be visualized under a point of view different from the camera which analyses the facial motion of the speakers. Besides, the realism of the virtual meeting room is improved by video spatialization techniques, which aims at synthesizing new points of view from a limited set of uncalibrated views of an existing room. 


Dans cet article, nous proposons des algorithmes de traitement d'image vidéo (tels que le clonage de visages et la spatialisation vidéo) qui peuvent être utilisés pour définir de nouveaux systèmes de vidéoconférence offrant plus de «confort d'utilisation » que les systèmes actuels, malgré des liaisons très bas-débit. Ce nouveau concept repose sur la métaphore d'une salle de réunion virtuelle où les utilisateurs pourront choisir leur place . En particulier, nous proposons des modules de clonage vidéo pour représenter les participants par l'intermédiaire de modèles synthétiques 3D de leur visage, obtenus par création de maillages simplexes sur des données Cyberware . Ces modèles sont visualisables sous des points de vue différents de celui de la caméra qui analyse les mouvements des participants. Par ailleurs, le réalisme de l'espace de réunion virtuelle est renforcé par des techniques de spatialisation vidéo qui a pour but de créer des points de vue inédits à partir d'images statiques non-calibrées d'une salle de réunion existante . 


Virtual teleconferencing, low bit rate networks, 3D modeling, video processing, video cloning, video spatialization 

Mots clés 

Téléconférence virtuelle, réseaux très bas-débit, modélisation et traitements d'images, clonage de visages, spatialisation vidéo. 

1. Introduction
2. Clonage Vidéo
3. Spatialisation Vidéo
4. Remarques Concluantes

[1] lUT, Narrow-band visual telephone systems and terminal equipment, March, 1996. 

[2] MBONE (or IP Multicast) Information Web, URL http ://www.mbone.com. 

[3] VAT, V. Jackobson and S. MacCanne, Lawrence Laboratory, University of California, Berkley, CA. 

[4] IETF, Host extensions for IP multicasting, November, 1988, rfc1112 . 

[5] H.-G. Musmann, M. Hötter, and J. Ostermann, Object-oriented AnalysisSynthesis Coding of Moving Images, Signal Processing : Image Communication, 1 : 117-138, 1989. 

[6] A. Gagalowicz. Use of Analysis/Synthesis Techniques for Multimedia Applications, Tutorials of the 1998 IEEE International Conference on Multimedia Computing and Systems, June 1998, Austin, Texas. 

[7] P-E. Chaut,A. Sadeghin, A. Saulnier and M.-L.Viand,Créationet animation de clones, InImagina-Méta-mondes/Metaverses,pages 244-257, Monaco, Février 1997. 

[8] D.Terzopoulos and K. Waters, Analysis and Synthesis of Facial Image Sequences Using Physical and Anatomical Models, Transactions on Pattern Analysis and machine Intelligence, 15(6), June 1993. 

[9] 1. S. Pandzic, P. Kalra and N. Magnenat Thalmann, Real Time Facial Interaction, Displays, 15(3), 1995. Butterworth-Heinemann. 

[10] 1. A. Essa, S. Basu, T. Darrell and A. Pentland, Modeling, Tracking, and Interactive Animation of Faces and Heads using Input from Video, In Computer Animation '96 Conference,Geneva, Switzerland, June 1996.

[11] Cyberware Home Page, URL http ://www.eyberware.com, 

[12] S. Valente,J.-L.Dugelay and H. Delingette, An Analysis/Synthesis Cooperation for Head Tracking and Video Face Cloning. In Workshop on perception of Human Action, ECCV Conference, Freiburg, Germany, June 1998. 

[13] S. Valente, J.-L. Dugelay and H. Delingette, Geometric and Photometric Head Modeling for Facial Analysis Technologies. Technical report, Institut Eurécom, 1998. 

[14] G. Hager and P. Belhumeur, Real-time Tracking of Image Regions with Changes in Geometry and Illumination, In IEEE CVPR, November 1996. 

[15] Mpeg demo of the face tracking system. URLhttp://www.eurecom.fr/image/TRAIVI/valente-8points.mpg(1782100 bytes). 

[16] B. Bascle, and A. Blake, Separability of Pose and Expression in Facial Tracking and Animation, International Conference on Computer Vision, Bombay, India, January 4-7 1998. 

[17] A. Shashua, On geometric and algebraic aspect of 3D affine and projective structures from perspective 2D view. In J.-L. Mundy, Zisserman, A. and Forsyth, D., editors,Applications of Invariance in Computer Vision, Second European WorkshopInvariants, PontaDelagada, Azores, October 1993. 

[18] K. Fintzel and J.-L. Dugelay, Défocalisation en Spatialisation Vidéo à partirdeTrois Vues deRéférence(ExpressionsAnalytiques),Technical report, EURECOM, Département Communications Multimédia, Sophia Antipolis, France, Févier 1996. 

[19] K. Fintzel and J.-L. Dugelay, Manipulations analytiques des paramètres trilinéaires pour la resynthèse d'images inédites, Technical Report, EURECOM, Département Communications Multimédia, SophiaAntipolis, France, Novembre 1997.

[20] P. Bobet, J. Blanc, and R. Mohr, Aspect cachés de la trilinéarité. In Proc. RFIA'96 Conf, pages 137-146, Rennes,France, Janvier1996.

[21] S. Avidan and A. Shashua, Tensorial transfer :representation of N>3 views of 3D scenes. InARPA Image Understanding Workshop, Palm Springs, CA USA, February 1996.

[22] O. Faugeras, De laGéométrieau calculvariationnel : théorieet applications de la vision tridimensionnelle.In RFIA'98,pages 15-34,Clermont-Ferrand, France, Janvier 1998. 

[23] K. Fintzel and J.-L. Dugelay, Spatialisation Vidéo. In Proc. CORESA'96 Conf., CNETGrenoble, France, Février1996. 

[24] J. Ohya, Y. Kitamura, F. Kishino, and N. Terashima, Virtual Space Teleconferencing : Real-Time Reproduction of Tridimensional Human Images, Journal of Visual Communication and Image Representation, 6(1) : 1-25, March 1995.

[25] Vrml. URL http ://vrml.sgi.com 

[26] J.-M.Jot, Synthesizing Three-Dimensional Sound Scenes in Audio or Multimedia Production and Interactive Human-Computer Interfaces . In L' interface des Mondes Réels & Virtuels, Montpellier, France, Mai 1996.

[27] MPEG-4 Synthetic/Natural Hybrid Coding, URL http://www.es.com/mpeg4snhc