Efficient Tracking of 3D Objects from Appearance
Suivi Efficace D’Objets 3D Basé sur L’Apparence
OPEN ACCESS
In this article, we propose an efficient tracking algorithm to follow 3D objects in image sequences. 3D objects are represented by a collection of reference images. The originality of this method is not to use high-level primitives (points of interest) to follow the movement of the object in the image but rather the difference between the vectors of gray-levels of the tracked reference pattern and the current pattern sampled in an area of interest. The tracking problem is reduced then to the estimate of the parameters representing the possible movements of the object in the image by the determination of interaction matrices learned during an off-line training stage, and that for each reference view. The first one relates the variations of intensity of the 2D current pattern to be tracked to its fronto parallel movement (parallel movement to the image plane). The aspect of the pattern representing the tracked object is not modified by this movement. However, the position, the orientation and the size of the pattern can change. The second matrix relates the variations of appearance of the currently tracked pattern to a change of attitude between the object and the camera (modification of the angular values in rolling and pitching). We show that the on-line use of these interaction matrices for the correction of the predicted position of the object in the image and the estimate of the variations of aspect of the tracked pattern allows a real time implementation of this algorithm (a matrix multiplied by a vector). Moreover, we also show how the problem of occlusions can be managed.
Résumé
Dans cet article, nous proposons un algorithme efficace de suivi d’un objet 3D dans une séquence d’images. Pour cela, l’objet 3D est représenté par une collection d’images de référence. L’originalité de cette méthode est de ne pas utiliser des primitives de haut niveau (points d’intérêt) pour suivre le déplacement de l’objet dans l’image mais plutôt la différence de vecteurs de niveaux de gris entre le motif de référence suivi et le motif courant échantillonné dans une zone d’intérêt de l’image. Le problème du suivi se ramène alors à l’estimation des paramètres qui caractérisent les mouvements possibles de l’objet dans l’image par la détermination de matrices dites d’interaction apprises lors d’une phase d’apprentissage hors ligne, et cela pour chacune des vues de référence. La première matrice lie les variations d’intensité lumineuse du motif de référence 2D de l’objet suivi à son déplacement fronto parallèle (déplacement parallèle au plan image). Sous l’hypothèse d’un tel mouvement, l’aspect apparent de l’objet suivi n’est pas modifié. Toutefois, sa position, son orientation planaire et sa taille peuvent changer. La deuxième matrice relie les variations d’apparence du motif suivi suite à un changement d’orientation par rapport au capteur (modification des angles de site et d’azimut). Nous montrons que l’utilisation en ligne de ces matrices pour la correction de la position prédite de l’objet dans l’image et de l’estimation des variations d’aspect du motif suivi correspond à un coût algorithmique très faible (multiplication d’une matrice par un vecteur) permettant une mise en œuvre temps réel. De plus, nous évoquons le problème des occultations lors du suivi par une méthode de seuillage adaptatif.
computer vision, 3D tracking, appearance, real time, occlusion.
Mots clés
vision par ordinateur, suivi 3D, apparence, temps réel, occultation.
[1] S. Basu and A. Pentland, « A three-dimensional model of human lip motions trained from vidéo », Technical Report 441,M.I.T. Media Laboratory Perceptual Computing Section, 1999.
[2] M.J. Black and A.D. Jepson, « Eigentracking : Robust matching and tracking of articulated objects using in view-based representation », International Journal of Computer Vision, 26(1), pp. 63-84, 1998.
[3] R. Brunelli and Poggio T. Template matching : Matched spatial filter and beyond. A.I. », Memo 1549, M.I.T., October 1995.
[4] T. Darell, I.A. Essa and A.P. Pentland, « Task-specific gesture analysis in real-time using interpolated views », IEEE Trans. Pattern Analysis and Machine Intelligence, 18(12), pp. 1236-1242, 1996.
[5] K. Deguchi and T. Noguchi, « Visual servoing using eigenspace method and dynamic calculation of interaction matrices », InICPR96, pp. A7E.3, 1996.
[6] F. Dellaert and R. Collins, « Fast image-based tracking by selective pixel integration », In ICCV Workshop on Frame-Rate Vision, Greece, September 1999.
[7] M. Gleicher,« Projective registration with difference decomposition », In CVPR97, pp. 331-337, 1997.
[8] G.D. Hager and P.N. Belhumeur, « Efficient region tracking with parametric models of geometry and illumination », IEEE Trans. on PAMI, 20(10), pp. 1025-1039, 1998.
[9] T. M. Caelli, J. J. Wu, R. E. Rink and V. G. Gourishankar, « Recovery of the 3-d location and motion of a rigid object through camera image », International Journal of Computer Vision, 3, pp. 373-394, 1989.
[10] F. Jurie and M. Dhome, « Un algorithme efficace de suivi d'objets dans des séquences d'images » In Congrès francophone RFIA, Vol. 1, pp. 537-546, Paris, February 2000.
[11] F. Jurie and M. Dhome, « Real time template matching : an efficient approach » In the 12th International Conference on Computer Vision, Vancouver, Canada, July 2001.
[12] H. Kollnig and H.H. Nagel, « 3d pose estimation by directly matching polyhedral models to gray value gradients » International Journal of Computer Vision, 23(3), pp.283-302, 1997.
[13] M. La Cascia, S. Sclaroff and V. Athitsos, « Fast, reliable head tracking under varying illumination: An approach based on registration of textured-mapped 3d models » PAMI, 22(4), pp. 322--336, April 2000.
[14] D. Lowe, « Robust model-based motion tracking through the integration of search and estimation » International Journal of Computer Vision, 8(2), pp. 113-122, 1992.
[15] E. Marchand and G.D. Hager, « Dynamic sensor planning in visual servoing, », In the IEEE International Conference on Robotics and Automation (ICRA),Vol. 3, pp. 1988-1993, Leuven, Belgium, May 1998.
[16] B. Moghaddam and A. Pentland, « A subspace method for maximum likelihood taget detection », Technical report, M.I.T. Media Laboratory Perceptual Computing Section, 1995.
[17] Hiroshi Murase and Shree K. Nayar, « Visual learning and recognition of 3-d objects from appearance », International Journal of Computer Vision, 14, pp.5-24, 1995.
[18] Shree K. Nayar and Ruud M. Bolle, « Reflectance based object recognition », International Journal of Computer Vision, 17(3), pp. 219-240,1996.
[19] Sameer A. Nene, Shree K. Nayar and Hiroshi Murase, « Subspace methods for robot vision », IEEE Transactions on Robotics and Automation on Vision-Based Control of Robot Manipulators, 12(5), pp.750-758, October 1996.
[20] J. Strom, T. Jebara, S. Basu and A. Pentland, « Real time tracking and modeling of faces : An ekf-based analysis by synthesis approach » , Technical Report 506, M.I.T. Media Laboratory Perceptual Computing Section, 1999.