Old Document Image Analysis: a Texture Approach. Analyse d’Images de Documents Anciens: une Approche Texture

Old Document Image Analysis: a Texture Approach

Analyse d’Images de Documents Anciens: une Approche Texture

Nicholas Journet Jean-Yves Ramel  Véronique Eglin  Rémy Mullot 

Laboratoire d’Informatique, 64 avenue Jean Portalis, 37200 Tours

LIRIS-UMR 5205, INSA de Lyon, Bâtiment Jules Verne, 69621 Villeurbanne cedex

L3I, Université de La Rochelle, Pôle Sciences et Technologie, 17042 La Rochelle cedex

29 January 2007
In this article,we propose a method of characterization of images of old documents based on a texture approach.This characterization is carried out with the help of a multi-resolution study of the textures contained in the images of the document.Thus,by extracting five features linked to the frequencies and to the orientations in the different areas of a page,it is possible to extract and compare elements of high semantic level without expressing any hypothesis about the physical or logical structure of the analysed documents.Experimentations demonstrate the performance of our propositions and the advances that they represent in terms of characterization of content of a deeply heterogeneous corpus.


Dans cet article,nous proposons une méthode de caractérisation d’images d’ouvrages anciens basée sur une approche texture. Cette caractérisation est réalisée à l’aide d’une étude multirésolution des textures contenues dans les images de documents. Ainsi,en extrayant cinq indices liés aux fréquences et aux orientations dans les différentes parties d’une page,il est possible d’extraire et de comparer des éléments de haut niveau sémantique sans émettre d’hypothèses sur la structure physique ou logique des documents analysés. Des expérimentations montrent la faisabilité de la réalisation d’outils d’aide à la navigation ou d’aide à l’indexation. Au travers de ces expérimentations,nous mettrons en avant la pertinence de ces indices et les avancées qu’ils représentent en terme de caractérisation de contenu d’un corpus fortement hétérogène.


Document image analysis,Texture features,Multiresolution,digital libraries,indexation.

Mots clés

Analyse d’images de documents,indices texture,multirésolution,indexation,bibliothèque numérique.

1. Introduction
2. Les Méthodes de Caractérisation de Contenu d’Images de Documents
3. Notre Approche Texture pour la Caractérisation du Contenu
4. Vers de Nouvelles Applications de Recherche d’Information par le Contenu
5. Conclusion et Perspectives

