Up Previous Next Title Page Index Contents

a. Indexation des textes
L’indexation consiste à parcourir les textes à la recherche des termes contenus dans la table des labels. Cela est fait au niveau des phrases et non au niveau des résumés. L’algorithme utilisé est le plus simple et n’est donc pas le plus rapide. Il consiste à prendre chaque texte l’un après l’autre et à rechercher une chaîne de caractères à l’intérieur de celui-ci. Quand celle-ci est trouvée, le système vérifie que le caractère qui précède, s’il existe, fait bien partie d’une liste prédéfinie de caractères séparateurs. Il en est de même pour le caractère qui suit la chaîne de caractères. Si une occurrence du label est trouvée, l’information est consignée directement dans la table de reconnaissance des labels. Le parcours du texte reprend alors là où il en était rendu. Quand un texte est entièrement parcouru à la recherche d’un label, on passe au label suivant. Quand la liste des labels est épuisée, on passe au texte suivant, jusqu’à épuisement des textes.
Le module chargé de réaliser l’opération est nommé indexation.
Le module est utilisé dans la macro indexer.
La macro et le module utilisent des requêtes qui indiquent quels sont les textes à indexer, quels sont les syntagmes à rechercher dans les textes et où doit être placé le résultat. Seuls les labels de type de reconnaissance indexer sont pris en compte.
L’indexation de 500 résumés prend environ deux heures. Les étapes suivantes ont des temps de calcul négligeable relativement à l’indexation.

Up Previous Next Title Page Index Contents