a. Indexation des
textes
L’indexation consiste à parcourir les
textes à la recherche des termes contenus dans la table des labels. Cela
est fait au niveau des phrases et non au niveau des résumés.
L’algorithme utilisé est le plus simple et n’est donc pas le
plus rapide. Il consiste à prendre chaque texte l’un après
l’autre et à rechercher une chaîne de caractères
à l’intérieur de celui-ci. Quand celle-ci est
trouvée, le système vérifie que le caractère qui
précède, s’il existe, fait bien partie d’une liste
prédéfinie de caractères séparateurs. Il en est de
même pour le caractère qui suit la chaîne de
caractères. Si une occurrence du label est trouvée,
l’information est consignée directement dans la table de
reconnaissance des labels. Le parcours du texte reprend alors là
où il en était rendu. Quand un texte est entièrement
parcouru à la recherche d’un label, on passe au label suivant.
Quand la liste des labels est épuisée, on passe au texte suivant,
jusqu’à épuisement des textes.
Le module chargé de réaliser
l’opération est nommé indexation.
Le module est utilisé dans la macro
indexer.
La macro et le module utilisent des requêtes
qui indiquent quels sont les textes à indexer, quels sont les syntagmes
à rechercher dans les textes et où doit être placé le
résultat. Seuls les labels de type de reconnaissance indexer sont
pris en compte.
L’indexation de 500 résumés prend
environ deux heures. Les étapes suivantes ont des temps de calcul
négligeable relativement à l’indexation.