A. La
recherche d’informations textuelles
Les techniques de recherche
d’informations textuelles
(RI)
sont directement issues de la recherche documentaire qui est une discipline
ancienne, antérieure à l’apparition des ordinateurs. Le but
poursuivi par ces techniques est de permettre un accès au document plus
rapide que la consultation intégrale de la collection des documents.
L’élaboration d’index est la technique la plus simple. Plus
généralement, un système de représentation des
documents est utilisé. La requête de l’utilisateur est
représentée dans un autre système de représentation.
Requête et document sont comparés par l’appariement de leurs
représentations. L’ensemble des documents appariés est
présenté à l’utilisateur avec éventuellement
un indice de pertinence. Il existe deux modèles principaux de recherche
documentaire : le modèle booléen et le modèle
vectoriel.
Dans le premier cas, la requête s’exprime
à travers une expression booléenne, par exemple :
auteur=Salton ET (année=1980 OU année=1981). L’appariement
ne se fait que s’il y a correspondance exacte, c’est à dire
si les caractéristiques du document correspondent exactement à la
requête. Ce système est très largement utilisé, aussi
bien pour les bases de données bibliographiques que pour les moteurs de
recherche sur internet.
Dans le cas du modèle vectoriel, on recherche
une similitude entre document et requête plutôt qu’une
correspondance exacte. Cette similitude est une quantité qui prend des
valeurs entre zéro et un. Elle est d’autant plus grande que
document et requête ont des mots en communs. Dans ce modèle, les
documents et les requêtes sont représentés par des vecteurs
dans un espace vectoriel. La similitude entre document et requête est
calculée par le cosinus de l’angle que font les deux
vecteurs.
Les méthodes de recherche documentaires
doivent être évaluées sur la quantité et la
qualité des réponses qu’elles fournissent. Deux indicateurs
sont utilisés pour cela. Il s’agit du taux de rappel
et du taux de
précision (Salton et al.,
1983). Le premier correspond à la proportion des documents trouvés
(parmi les documents cherchés). Le second correspond à la
proportion de documents pertinents (parmi les documents
ramenés).
Pour améliorer la
performance du système de recherche, des traitements sont
nécessaires. Il s’agit de simplifier la représentation des
documents afin d’éviter que des documents similaires soient
considérés comme trop différents
(Faloutsos et al., 1995). Une des
premières étapes consiste à éliminer les mots qui
à eux seuls n’apportent pas d’information sur le document
(Van-Rijsbergen et al., 1979). Ces mots sont appelés mots
vides [7].
Ce pré-traitement a été utilisé lors de la
détermination du vocabulaire spécifique de l’interaction
génétique ou moléculaire. Une seconde étape dans le
traitement classique des documents, consiste à lemmatiser les textes
(Salton, 1989). Il s’agit de faire
disparaître les différences morphologiques, par exemple les marques
de pluriel, de féminin ou de conjugaison. Toutes les formes
fléchies sont ramenées à une forme unique qui est
appelée le
lemme. Cette
technique a été utilisée une première fois pour
déterminer le vocabulaire spécifique et une seconde fois pour
détecter les phrases qui par leur vocabulaire semblent décrire des
interactions génétiques ou moléculaires.
D’autres directions de recherche existent en
recherche d’information. Il y a notamment les techniques visant à
organiser automatiquement les documents. Ces techniques permettent de faciliter
la consultation et donc d’accéder plus facilement aux documents et
à l’information. Cette organisation peut consister en des
opérations de sélection de documents selon un thème, de
tris des documents selon leur pertinence par rapport à une
problématique, de classement en différentes rubriques, etc. A
titre d’exemple, Ususaka et al. proposent une méthode
basée sur l’apprentissage de cas pour sélectionner des
résumés traitant d’un thème particulier
(1998).
Dans le domaine de la veille technologique et de
l’intelligence économique, Goujon propose un système
d’analyse de texte qui met en évidence des segments de textes ayant
des traits particuliers (2000). Cette technique permet, d’après son
auteur, d’analyser le contenu d’un ensemble de documents tels que
des brevets sans avoir à les lire intégralement.
Voyons maintenant dans quelle mesure notre travail
s’inscrit dans la recherche d’informations et comment il s’en
distingue.
Le premier volet de notre travail, à savoir,
l’identification de gènes dans les textes, s’inscrit en
partie dans la recherche d’informations. Il s’agit de repérer
des objets pertinents dans des textes.
Cependant, nous faisons une distinction entre la
détection d’une occurrence d’un gène et
l’identification d’un gène. Dans le premier cas, il
s’agit de détecter la présence d’une
référence à un gène, autrement dit de repérer
qu’un segment de texte est un nom de gène. Dans le second cas, il
s’agit en plus d’associer le segment de texte à un
gène bien précis d’une liste établie
préalablement.
Quand nous voulons parler
indifféremment de l’une ou de l’autre des tâches nous
emploierons l’expression reconnaissance
de gènes. Dans
cette expression, il n’est pas précisé s’il
s’agit simplement de repérer la présence d’un
gène ou s’il s’agit de déterminer de quel gène
exactement on parle.
La tâche qui est la nôtre est bien celle
de l’identification des gènes dans les textes. Elle se rapproche
de la recherche d’informations. Cependant, dans la recherche classique
d’informations, un seul objet est recherché, alors que nous allons
rechercher tous les gènes de la drosophile. Nous classerons donc notre
travail dans la création de liens entre bases de données textuelles
et factuelles comme nous le verrons section IV.
[7]
Les termes de l’index sont en italique. Là où ils sont
définis, ils sont aussi en gras. La consultation de l’index permet
de trouver la page où ils sont définis (numéro de page en
gras) et les pages où ils sont utilisés.