A. La recherche d’informations textuelles

Les techniques de recherche d’informations textuelles (RI) sont directement issues de la recherche documentaire qui est une discipline ancienne, antérieure à l’apparition des ordinateurs. Le but poursuivi par ces techniques est de permettre un accès au document plus rapide que la consultation intégrale de la collection des documents. L’élaboration d’index est la technique la plus simple. Plus généralement, un système de représentation des documents est utilisé. La requête de l’utilisateur est représentée dans un autre système de représentation. Requête et document sont comparés par l’appariement de leurs représentations. L’ensemble des documents appariés est présenté à l’utilisateur avec éventuellement un indice de pertinence. Il existe deux modèles principaux de recherche documentaire : le modèle booléen et le modèle vectoriel.

Dans le premier cas, la requête s’exprime à travers une expression booléenne, par exemple : auteur=Salton ET (année=1980 OU année=1981). L’appariement ne se fait que s’il y a correspondance exacte, c’est à dire si les caractéristiques du document correspondent exactement à la requête. Ce système est très largement utilisé, aussi bien pour les bases de données bibliographiques que pour les moteurs de recherche sur internet.

Dans le cas du modèle vectoriel, on recherche une similitude entre document et requête plutôt qu’une correspondance exacte. Cette similitude est une quantité qui prend des valeurs entre zéro et un. Elle est d’autant plus grande que document et requête ont des mots en communs. Dans ce modèle, les documents et les requêtes sont représentés par des vecteurs dans un espace vectoriel. La similitude entre document et requête est calculée par le cosinus de l’angle que font les deux vecteurs.

Les méthodes de recherche documentaires doivent être évaluées sur la quantité et la qualité des réponses qu’elles fournissent. Deux indicateurs sont utilisés pour cela. Il s’agit du taux de rappel et du taux de précision (Salton et al., 1983). Le premier correspond à la proportion des documents trouvés (parmi les documents cherchés). Le second correspond à la proportion de documents pertinents (parmi les documents ramenés).

Pour améliorer la performance du système de recherche, des traitements sont nécessaires. Il s’agit de simplifier la représentation des documents afin d’éviter que des documents similaires soient considérés comme trop différents (Faloutsos et al., 1995). Une des premières étapes consiste à éliminer les mots qui à eux seuls n’apportent pas d’information sur le document (Van-Rijsbergen et al., 1979). Ces mots sont appelés mots vides^[7]. Ce pré-traitement a été utilisé lors de la détermination du vocabulaire spécifique de l’interaction génétique ou moléculaire. Une seconde étape dans le traitement classique des documents, consiste à lemmatiser les textes (Salton, 1989). Il s’agit de faire disparaître les différences morphologiques, par exemple les marques de pluriel, de féminin ou de conjugaison. Toutes les formes fléchies sont ramenées à une forme unique qui est appelée le lemme. Cette technique a été utilisée une première fois pour déterminer le vocabulaire spécifique et une seconde fois pour détecter les phrases qui par leur vocabulaire semblent décrire des interactions génétiques ou moléculaires.

D’autres directions de recherche existent en recherche d’information. Il y a notamment les techniques visant à organiser automatiquement les documents. Ces techniques permettent de faciliter la consultation et donc d’accéder plus facilement aux documents et à l’information. Cette organisation peut consister en des opérations de sélection de documents selon un thème, de tris des documents selon leur pertinence par rapport à une problématique, de classement en différentes rubriques, etc. A titre d’exemple, Ususaka et al. proposent une méthode basée sur l’apprentissage de cas pour sélectionner des résumés traitant d’un thème particulier (1998).

Dans le domaine de la veille technologique et de l’intelligence économique, Goujon propose un système d’analyse de texte qui met en évidence des segments de textes ayant des traits particuliers (2000). Cette technique permet, d’après son auteur, d’analyser le contenu d’un ensemble de documents tels que des brevets sans avoir à les lire intégralement.

Cependant, nous faisons une distinction entre la détection d’une occurrence d’un gène et l’identification d’un gène. Dans le premier cas, il s’agit de détecter la présence d’une référence à un gène, autrement dit de repérer qu’un segment de texte est un nom de gène. Dans le second cas, il s’agit en plus d’associer le segment de texte à un gène bien précis d’une liste établie préalablement.

Quand nous voulons parler indifféremment de l’une ou de l’autre des tâches nous emploierons l’expression reconnaissance de gènes. Dans cette expression, il n’est pas précisé s’il s’agit simplement de repérer la présence d’un gène ou s’il s’agit de déterminer de quel gène exactement on parle.

La tâche qui est la nôtre est bien celle de l’identification des gènes dans les textes. Elle se rapproche de la recherche d’informations. Cependant, dans la recherche classique d’informations, un seul objet est recherché, alors que nous allons rechercher tous les gènes de la drosophile. Nous classerons donc notre travail dans la création de liens entre bases de données textuelles et factuelles comme nous le verrons section IV.

^[7] Les termes de l’index sont en italique. Là où ils sont définis, ils sont aussi en gras. La consultation de l’index permet de trouver la page où ils sont définis (numéro de page en gras) et les pages où ils sont utilisés.