I. Inventaire des
difficultés à résoudre pour réaliser un programme
d’identification des gènes
L’identification des gènes dans les
textes pose de nombreux problèmes, de nature assez diverse et
d’importance plus ou moins grande. Par identification, nous
entendons à la fois reconnaissance des gènes présents et,
pour chaque gène en présence, des occurrences dans le texte
où il y est fait référence.
Nous proposons ici un
inventaire structuré de ces difficultés. Chaque difficulté
est illustrée par des exemples issus de
Medline. Cette partie a donc pour but de
définir précisément en quoi consiste la tache
d’identification des gènes dans les textes. Elle constitue un
cahier des charges, qui permettra de justifier le schéma du logiciel que
nous avons conçu.
Pour chaque difficulté nous donnons un
aperçu de la solution que nous proposons, mais les détails
techniques de la mise en œuvre seront expliqués dans
l’exposé du fonctionnement du logiciel section Chapitre 2 I.