I. Inventaire des difficultés à résoudre pour réaliser un programme d’identification des gènes

I. Inventaire des difficultés à résoudre pour réaliser un programme d’identification des gènes

L’identification des gènes dans les textes pose de nombreux problèmes, de nature assez diverse et d’importance plus ou moins grande. Par identification, nous entendons à la fois reconnaissance des gènes présents et, pour chaque gène en présence, des occurrences dans le texte où il y est fait référence.

Nous proposons ici un inventaire structuré de ces difficultés. Chaque difficulté est illustrée par des exemples issus de Medline. Cette partie a donc pour but de définir précisément en quoi consiste la tache d’identification des gènes dans les textes. Elle constitue un cahier des charges, qui permettra de justifier le schéma du logiciel que nous avons conçu.

Pour chaque difficulté nous donnons un aperçu de la solution que nous proposons, mais les détails techniques de la mise en œuvre seront expliqués dans l’exposé du fonctionnement du logiciel section Chapitre 2 I.