I. Travaux
concernant la reconnaissance de gènes ou de leurs produits dans des
textes
La reconnaissance des interactions
génétiques ou moléculaires nécessite de savoir
reconnaître les gènes dans les textes. Il s’agit aussi de
savoir reconnaître le produit des gènes et notamment les
protéines. Nous emploierons le terme de label pour tout
terme relatif à un gène ou ses produits. Les travaux que nous
présentons ici sont relatifs à la reconnaissance des
labels.
Ceux-ci s’intègrent pour la plupart dans des dispositifs plus
larges d’analyse automatique de publications scientifiques. Les
méthodes de reconnaissance des labels n’étant
qu’un aspect secondaire des travaux présentés, elles ne sont
pas souvent évaluées par leurs auteurs. Ces méthodes,
inspirées de la tache de reconnaissance d’entité
nommée, visent à repérer des portions de textes qui
correspondent à des labels. Elles ne visent pas à
identifier le gène, c’est à dire à mettre en relation
le label avec le ou les gènes qui peuvent lui
correspondre.
On distingue deux grands types de méthodes.
Les premières utilisent des listes de labels. Les secondes
essaient de reconnaître les occurrences de labels sans utiliser aucune
connaissance sur la nomenclature. Dans cette section, nous discuterons aussi des
travaux sur la création automatique de dictionnaires de gènes ou
de protéine à partir de corpus.