Up Previous Next Title Page Index Contents

B. Travaux sur la reconnaissance des gènes ou de leurs produits n’utilisant pas de lexiques

Pour éviter d’avoir à construire des dictionnaires ou des lexiques spécifiques au domaine, un certain nombre d’auteurs mettent au point des méthodes qui n’en nécessitent pas. Ces méthodes sont basées sur le fait que les noms de gènes ont une place spécifique dans la construction grammaticale de la phrase. Elles utilisent aussi les propriétés morphologiques des noms de gènes ou de protéines.
L’argument utilisé pour ne pas utiliser de dictionnaire est le suivant : les dictionnaires appropriés n’existent pas toujours. Une méthode générale doit donc pouvoir s’en passer. De plus, quand ces dictionnaires existent, ils ne sont pas à jour étant donné la quantité de nouveaux gènes et de nouvelles protéines découvertes chaque jour.
Ces arguments ne manquent pas de pertinence, tant il est vrai que les dictionnaires, quand ils existent, doivent être complétés et adaptés à la tâche de la reconnaissance ou de l’identification des gènes ou de leurs produits. Cependant, nous remarquons que les mêmes auteurs qui emploient ces arguments (Fukuda et al., 1998), élaborent aussi des programmes permettant de créer de tels dictionnaires automatiquement par l’analyse informatique des textes (Yoshida et al., 1998). La non-disponibilité des dictionnaires spécialisés n’est donc pas un obstacle insurmontable. Nous verrons dans la partie réalisation, comment dans notre étude nous avons pu adapter le dictionnaire qui était à notre disposition.
Ces travaux s’inscrivent dans la tradition du traitement automatique des langues et plus précisément dans la tâche de reconnaissance d’entités nommées. Il s’agit de travaux sur Medline, sauf dans le cas du travail de Proux (voir plus bas).
Thomas et al., dans leur travail sur les interactions entres protéines réalisent une analyse grammaticale des phrases (2000). Cela leur permet de détecter les syntagmes nominaux qui sont de bons candidats pour des noms de gènes. Ils utilisent des particularités morphologiques des noms de protéines telles que la présence de caractères spéciaux comme / - ( ) ou de chiffres qui sont souvent présents dans le nom des protéines auxquelles ils ont à faire. Cela leurs permet de se passer totalement de lexique sur les noms de gènes.
Fukuda et al., dans leur travail en reconnaissance d’entités nommées sur les protéines, utilisent les mêmes principes (1998). En particulier, ils utilisent le fait que les noms de protéines sont souvent en majuscules et comportent des caractères spéciaux et des chiffres. Les auteurs remarquent les difficultés introduites par la présence de noms synonymes. D’ailleurs, ils ne renoncent pas totalement à l’utilisation d’un dictionnaire des protéines même s’ils n’en utilisent pas dans cet article. Ils promettent des développements sur la construction automatique de dictionnaires de protéines. Le travail en question sera publié par Yoshida et al.. Nous y reviendrons à la section suivante qui est consacrée à la construction de dictionnaire par extraction d’informations dans des textes.
Tous ces auteurs travaillent sur des noms de protéines et non sur des noms de gènes. Or les noms de protéines ont des particularités morphologiques que n’ont pas les noms de gènes de la drosophile. Nous verrons que les noms de gènes chez la drosophile sont assez quelconques, c’est à dire que ce ne sont pas des noms de code. Ceci est moins vrai cependant pour les symboles qui sont des abréviations.
Proux et al. ont effectué un travail sur la détection des noms de gènes, alors que les précédents auteurs ont travaillé sur les noms de protéines (1998). Cependant, ce travail est fait sur des textes issus de Flybase. Flybase est une base de données sur la drosophile sur laquelle nous reviendrons. Les textes en question, ont été écrits ou réécrits par les annotateurs de la base de données. Une terminologie stricte a été utilisée. Un seul nom est utilisé pour chaque gène. Plus précisément, il s’agit du symbole attribué par Flybase dans son dictionnaire des gènes. Le problème de la synonymie se trouve donc être artificiellement absent du corpus étudié. De plus, les symboles, qui sont des abréviations, ont des particularités morphologiques spécifiques, et ces particularités sont utilisées lors de la détection des labels. En outre, les symboles sont toujours composés d’un seul mot, ce qui n’est pas le cas des noms complets et des synonymes. Ainsi ce travail n’est pas directement transposable aux textes issus de Medline.
Proux et al. sont néanmoins confrontés à un problème intéressant qui est celui des labels ambigus. Ce sont des labels qui peuvent éventuellement désigner autre chose que des gènes. Ils font une distinction entre différents types de labels ambigus. Les labels ambigus hors du domaine (out of scope) sont des termes qui peuvent être caractérisés comme ambigus en général mais ne le sont pas dans le contexte des textes étudiés ici. Par exemple gypsy, qui signifie bohémien, n’est pas ambigu dans des textes de génétique sur la drosophile. Les labels ambigus dans le domaine (in scope) sont des termes qui peuvent prêter à confusion avec des termes du domaine. Il s’agit par exemple de dorsal qui est le nom d’un gène connu mais est aussi un terme anatomique. La dernière catégorie de label (in conflict) rassemble les noms de gènes qui prêtent à confusion avec un mot d’une autre catégorie grammaticale. Il s’agit par exemple de is, a , by, red, can. Ces termes, quand ils sont employés dans leurs sens de gènes, risquent de perturber l’analyse grammaticale de la phrase.
L’analyse grammaticale des phrases apporte néanmoins des informations pertinentes puisque les performances calculées par Proux et al. sont intéressantes pour un système sans dictionnaire de gène. Le taux de précision atteint 91,4 % pour un taux de rappel de 94,4 %. A notre avis, ces techniques gagneraient à intégrer malgré tout un dictionnaire des gènes ; d’autant plus que la construction de tel dictionnaire à partir de corpus est possible. Les travaux décrits dans la section suivante le montrent.
Rindflesch et al. adoptent une stratégie dans laquelle les termes sont trouvés par analyse grammaticale de la phrase, puis éventuellement associés à des entrées d’une ressource terminologique (1999). Le travail porte sur l’extraction d’informations sur les affinités de liaisons moléculaires entre macro-molécules. Les termes recherchés sont tous les syntagmes nominaux qui peuvent éventuellement être sujets à une liaison moléculaire. Il peut donc s’agir d’une molécule, d’une partie d’une molécule, d’une cellule, d’une partie d’une cellule ou d’une structure génomique. Pour identifier ces entités, les auteurs utilisent des ressources terminologiques variées. Il s’agit en particulier du thésaurus biomédical UMLS Metathesaurus, du dictionnaire biomédical SPECIALIST et de Genbank. Quand il n’y a pas de correspondance, le terme est laissé non interprété et le processus d’extraction d’informations suit son cours normalement. Il s’agit donc d’une démarche intermédiaire entre le ‘tout lexique’ et le ‘sans lexique’.

Up Previous Next Title Page Index Contents