B. Travaux
sur la reconnaissance des gènes ou de leurs produits n’utilisant
pas de lexiques
Pour éviter d’avoir à construire
des dictionnaires ou des lexiques spécifiques au domaine, un certain
nombre d’auteurs mettent au point des méthodes qui n’en
nécessitent pas. Ces méthodes sont basées sur le fait que
les noms de gènes ont une place spécifique dans la construction
grammaticale de la phrase. Elles utilisent aussi les propriétés
morphologiques des noms de gènes ou de protéines.
L’argument utilisé pour ne pas utiliser
de dictionnaire est le suivant : les dictionnaires appropriés
n’existent pas toujours. Une méthode générale doit
donc pouvoir s’en passer. De plus, quand ces dictionnaires existent, ils
ne sont pas à jour étant donné la quantité de
nouveaux gènes et de nouvelles protéines découvertes chaque
jour.
Ces arguments ne manquent pas de pertinence, tant il
est vrai que les dictionnaires, quand ils existent, doivent être
complétés et adaptés à la tâche de la
reconnaissance ou de l’identification des gènes ou de leurs
produits. Cependant, nous remarquons que les mêmes auteurs qui emploient
ces arguments (Fukuda et al., 1998), élaborent aussi des
programmes permettant de créer de tels dictionnaires automatiquement par
l’analyse informatique des textes (Yoshida et al., 1998). La
non-disponibilité des dictionnaires spécialisés n’est
donc pas un obstacle insurmontable. Nous verrons dans la partie
réalisation, comment dans notre étude nous avons pu adapter le
dictionnaire qui était à notre disposition.
Ces travaux s’inscrivent dans la tradition du
traitement automatique des langues et plus précisément dans la
tâche de reconnaissance d’entités nommées. Il
s’agit de travaux sur
Medline,
sauf dans le cas du travail de Proux (voir plus bas).
Thomas et al., dans leur travail sur les
interactions entres protéines réalisent une analyse grammaticale
des phrases (2000). Cela leur permet de détecter les syntagmes nominaux
qui sont de bons candidats pour des noms de gènes. Ils utilisent des
particularités morphologiques des noms de protéines telles que la
présence de caractères spéciaux comme / - ( ) ou de
chiffres qui sont souvent présents dans le nom des protéines
auxquelles ils ont à faire. Cela leurs permet de se passer totalement de
lexique sur les noms de gènes.
Fukuda et al., dans leur travail en
reconnaissance d’entités nommées sur les
protéines, utilisent les mêmes principes (1998). En particulier,
ils utilisent le fait que les noms de protéines sont souvent en
majuscules et comportent des caractères spéciaux et des chiffres.
Les auteurs remarquent les difficultés introduites par la présence
de noms synonymes. D’ailleurs, ils ne renoncent pas totalement
à l’utilisation d’un dictionnaire des protéines
même s’ils n’en utilisent pas dans cet article. Ils promettent
des développements sur la construction automatique de dictionnaires de
protéines. Le travail en question sera publié par Yoshida et
al.. Nous y reviendrons à la section suivante qui est
consacrée à la construction de dictionnaire par extraction
d’informations dans des textes.
Tous ces auteurs travaillent sur des noms de
protéines et non sur des noms de gènes. Or les noms de
protéines ont des particularités morphologiques que n’ont
pas les noms de gènes de la drosophile. Nous verrons que les noms de
gènes chez la drosophile sont assez quelconques, c’est à
dire que ce ne sont pas des noms de code. Ceci est moins vrai cependant pour les
symboles qui sont des abréviations.
Proux et al. ont effectué un travail
sur la détection des noms de gènes, alors que les
précédents auteurs ont travaillé sur les noms de
protéines (1998). Cependant, ce travail est fait sur des textes issus de
Flybase. Flybase est une base de données sur la
drosophile sur laquelle nous reviendrons. Les textes en question, ont
été écrits ou réécrits par les annotateurs de
la base de données. Une terminologie stricte a été
utilisée. Un seul nom est utilisé pour chaque gène. Plus
précisément, il s’agit du symbole attribué par
Flybase dans son dictionnaire des gènes. Le problème de la
synonymie se trouve donc être artificiellement absent du corpus
étudié. De plus, les symboles, qui sont des
abréviations, ont des particularités morphologiques
spécifiques, et ces particularités sont utilisées lors de
la détection des labels. En outre, les symboles sont toujours
composés d’un seul mot, ce qui n’est pas le cas des noms
complets et des synonymes. Ainsi ce travail n’est pas
directement transposable aux textes issus de Medline.
Proux et al. sont néanmoins
confrontés à un problème intéressant qui est celui
des labels ambigus. Ce sont des labels qui peuvent éventuellement
désigner autre chose que des gènes. Ils font une distinction entre
différents types de labels ambigus. Les labels ambigus hors du domaine
(out of scope) sont des termes qui peuvent être
caractérisés comme ambigus en général mais ne le
sont pas dans le contexte des textes étudiés ici. Par exemple
gypsy, qui signifie bohémien, n’est pas ambigu dans des
textes de génétique sur la drosophile. Les labels ambigus dans le
domaine (in scope) sont des termes qui peuvent prêter à
confusion avec des termes du domaine. Il s’agit par exemple de
dorsal qui est le nom d’un gène connu mais est aussi un
terme anatomique. La dernière catégorie de label (in
conflict) rassemble les noms de gènes qui prêtent à
confusion avec un mot d’une autre catégorie grammaticale. Il
s’agit par exemple de is, a , by, red,
can. Ces termes, quand ils sont employés dans leurs sens de
gènes, risquent de perturber l’analyse grammaticale de la
phrase.
L’analyse grammaticale des phrases apporte
néanmoins des informations pertinentes puisque les performances
calculées par Proux et al. sont intéressantes pour un
système sans dictionnaire de gène. Le taux de
précision atteint 91,4 % pour un taux de rappel de 94,4 %. A
notre avis, ces techniques gagneraient à intégrer malgré
tout un dictionnaire des gènes ; d’autant plus que la
construction de tel dictionnaire à partir de corpus est possible. Les
travaux décrits dans la section suivante le montrent.
Rindflesch et al. adoptent une
stratégie dans laquelle les termes sont trouvés par analyse
grammaticale de la phrase, puis éventuellement associés à
des entrées d’une ressource terminologique (1999). Le travail porte
sur l’extraction d’informations sur les affinités de liaisons
moléculaires entre macro-molécules. Les termes recherchés
sont tous les syntagmes nominaux qui peuvent éventuellement être
sujets à une liaison moléculaire. Il peut donc s’agir
d’une molécule, d’une partie d’une molécule,
d’une cellule, d’une partie d’une cellule ou d’une
structure génomique. Pour identifier ces entités, les auteurs
utilisent des ressources terminologiques variées. Il s’agit en
particulier du thésaurus biomédical UMLS
Metathesaurus, du
dictionnaire biomédical
SPECIALIST
et de Genbank. Quand il n’y a pas de
correspondance, le terme est laissé non interprété et le
processus d’extraction d’informations suit son cours normalement. Il
s’agit donc d’une démarche intermédiaire entre le
‘tout lexique’ et le ‘sans lexique’.