4. Utilisation du contexte
pour valider les définitions crées pour anticiper les variations
orthographiques des labels
Nous avons vu que le dictionnaire des gènes
n’est pas complet. Nous l’avons complété
automatiquement en ajoutant des définitions qui sont des variantes des
définitions originales. Ce processus peut malheureusement conduire
à créer de nouvelles difficultés en introduisant des labels
ambigus c’est à dire qui désignent éventuellement
autre chose qu’un gène dans les textes que nous analysons. Le tableau 30 donne des exemples de définitions
qui ne sont pas correctes, car les labels sont ambigus.
Tableau 30 Invalidation des variantes non
confirmés
Les définitions créées
automatiquement et qui ne sont confirmés dans aucun des textes sont
présentées ici. La dernière colonne donne le nombre
d’occurrence du label dans les textes. Le tableau complet, obtenu par
l’analyse automatique de 744 résumés issus de Medline compte
137 lignes. Il est clair que ces définitions ne doivent pas être
prises en compte.
Label
|
Gène
|
Fréquence
|
to
|
Superoxide dismutase (Sod)
|
205
|
is
|
Isis (Is)
|
177
|
D
|
dachs (d)
|
69
|
C
|
curved (c)
|
62
|
on
|
Open (On)
|
37
|
large
|
Large (Lg)
|
34
|
bristle
|
Bristle (Bl)
|
23
|
set
|
Set
|
18
|
AS
|
ascute (as)
|
17
|
T
|
tan (t)
|
17
|
margin
|
Margin (Mar)
|
14
|
G
|
garnet (g)
|
12
|
viability
|
Ribosomal protein L36 (RpL36)
|
11
|
lethals
|
LETHALS
|
10
|
open
|
Open (On)
|
10
|
P
|
pink (p)
|
10
|
Il est nécessaire de valider, d’une
façon ou d’une autre, les définitions que nous avons
rajoutées au dictionnaire. Nous avons choisi de désactiver les
définitions qui ne sont confirmées dans aucun des 744
résumés que nous avons analysés.