Up Previous Next Title Page Index Contents

4. Utilisation du contexte pour valider les définitions crées pour anticiper les variations orthographiques des labels
Nous avons vu que le dictionnaire des gènes n’est pas complet. Nous l’avons complété automatiquement en ajoutant des définitions qui sont des variantes des définitions originales. Ce processus peut malheureusement conduire à créer de nouvelles difficultés en introduisant des labels ambigus c’est à dire qui désignent éventuellement autre chose qu’un gène dans les textes que nous analysons. Le tableau 30 donne des exemples de définitions qui ne sont pas correctes, car les labels sont ambigus.
Tableau 30 Invalidation des variantes non confirmés
Les définitions créées automatiquement et qui ne sont confirmés dans aucun des textes sont présentées ici. La dernière colonne donne le nombre d’occurrence du label dans les textes. Le tableau complet, obtenu par l’analyse automatique de 744 résumés issus de Medline compte 137 lignes. Il est clair que ces définitions ne doivent pas être prises en compte.
Label
Gène
Fréquence
to
Superoxide dismutase (Sod)
205
is
Isis (Is)
177
D
dachs (d)
69
C
curved (c)
62
on
Open (On)
37
large
Large (Lg)
34
bristle
Bristle (Bl)
23
set
Set
18
AS
ascute (as)
17
T
tan (t)
17
margin
Margin (Mar)
14
G
garnet (g)
12
viability
Ribosomal protein L36 (RpL36)
11
lethals
LETHALS
10
open
Open (On)
10
P
pink (p)
10
Il est nécessaire de valider, d’une façon ou d’une autre, les définitions que nous avons rajoutées au dictionnaire. Nous avons choisi de désactiver les définitions qui ne sont confirmées dans aucun des 744 résumés que nous avons analysés.

Up Previous Next Title Page Index Contents