Up Previous Next Title Page Index Contents

c. Validation des labels par l’analyse des textes
L’analyse des textes permet aussi de valider le caractère univoque des labels. Le principe de cette analyse consiste à observer des anomalies dans les statistiques de fréquence des labels. Diverses statistiques ont été utilisées, mais l’imbrication entre des phénomènes, tels que l’ambiguïté et l’imprécision de la terminologie, fait qu’il n’est pas possible de trouver un indicateur statistique qui permette à coup sûr de faire la différence entre un label ambigu et un label qui ne l’est pas. Ainsi, chaque méthode a ses inconvénients et aucune ne peut être utilisée en aveugle. Cependant chacune permet de pointer sur des labels potentiellement ambigus et il appartient à l’opérateur de décider de la caractérisation des labels ainsi désignés.
La méthode la plus simple consiste à classer les labels par ordre de fréquence décroissante comme dans le tableau 61.
Tableau 61 Ambiguïté et fréquence
Le tableau donne les labels les plus répandus. La plus part d’entre eux sont ambigus. La fréquence désigne ici le nombre d’occurrence du terme dans les textes.
Label
Fréquence
in
362
cell
275
to
205
is
177
dpp
133
early
116
Ubx
97
similar
96
Notch
89
Sxl
79
wingless
78
as
73
bcd
72
D
69
eye
68
dorsal
65
On voit que dans ce cas, la difficulté provient du fait que certains gènes comme Ultrabithorax (Ubx) sont si répandus dans les textes que leurs labels, tel Ubx, viennent côtoyer les termes très ambigus comme similar.

Up Previous Next Title Page Index Contents