c. Validation des labels
par l’analyse des textes
L’analyse des textes permet aussi de valider le
caractère univoque des labels. Le principe de cette analyse consiste
à observer des anomalies dans les statistiques de fréquence des
labels. Diverses statistiques ont été utilisées, mais
l’imbrication entre des phénomènes, tels que
l’ambiguïté et l’imprécision de la terminologie,
fait qu’il n’est pas possible de trouver un indicateur statistique
qui permette à coup sûr de faire la différence entre un
label ambigu et un label qui ne l’est pas. Ainsi, chaque méthode a
ses inconvénients et aucune ne peut être utilisée en
aveugle. Cependant chacune permet de pointer sur des labels potentiellement
ambigus et il appartient à l’opérateur de décider de
la caractérisation des labels ainsi
désignés.
La méthode la plus simple consiste à
classer les labels par ordre de fréquence décroissante comme dans
le tableau 61.
Tableau 61 Ambiguïté et
fréquence
Le tableau donne les labels les plus répandus.
La plus part d’entre eux sont ambigus. La fréquence désigne
ici le nombre d’occurrence du terme dans les textes.
Label
|
Fréquence
|
in
|
362
|
cell
|
275
|
to
|
205
|
is
|
177
|
dpp
|
133
|
early
|
116
|
Ubx
|
97
|
similar
|
96
|
Notch
|
89
|
Sxl
|
79
|
wingless
|
78
|
as
|
73
|
bcd
|
72
|
D
|
69
|
eye
|
68
|
dorsal
|
65
|
On voit que dans ce cas, la difficulté
provient du fait que certains gènes comme Ultrabithorax (Ubx) sont
si répandus dans les textes que leurs labels, tel Ubx, viennent
côtoyer les termes très ambigus comme
similar.