c. Validation des labels par l’analyse des textes

L’analyse des textes permet aussi de valider le caractère univoque des labels. Le principe de cette analyse consiste à observer des anomalies dans les statistiques de fréquence des labels. Diverses statistiques ont été utilisées, mais l’imbrication entre des phénomènes, tels que l’ambiguïté et l’imprécision de la terminologie, fait qu’il n’est pas possible de trouver un indicateur statistique qui permette à coup sûr de faire la différence entre un label ambigu et un label qui ne l’est pas. Ainsi, chaque méthode a ses inconvénients et aucune ne peut être utilisée en aveugle. Cependant chacune permet de pointer sur des labels potentiellement ambigus et il appartient à l’opérateur de décider de la caractérisation des labels ainsi désignés.

Le tableau donne les labels les plus répandus. La plus part d’entre eux sont ambigus. La fréquence désigne ici le nombre d’occurrence du terme dans les textes.

Label	Fréquence
in	362
cell	275
to	205
is	177
dpp	133
early	116
Ubx	97
similar	96
Notch	89
Sxl	79
wingless	78
as	73
bcd	72
D	69
eye	68
dorsal	65

On voit que dans ce cas, la difficulté provient du fait que certains gènes comme Ultrabithorax (Ubx) sont si répandus dans les textes que leurs labels, tel Ubx, viennent côtoyer les termes très ambigus comme similar.