1. Les
labels qui sont des mots
vides
Cette première catégorie de label
ambigu correspond à des mots extrêmement courants de
l’anglais comme if ou for qui malheureusement
désignent des gènes. Le tableau 14
donne la liste de ces termes.
Tableau 14 Labels et mots
vides
Les labels présentés prêtent
à confusion avec des mots vides.
Label
|
Gène
|
an
|
ancon (an)
|
as
|
ascute (as)
|
at
|
arctus oculus (at)
|
be
|
tumor(3)be (tu(3)be)
|
by
|
blistery (by)
|
can
|
cannonball (can)
|
did
|
diminished discs (did)
|
do
|
pale ocelli (po)
|
for
|
foraging (for)
|
her
|
hermaphrodite (her)
|
how
|
held out wings (how)
|
if
|
inflated (if)
|
in
|
inturned (in)
|
me
|
focal melanosis (me)
|
|
glass (gl)
|
not
|
non-stop (not)
|
or
|
orange (or)
|
per
|
period (per)
|
she
|
sherry (she)
|
so
|
sine oculis (so)
|
up
|
upheld (up)
|
us
|
undersized (us)
|
we
|
wee (we)
|
who
|
held out wings
(how) [28]
|
with
|
with trident (with)
|
Ces mots sont appelés mots vides
(stop
word en anglais) en
recherche documentaire. Cette appellation provient du fait que ces mots à
eux seul ne renferment pas de sens. C’est à dire que leur
présence ou absence dans un texte donné ne permet pas de savoir
quoi que ce soit sur ce texte quant à son sens. Ils ne sont donc jamais
utilisés dans les index. Nous avons employé une liste de
mots vides établie pour la mise au
point d’un système d’indexation de texte en anglais. Nous
avons trouvé parmi les labels de notre dictionnaire un certain nombre de
termes qui appartiennent à cette liste. Nous voyons que la liste des
membres de cette première catégorie de labels ambigus a
été établie avant toute expérience ; ce qui ne
sera pas le cas de la deuxième liste qui elle sera établie
à la lecture des textes, au fur et à mesure de la rencontre avec
des labels ambigus. Certains termes ont pu quand même changer de
catégorie, quand nous nous sommes aperçus qu’ils
n’étaient pas toujours aussi largement répandus dans les
textes.
Les occurrences de ces termes sont trop nombreuses
pour que nous puissions les indexer systématiquement. Cela aboutirait
à une surcharge de la base de données. Il est d’ailleurs
d’usage de ne pas les inclure dans les index en partie pour cette
raison.
Néanmoins nous verrons que le contexte permet
dans certain cas de les prendre en compte lors de l’identification des
gènes dans les textes. Retenons simplement pour l’instant que la
présence à elle seule d’un de ces labels ne peut être
interprété comme une référence à un
gène.
Les labels que nous avons présentés
dans le tableau 14 se confondent exactement avec
des mots vides. D’autres labels ne s’en distinguent que par
la casse. Ils sont présentés dans le tableau 15.
Tableau 15 Mots vides et différence
de casse
Les labels présentés prêtent
à confusion avec des mots vides, mais ils s’en distinguent
par la casse.
Label
|
Gène
|
Remarque
|
And
|
Androcam (And)
|
|
At
|
Attenuated (At)
|
|
Be
|
lethal (2) 37Be (l(2)37Be)
|
|
Can
|
Calcineurin B (CanB)
|
Can est un label commun à deux
gènes
|
Can
|
Calcineurin A1 (CanA1)
|
idem
|
Co
|
Notch (N)
|
Co provient du synonyme
Confluens
|
Had
|
beta Hydroxy acid dehydrogenase
(Had)
|
|
Is
|
Isis (Is)
|
|
Low
|
Lightener of white (Low)
|
|
Me
|
Moire (Me)
|
|
Off
|
Off
|
|
On
|
Open (On)
|
|
Re
|
Re
|
|
To
|
Superoxide dismutase (Sod)
|
To provient du synonyme Tetrazolium
oxidase
|
Ve
|
veinlet (ve)
|
|
We
|
Washed eye (We)
|
|
Ces labels sont recherchés dans les textes car
le système prend en compte la différence de casse. Cependant quand
le mot en question se trouve en première position dans la phrase, alors
il y a de fortes chances pour qu’il s’agisse en fait du mot vide
correspondant. Dans ce cas la reconnaissance ne se fait pas.
[27]
l’appellation none provient de l’abréviation du
synonyme no-ocelli--narrow-eyes
[28]
Le gène held out wings (how) a bien comme définition
synonyme le label who. Le gène compte en effet wings held
out dans ces définitions, ce qui explique la présence de
who.