Up Previous Next Title Page Index Contents

1. Les labels qui sont des mots vides
Cette première catégorie de label ambigu correspond à des mots extrêmement courants de l’anglais comme if ou for qui malheureusement désignent des gènes. Le tableau 14 donne la liste de ces termes.
Tableau 14 Labels et mots vides
Les labels présentés prêtent à confusion avec des mots vides.
Label
Gène
an
ancon (an)
as
ascute (as)
at
arctus oculus (at)
be
tumor(3)be (tu(3)be)
by
blistery (by)
can
cannonball (can)
did
diminished discs (did)
do
pale ocelli (po)
for
foraging (for)
her
hermaphrodite (her)
how
held out wings (how)
if
inflated (if)
in
inturned (in)
me
focal melanosis (me)
none [27]
glass (gl)
not
non-stop (not)
or
orange (or)
per
period (per)
she
sherry (she)
so
sine oculis (so)
up
upheld (up)
us
undersized (us)
we
wee (we)
who
held out wings (how) [28]
with
with trident (with)
Ces mots sont appelés mots vides (stop word en anglais) en recherche documentaire. Cette appellation provient du fait que ces mots à eux seul ne renferment pas de sens. C’est à dire que leur présence ou absence dans un texte donné ne permet pas de savoir quoi que ce soit sur ce texte quant à son sens. Ils ne sont donc jamais utilisés dans les index. Nous avons employé une liste de mots vides établie pour la mise au point d’un système d’indexation de texte en anglais. Nous avons trouvé parmi les labels de notre dictionnaire un certain nombre de termes qui appartiennent à cette liste. Nous voyons que la liste des membres de cette première catégorie de labels ambigus a été établie avant toute expérience ; ce qui ne sera pas le cas de la deuxième liste qui elle sera établie à la lecture des textes, au fur et à mesure de la rencontre avec des labels ambigus. Certains termes ont pu quand même changer de catégorie, quand nous nous sommes aperçus qu’ils n’étaient pas toujours aussi largement répandus dans les textes.
Les occurrences de ces termes sont trop nombreuses pour que nous puissions les indexer systématiquement. Cela aboutirait à une surcharge de la base de données. Il est d’ailleurs d’usage de ne pas les inclure dans les index en partie pour cette raison.
Néanmoins nous verrons que le contexte permet dans certain cas de les prendre en compte lors de l’identification des gènes dans les textes. Retenons simplement pour l’instant que la présence à elle seule d’un de ces labels ne peut être interprété comme une référence à un gène.
Les labels que nous avons présentés dans le tableau 14 se confondent exactement avec des mots vides. D’autres labels ne s’en distinguent que par la casse. Ils sont présentés dans le tableau 15.
Tableau 15 Mots vides et différence de casse
Les labels présentés prêtent à confusion avec des mots vides, mais ils s’en distinguent par la casse.
Label
Gène
Remarque
And
Androcam (And)

At
Attenuated (At)

Be
lethal (2) 37Be (l(2)37Be)

Can
Calcineurin B (CanB)
Can est un label commun à deux gènes
Can
Calcineurin A1 (CanA1)
idem
Co
Notch (N)
Co provient du synonyme  Confluens
Had
beta Hydroxy acid dehydrogenase (Had)

Is
Isis (Is)

Low
Lightener of white (Low)

Me
Moire (Me)

Off
Off

On
Open (On)

Re
Re

To
Superoxide dismutase (Sod)
To provient du synonyme Tetrazolium oxidase
Ve
veinlet (ve)

We
Washed eye (We)

Ces labels sont recherchés dans les textes car le système prend en compte la différence de casse. Cependant quand le mot en question se trouve en première position dans la phrase, alors il y a de fortes chances pour qu’il s’agisse en fait du mot vide correspondant. Dans ce cas la reconnaissance ne se fait pas.

[27] l’appellation none provient de l’abréviation du synonyme no-ocelli--narrow-eyes
[28] Le gène held out wings (how) a bien comme définition synonyme le label who. Le gène compte en effet wings held out dans ces définitions, ce qui explique la présence de who.

Up Previous Next Title Page Index Contents