1. Les termes qui ne
décrivent pas un gène précis mais qui peuvent
désigner plusieurs gènes
Dans le dictionnaire, certains labels participent
à plusieurs définitions. Nous dirons alors que le label est
imprécis. Dans l’exemple ci-dessous, le label
hsp70
est reconnu car il fait bien partie du dictionnaire, mais le dictionnaire
fournit non pas un, mais quatre candidats possibles pour ce
label.
Exemple 9 Imprécision dans la
terminologie
Le texte peut ne pas préciser exactement de
quel gène il s’agit. Ici l’auteur en notant hsp70
(souligné) ne précise pas s’il s’agit de
Heat-shock-protein 70Aa, 70Ab, 70Ba, 70Bb ou
70Bc.
Immunopurified TFIID produces a large DNase I
footprint over the hsp70, hsp26, and histone H3 promoters of
Drosophila.
L’auteur n’est pas assez précis
par rapport au dictionnaire que nous avons. Ce phénomène est
d’autant plus préoccupant qu’une interaction est
décrite, mais l’auteur ne dit pas exactement avec quel gène.
L’information qu’il fournit est vraiment relative à ce que
nous appellerons une collection de gènes et pas à un
gène particulier. Ce phénomène est assez courant. Lors de
l’annotation experte des textes, nous avons répertorié une
série de labels qui présentent cette caractéristique. Ils
sont présentés dans le tableau
35.
Pour prendre en compte cette
imprécision et annoter les textes malgré tout, nous avons
créé de nouvelles entrées dans le dictionnaire. Ainsi, par
exemple, nous avons créé un nouvel objet que nous avons
nommé hsp70 et qui admet comme label
hsp70. Parallèlement, la phrase de l’exemple ci-dessus sera
annotée en signalant que l’occurrence de hsp70 doit
être comprise comme une référence à l’objet
nouvellement créé dans le dictionnaire. Ce dispositif nous permet
d’annoter le plus fidèlement possible les phrases. L’auteur
ne fait pas référence à un des éléments de la
collection, ni même à chacun des éléments de la
collection. Il fait référence à la collection, qui
n’est ni réductible à un élément particulier,
ni à son ensemble. Cependant des liens ont été
créés entre les entités nouvellement créés
(de type collection) et les membres de la collection (de type
gène).
Chaque élément créé (de
type collection) est classé dans l’une des trois
catégories : famille de gènes,
famille de
protéines ou
complexe de
gènes.