Structure de
données pour les labels
- La table des
labels
Les labels, c’est
à dire les chaînes de caractères qui dans un texte peuvent
désigner un gène ou un objet assimilé, sont
répertoriés dans une table. Le tableau
47 donne un exemple d’enregistrement de la table. La table est
intitulée NG pour Nom de Gène..
Tableau 47 Table des labels
Un exemple d’enregistrement est donné
dans ce tableau.
Champ
|
Contenu
|
Clef Label
|
108
|
Label
|
AbdA
|
Transcode
|
|Abd. A
|
Reconnaître
|
Non renseigné
|
Nouveau
|
Non
|
Date
|
21/04/00 16:20:45
|
L’utilité des champs Transcode,
Reconnaître et Nouveau seront expliqués dans les
sections qui suivent.
- Structure de données pour la relation
d’inclusion
Les labels sont
inclus les uns dans les autres et cette inclusion est une information
essentielle au processus d’identification des gènes dans les
textes. Nous avons discuté de ce point dans la section Chapitre 1 I.B.5. Ces informations sont
consignées dans la table d’inclusion. Le tableau 48 donne un exemple d’enregistrement de
cette table. La table est intitulée RNGR pour Reconnaissance de
Nom de Gène Réflexive..
Tableau 48 Table des
inclusions
Un exemple d’enregistrement de la table est
donné dans ce tableau. Le label Hairless est inclue en position 15
dans le label Suppressor of Hairless.
Champ
|
Contenu
|
Label
|
Suppressor of Hairless
|
Inclue
|
Hairless
|
Position
|
15
|
Date
|
07/06/00 21:25:48
|
La position est le numéro du
caractère où commence le label inclus dans la chaîne de
caractères qui constitue le texte de la phrase.
- Structure de données pour faciliter
l’actualisation des
données
La table des
inclusions est très volumineuse et la construire demande beaucoup de
temps à la machine (quatre nuits). Elle ne peut donc pas être
reconstruite à chaque fois que l’on souhaite lancer le processus
d’identification des gènes dans des textes. Pour éviter
cette reconstruction totale, une reconstruction partielle ou plutôt une
complémentation a été imaginée. Il s’agit de
ne reconstruire la table d’inclusion que pour les enregistrements
nouvellement introduits dans la table des labels. Le champ nouveau a
été introduit à cet effet dans la table des labels. Il
prend par défaut la valeur Oui lors de la création
d’un nouvel enregistrement. Lors de la complémentation de la table
d’inclusion, seuls les enregistrements dont le champ nouveau prend la
valeur Oui sont pris en compte. A la fin de la complémentation le
champ nouveau est mis à Non pour tous les enregistrements de la
table des labels. La complémentation elle-même de la table
d’inclusion sera expliquée dans la section C.2.d.
- La garantie de
l’unicité
Il est
important qu’il n’y ait pas de doublons dans les tables. Les
doublons nuissent à la bonne interprétation des données et
notamment lors de l’établissement de statistiques. Pour la table
des labels, il est plus difficile d’assurer cette exigence. En effet, il
est possible de poser des règles d’intégrité des
données dont le logiciel de gestion de base de données va ensuite
assurer de lui-même. Ainsi, après avoir fait en sorte qu’il
n’y a pas initialement de doublons dans une table, on peut interdire leur
existence pour la suite. Dès lors, le SGBD va faire en sorte de ne jamais
en créer en refusant tout nouvel enregistrement qui serait en
contradiction avec cette règle. Pour imposer l’absence de doublons
dans un champ, on demande à ce qu’il soit indexé sans
doublons.
Pour la table des labels, il est plus difficile de
garantir l’absence de doublons. Il n’est pas possible
d’imposer que le champ label de la table ne contienne pas de
doublons car le logiciel que nous utilisons ne fait pas la différence
entre les majuscules et les minuscules lors de la construction des index. Le
champ label est donc doublé d’un autre champ appelé
transcode. Ce champ contient la même information mais avec un
codage particulier qui permet au logiciel de faire la différence entre
les majuscules et les minuscules. Le transcodage consiste à
insérer un caractère (par ailleurs absent des données)
devant chaque majuscule. L’exigence d’unicité de
l’enregistrement est posée dans le champ
transcode.
- Structure de données pour la
caractérisation du type de traitement à faire sur chaque
label
Chaque label peut être
traité de façon différente par le système
d’identification des gènes en fonction de caractéristiques
propres au label. La table qui contient cette information s’intitule
TR pour Type de reconnaissance. Les informations qu’elle
contient ont été mises dans deux tableaux, car elles ne tenaient
pas dans un seul. Le tableau 49 donne la liste des
catégories et pour chaque catégorie, le traitement qui est
réservé aux labels appartenant à cette catégorie. Le
tableau 50 commente chaque catégorie en
précisant le type de labels qu’elle contient.
Tableau 49 Table type de reconnaissance
(première partie)
Les labels sont classés en fonction du type de
traitement à effectuer lors du processus d’identification des
gènes dans les textes. Les catégories de labels sont
données dans ce tableau.
Clef
|
Reconnaissance
|
Indexer
|
2ième Vague
|
Désindexer si
début
|
Interpréter
|
Confirmer
|
Exemples
|
6
|
Abérant
|
Non
|
Non
|
Non
|
Non
|
Non
|
|
2
|
Mot vide si début de phrase
|
Non
|
Oui
|
Oui
|
Oui
|
Oui
|
|
1
|
Mot vide
|
Non
|
Oui
|
Non
|
Oui
|
Oui
|
|
11
|
Ambigu en début de phrase
|
Oui
|
Non
|
Oui
|
Oui
|
Non
|
|
10
|
Trop ambigu
|
Oui
|
Non
|
Non
|
Non
|
Non
|
|
13
|
Terme spécifique
|
Oui
|
Non
|
Non
|
Non
|
Non
|
|
3
|
Plutôt ambigu
|
Oui
|
Non
|
Non
|
Oui
|
Oui
|
|
4
|
Peut-être ambigu
|
Oui
|
Non
|
Non
|
Oui
|
Oui
|
|
8
|
Désambiguïsation en
cours
|
Oui
|
Non
|
Non
|
Oui
|
Oui
|
|
12
|
Ambiguité constatée mais
marginale
|
Oui
|
Non
|
Non
|
Oui
|
Oui
|
|
0
|
Non renseigné
|
Oui
|
Non
|
Non
|
Oui
|
Non
|
|
5
|
Peu ambigu
|
Oui
|
Non
|
Non
|
Oui
|
Non
|
|
7
|
Désambigüé
|
Oui
|
Non
|
Non
|
Oui
|
Non
|
|
9
|
Spécifié univoque
|
Oui
|
Non
|
Non
|
Oui
|
Non
|
|
Tableau 50 Table Type de reconnaissance
(deuxième partie)
Le champ commentaire de la table permet de
préciser l’intitulé de
l’enregistrement.
Clef
|
Reconnaissance
|
Commentaire
|
6
|
Abérant
|
Label abérant. Ne sera pas reconnu. Ex :
gene 1
|
2
|
Mot vide si début de phrase
|
Mot très courant si en première
position dans la phrase, sinon plutôt rare. Ex : We
|
1
|
Mot vide
|
Mot très courant de l'anglais. Exemple : at.
On les indexes que dans les résumés où les gènes
associés semblent présents.
|
11
|
Ambigu en début de phrase
|
Mot de début de phrase assez courant en
anglais. Ex : Midway
|
10
|
Trop ambigu
|
Mot très courant de l'anglais et que l'on ne
prendra pas en compte
|
13
|
Terme spécifique
|
Elément du lexique qui n'est pas le nom
d’un gènes mais qui inclus un label
|
3
|
Plutôt ambigu
|
Mot trop courant de l'anglais et que l'on ne prendra
en compte que s'il y a confirmation
|
4
|
Peut-être ambigu
|
Mot possiblement ambigu. A voir plus tard.
Interprété pour l'instant.
|
8
|
Désambiguïsation en
cours
|
Désambiguïsation en cours. Pour l'instant
le label n'est pas interprété.
|
12
|
Ambiguité constatée mais
marginale
|
On a trouvé un ou plusieurs cas où le
label prétait à confusion mais cela semble
marginale
|
0
|
Non renseigné
|
La nature du label n'a pas été
étudié.
|
5
|
Peu ambigu
|
Mot moins ambigu qu'il n'y parait. Il faut le
reconaître.
|
7
|
Désambigüé
|
Label au dépard ambigu pour lequel on a une
solution de désambiguïsation. Ex : dorsal
|
9
|
Spécifié univoque
|
Label considéré comme univoque par
l'annotateur. Recommandé pour les labels rentré
manuellement.
|
Les étapes du traitement seront
expliquées dans la partie sur la méthode de reconnaissance des
gènes dans les textes. A ce stade, la seule chose à savoir est que
les types de traitement à faire sur les labels sont indiqués dans
la table type de reconnaissance.
La liste des termes appartenant à chaque
catégorie est donnée dans la plupart des cas en annexe. Le
numéro du tableau à voir est indiqué dans la
dernière colonne. Dans certains cas, il s’agit d’un tableau
que nous avons donné dans la partie sur l’analyse du
problème de l’identification des gènes.
La modalité non renseigné est
utilisée au cours du processus d’annotation, mais à
l’issue de celui-ci aucun label n’a ce type de
reconnaissance.
- Structure de données pour la gestion de la
relation de transformation
Les labels
sont liés entre eux par des relations de transformation comme nous
l’avons vu dans la section Chapitre 1 I.D.2.
Des exemples sont donnés du tableau 20 au tableau 23. La table des transformations TNG,
en abrégé pour transformation nom de gène, fait
l’inventaire de toutes ces relations entre labels. Le tableau 51 donne un exemple d’enregistrement de
cette table.
Tableau 51 Table des
transformations
Ce tableau donne un enregistrement parmi
d’autre de la table. Les labels 1 et 2 sont liés par une relation
de transformation.
Champ
|
Contenu
|
Label 1
|
wingless
|
transformation
|
1ière lettre en majuscule
|
Label 2
|
Wingless
|
Les modalités possibles pour la relation de
transformation sont listées dans la table Relation de
transformation (RT) qui est donnée dans le tableau 52.
Tableau 52 Table des relations de
transformations
Cette table donne les cinq types possibles de
relation de transformation.
Clef
|
Relation
|
Commentaire
|
1
|
Tout en minuscules
|
Les lettres sont misses en
minuscules
|
2
|
Tout en majuscules
|
Les lettres sont misses en
majuscules
|
3
|
1ière lettre en majuscule
|
La première lettre est mise en
majuscule
|
4
|
espace -> tiret
|
chaque espace est remplacé par un
tiret
|
5
|
tiret -> espace
|
chaque tiret est remplacé par un
espace
|
c.