Up Previous Next Title Page Index Contents

Structure de données pour les labels
  1. La table des labels
Les labels, c’est à dire les chaînes de caractères qui dans un texte peuvent désigner un gène ou un objet assimilé, sont répertoriés dans une table. Le tableau 47 donne un exemple d’enregistrement de la table. La table est intitulée NG pour Nom de Gène..
Tableau 47 Table des labels
Un exemple d’enregistrement est donné dans ce tableau.
Champ
Contenu
Clef Label
108
Label
AbdA
Transcode
|Abd. A
Reconnaître
Non renseigné
Nouveau
Non
Date
21/04/00 16:20:45
L’utilité des champs Transcode, Reconnaître et Nouveau seront expliqués dans les sections qui suivent.
  1. Structure de données pour la relation d’inclusion
Les labels sont inclus les uns dans les autres et cette inclusion est une information essentielle au processus d’identification des gènes dans les textes. Nous avons discuté de ce point dans la section Chapitre 1 I.B.5. Ces informations sont consignées dans la table d’inclusion. Le tableau 48 donne un exemple d’enregistrement de cette table. La table est intitulée RNGR pour Reconnaissance de Nom de Gène Réflexive..
Tableau 48 Table des inclusions
Un exemple d’enregistrement de la table est donné dans ce tableau. Le label Hairless est inclue en position 15 dans le label Suppressor of Hairless.
Champ
Contenu
Label
Suppressor of Hairless
Inclue
Hairless
Position
15
Date
07/06/00 21:25:48
La position est le numéro du caractère où commence le label inclus dans la chaîne de caractères qui constitue le texte de la phrase.
  1. Structure de données pour faciliter l’actualisation des données
La table des inclusions est très volumineuse et la construire demande beaucoup de temps à la machine (quatre nuits). Elle ne peut donc pas être reconstruite à chaque fois que l’on souhaite lancer le processus d’identification des gènes dans des textes. Pour éviter cette reconstruction totale, une reconstruction partielle ou plutôt une complémentation a été imaginée. Il s’agit de ne reconstruire la table d’inclusion que pour les enregistrements nouvellement introduits dans la table des labels. Le champ nouveau a été introduit à cet effet dans la table des labels. Il prend par défaut la valeur Oui lors de la création d’un nouvel enregistrement. Lors de la complémentation de la table d’inclusion, seuls les enregistrements dont le champ nouveau prend la valeur Oui sont pris en compte. A la fin de la complémentation le champ nouveau est mis à Non pour tous les enregistrements de la table des labels. La complémentation elle-même de la table d’inclusion sera expliquée dans la section C.2.d.
  1. La garantie de l’unicité
Il est important qu’il n’y ait pas de doublons dans les tables. Les doublons nuissent à la bonne interprétation des données et notamment lors de l’établissement de statistiques. Pour la table des labels, il est plus difficile d’assurer cette exigence. En effet, il est possible de poser des règles d’intégrité des données dont le logiciel de gestion de base de données va ensuite assurer de lui-même. Ainsi, après avoir fait en sorte qu’il n’y a pas initialement de doublons dans une table, on peut interdire leur existence pour la suite. Dès lors, le SGBD va faire en sorte de ne jamais en créer en refusant tout nouvel enregistrement qui serait en contradiction avec cette règle. Pour imposer l’absence de doublons dans un champ, on demande à ce qu’il soit indexé sans doublons.
Pour la table des labels, il est plus difficile de garantir l’absence de doublons. Il n’est pas possible d’imposer que le champ label de la table ne contienne pas de doublons car le logiciel que nous utilisons ne fait pas la différence entre les majuscules et les minuscules lors de la construction des index. Le champ label est donc doublé d’un autre champ appelé transcode. Ce champ contient la même information mais avec un codage particulier qui permet au logiciel de faire la différence entre les majuscules et les minuscules. Le transcodage consiste à insérer un caractère (par ailleurs absent des données) devant chaque majuscule. L’exigence d’unicité de l’enregistrement est posée dans le champ transcode.
  1. Structure de données pour la caractérisation du type de traitement à faire sur chaque label
Chaque label peut être traité de façon différente par le système d’identification des gènes en fonction de caractéristiques propres au label. La table qui contient cette information s’intitule TR pour Type de reconnaissance. Les informations qu’elle contient ont été mises dans deux tableaux, car elles ne tenaient pas dans un seul. Le tableau 49 donne la liste des catégories et pour chaque catégorie, le traitement qui est réservé aux labels appartenant à cette catégorie. Le tableau 50 commente chaque catégorie en précisant le type de labels qu’elle contient.
Tableau 49 Table type de reconnaissance (première partie)
Les labels sont classés en fonction du type de traitement à effectuer lors du processus d’identification des gènes dans les textes. Les catégories de labels sont données dans ce tableau.
Clef
Reconnaissance
Indexer
2ième Vague
Désindexer si début
Interpréter
Confirmer
Exemples
6
Abérant
Non
Non
Non
Non
Non
2
Mot vide si début de phrase
Non
Oui
Oui
Oui
Oui
1
Mot vide
Non
Oui
Non
Oui
Oui
11
Ambigu en début de phrase
Oui
Non
Oui
Oui
Non
10
Trop ambigu
Oui
Non
Non
Non
Non
13
Terme spécifique
Oui
Non
Non
Non
Non
3
Plutôt ambigu
Oui
Non
Non
Oui
Oui
4
Peut-être ambigu
Oui
Non
Non
Oui
Oui
8
Désambiguïsation en cours
Oui
Non
Non
Oui
Oui
12
Ambiguité constatée mais marginale
Oui
Non
Non
Oui
Oui
0
Non renseigné
Oui
Non
Non
Oui
Non

5
Peu ambigu
Oui
Non
Non
Oui
Non
7
Désambigüé
Oui
Non
Non
Oui
Non
9
Spécifié univoque
Oui
Non
Non
Oui
Non

Tableau 50 Table Type de reconnaissance (deuxième partie)
Le champ commentaire de la table permet de préciser l’intitulé de l’enregistrement.
Clef
Reconnaissance
Commentaire
6
Abérant
Label abérant. Ne sera pas reconnu. Ex : gene 1
2
Mot vide si début de phrase
Mot très courant si en première position dans la phrase, sinon plutôt rare. Ex : We
1
Mot vide
Mot très courant de l'anglais. Exemple : at. On les indexes que dans les résumés où les gènes associés semblent présents.
11
Ambigu en début de phrase
Mot de début de phrase assez courant en anglais. Ex : Midway
10
Trop ambigu
Mot très courant de l'anglais et que l'on ne prendra pas en compte
13
Terme spécifique
Elément du lexique qui n'est pas le nom d’un gènes mais qui inclus un label
3
Plutôt ambigu
Mot trop courant de l'anglais et que l'on ne prendra en compte que s'il y a confirmation
4
Peut-être ambigu
Mot possiblement ambigu. A voir plus tard. Interprété pour l'instant.
8
Désambiguïsation en cours
Désambiguïsation en cours. Pour l'instant le label n'est pas interprété.
12
Ambiguité constatée mais marginale
On a trouvé un ou plusieurs cas où le label prétait à confusion mais cela semble marginale
0
Non renseigné
La nature du label n'a pas été étudié.
5
Peu ambigu
Mot moins ambigu qu'il n'y parait. Il faut le reconaître.
7
Désambigüé
Label au dépard ambigu pour lequel on a une solution de désambiguïsation. Ex : dorsal
9
Spécifié univoque
Label considéré comme univoque par l'annotateur. Recommandé pour les labels rentré manuellement.

Les étapes du traitement seront expliquées dans la partie sur la méthode de reconnaissance des gènes dans les textes. A ce stade, la seule chose à savoir est que les types de traitement à faire sur les labels sont indiqués dans la table type de reconnaissance.
La liste des termes appartenant à chaque catégorie est donnée dans la plupart des cas en annexe. Le numéro du tableau à voir est indiqué dans la dernière colonne. Dans certains cas, il s’agit d’un tableau que nous avons donné dans la partie sur l’analyse du problème de l’identification des gènes.
La modalité non renseigné est utilisée au cours du processus d’annotation, mais à l’issue de celui-ci aucun label n’a ce type de reconnaissance.
  1. Structure de données pour la gestion de la relation de transformation
Les labels sont liés entre eux par des relations de transformation comme nous l’avons vu dans la section Chapitre 1 I.D.2. Des exemples sont donnés du tableau 20 au tableau 23. La table des transformations TNG, en abrégé pour transformation nom de gène, fait l’inventaire de toutes ces relations entre labels. Le tableau 51 donne un exemple d’enregistrement de cette table.
Tableau 51 Table des transformations
Ce tableau donne un enregistrement parmi d’autre de la table. Les labels 1 et 2 sont liés par une relation de transformation.
Champ
Contenu
Label 1
wingless
transformation
1ière lettre en majuscule
Label 2
Wingless
Les modalités possibles pour la relation de transformation sont listées dans la table Relation de transformation (RT) qui est donnée dans le tableau 52.
Tableau 52 Table des relations de transformations
Cette table donne les cinq types possibles de relation de transformation.
Clef
Relation
Commentaire
1
Tout en minuscules
Les lettres sont misses en minuscules
2
Tout en majuscules
Les lettres sont misses en majuscules
3
1ière lettre en majuscule
La première lettre est mise en majuscule
4
espace -> tiret
chaque espace est remplacé par un tiret
5
tiret -> espace
chaque tiret est remplacé par un espace
c.

Up Previous Next Title Page Index Contents