b. Structure de données pour les labels

Structure de données pour les labels

La table des labels

Les labels, c’est à dire les chaînes de caractères qui dans un texte peuvent désigner un gène ou un objet assimilé, sont répertoriés dans une table. Le tableau 47 donne un exemple d’enregistrement de la table. La table est intitulée NG pour Nom de Gène..

Tableau 47 Table des labels

Un exemple d’enregistrement est donné dans ce tableau.

Champ	Contenu
Clef Label	108
Label	AbdA
Transcode	\|Abd. A
Reconnaître	Non renseigné
Nouveau	Non
Date	21/04/00 16:20:45

L’utilité des champs Transcode, Reconnaître et Nouveau seront expliqués dans les sections qui suivent.

Structure de données pour la relation d’inclusion

Les labels sont inclus les uns dans les autres et cette inclusion est une information essentielle au processus d’identification des gènes dans les textes. Nous avons discuté de ce point dans la section Chapitre 1 I.B.5. Ces informations sont consignées dans la table d’inclusion. Le tableau 48 donne un exemple d’enregistrement de cette table. La table est intitulée RNGR pour Reconnaissance de Nom de Gène Réflexive..

Tableau 48 Table des inclusions

Un exemple d’enregistrement de la table est donné dans ce tableau. Le label Hairless est inclue en position 15 dans le label Suppressor of Hairless.

Champ	Contenu
Label	Suppressor of Hairless
Inclue	Hairless
Position	15
Date	07/06/00 21:25:48

La position est le numéro du caractère où commence le label inclus dans la chaîne de caractères qui constitue le texte de la phrase.

Structure de données pour faciliter l’actualisation des données

La table des inclusions est très volumineuse et la construire demande beaucoup de temps à la machine (quatre nuits). Elle ne peut donc pas être reconstruite à chaque fois que l’on souhaite lancer le processus d’identification des gènes dans des textes. Pour éviter cette reconstruction totale, une reconstruction partielle ou plutôt une complémentation a été imaginée. Il s’agit de ne reconstruire la table d’inclusion que pour les enregistrements nouvellement introduits dans la table des labels. Le champ nouveau a été introduit à cet effet dans la table des labels. Il prend par défaut la valeur Oui lors de la création d’un nouvel enregistrement. Lors de la complémentation de la table d’inclusion, seuls les enregistrements dont le champ nouveau prend la valeur Oui sont pris en compte. A la fin de la complémentation le champ nouveau est mis à Non pour tous les enregistrements de la table des labels. La complémentation elle-même de la table d’inclusion sera expliquée dans la section C.2.d.

La garantie de l’unicité

Il est important qu’il n’y ait pas de doublons dans les tables. Les doublons nuissent à la bonne interprétation des données et notamment lors de l’établissement de statistiques. Pour la table des labels, il est plus difficile d’assurer cette exigence. En effet, il est possible de poser des règles d’intégrité des données dont le logiciel de gestion de base de données va ensuite assurer de lui-même. Ainsi, après avoir fait en sorte qu’il n’y a pas initialement de doublons dans une table, on peut interdire leur existence pour la suite. Dès lors, le SGBD va faire en sorte de ne jamais en créer en refusant tout nouvel enregistrement qui serait en contradiction avec cette règle. Pour imposer l’absence de doublons dans un champ, on demande à ce qu’il soit indexé sans doublons.

Pour la table des labels, il est plus difficile de garantir l’absence de doublons. Il n’est pas possible d’imposer que le champ label de la table ne contienne pas de doublons car le logiciel que nous utilisons ne fait pas la différence entre les majuscules et les minuscules lors de la construction des index. Le champ label est donc doublé d’un autre champ appelé transcode. Ce champ contient la même information mais avec un codage particulier qui permet au logiciel de faire la différence entre les majuscules et les minuscules. Le transcodage consiste à insérer un caractère (par ailleurs absent des données) devant chaque majuscule. L’exigence d’unicité de l’enregistrement est posée dans le champ transcode.

Structure de données pour la caractérisation du type de traitement à faire sur chaque label

Chaque label peut être traité de façon différente par le système d’identification des gènes en fonction de caractéristiques propres au label. La table qui contient cette information s’intitule TR pour Type de reconnaissance. Les informations qu’elle contient ont été mises dans deux tableaux, car elles ne tenaient pas dans un seul. Le tableau 49 donne la liste des catégories et pour chaque catégorie, le traitement qui est réservé aux labels appartenant à cette catégorie. Le tableau 50 commente chaque catégorie en précisant le type de labels qu’elle contient.

Tableau 49 Table type de reconnaissance (première partie)

Les labels sont classés en fonction du type de traitement à effectuer lors du processus d’identification des gènes dans les textes. Les catégories de labels sont données dans ce tableau.

Clef	Reconnaissance	Indexer	2ième Vague	Désindexer si début	Interpréter	Confirmer	Exemples
6	Abérant	Non	Non	Non	Non	Non	Tableau 37
2	Mot vide si début de phrase	Non	Oui	Oui	Oui	Oui	Tableau 78
1	Mot vide	Non	Oui	Non	Oui	Oui	Tableau 79
11	Ambigu en début de phrase	Oui	Non	Oui	Oui	Non	Tableau 80
10	Trop ambigu	Oui	Non	Non	Non	Non	Tableau 85
13	Terme spécifique	Oui	Non	Non	Non	Non	Tableau 81
3	Plutôt ambigu	Oui	Non	Non	Oui	Oui	Tableau 82
4	Peut-être ambigu	Oui	Non	Non	Oui	Oui	Tableau 83
8	Désambiguïsation en cours	Oui	Non	Non	Oui	Oui	Tableau 84
12	Ambiguité constatée mais marginale	Oui	Non	Non	Oui	Oui	Tableau 85
0	Non renseigné	Oui	Non	Non	Oui	Non
5	Peu ambigu	Oui	Non	Non	Oui	Non	Tableau 86
7	Désambigüé	Oui	Non	Non	Oui	Non	Tableau 85
9	Spécifié univoque	Oui	Non	Non	Oui	Non	Tableau 87

Tableau 50 Table Type de reconnaissance (deuxième partie)

Le champ commentaire de la table permet de préciser l’intitulé de l’enregistrement.

Clef	Reconnaissance	Commentaire
6	Abérant	Label abérant. Ne sera pas reconnu. Ex : gene 1
2	Mot vide si début de phrase	Mot très courant si en première position dans la phrase, sinon plutôt rare. Ex : We
1	Mot vide	Mot très courant de l'anglais. Exemple : at. On les indexes que dans les résumés où les gènes associés semblent présents.
11	Ambigu en début de phrase	Mot de début de phrase assez courant en anglais. Ex : Midway
10	Trop ambigu	Mot très courant de l'anglais et que l'on ne prendra pas en compte
13	Terme spécifique	Elément du lexique qui n'est pas le nom d’un gènes mais qui inclus un label
3	Plutôt ambigu	Mot trop courant de l'anglais et que l'on ne prendra en compte que s'il y a confirmation
4	Peut-être ambigu	Mot possiblement ambigu. A voir plus tard. Interprété pour l'instant.
8	Désambiguïsation en cours	Désambiguïsation en cours. Pour l'instant le label n'est pas interprété.
12	Ambiguité constatée mais marginale	On a trouvé un ou plusieurs cas où le label prétait à confusion mais cela semble marginale
0	Non renseigné	La nature du label n'a pas été étudié.
5	Peu ambigu	Mot moins ambigu qu'il n'y parait. Il faut le reconaître.
7	Désambigüé	Label au dépard ambigu pour lequel on a une solution de désambiguïsation. Ex : dorsal
9	Spécifié univoque	Label considéré comme univoque par l'annotateur. Recommandé pour les labels rentré manuellement.

Les étapes du traitement seront expliquées dans la partie sur la méthode de reconnaissance des gènes dans les textes. A ce stade, la seule chose à savoir est que les types de traitement à faire sur les labels sont indiqués dans la table type de reconnaissance.

La liste des termes appartenant à chaque catégorie est donnée dans la plupart des cas en annexe. Le numéro du tableau à voir est indiqué dans la dernière colonne. Dans certains cas, il s’agit d’un tableau que nous avons donné dans la partie sur l’analyse du problème de l’identification des gènes.

La modalité non renseigné est utilisée au cours du processus d’annotation, mais à l’issue de celui-ci aucun label n’a ce type de reconnaissance.

Structure de données pour la gestion de la relation de transformation

Les labels sont liés entre eux par des relations de transformation comme nous l’avons vu dans la section Chapitre 1 I.D.2. Des exemples sont donnés du tableau 20 au tableau 23. La table des transformations TNG, en abrégé pour transformation nom de gène, fait l’inventaire de toutes ces relations entre labels. Le tableau 51 donne un exemple d’enregistrement de cette table.

Tableau 51 Table des transformations

Ce tableau donne un enregistrement parmi d’autre de la table. Les labels 1 et 2 sont liés par une relation de transformation.

Champ	Contenu
Label 1	wingless
transformation	1ière lettre en majuscule
Label 2	Wingless

Les modalités possibles pour la relation de transformation sont listées dans la table Relation de transformation (RT) qui est donnée dans le tableau 52.

Tableau 52 Table des relations de transformations

Cette table donne les cinq types possibles de relation de transformation.

Clef	Relation	Commentaire
1	Tout en minuscules	Les lettres sont misses en minuscules
2	Tout en majuscules	Les lettres sont misses en majuscules
3	1ière lettre en majuscule	La première lettre est mise en majuscule
4	espace -> tiret	chaque espace est remplacé par un tiret
5	tiret -> espace	chaque tiret est remplacé par un espace

Structure de données pour les labels

c.