Structure de
données pour les définitions
- La table des définitions de
gènes
Le dictionnaire des
gènes et objets assimilés est structuré à
l’aide de définitions comme expliqué en Partie 2 Chapitre 1 I.B.2. Un exemple
d’enregistrement de la table des définitions de gène
(DG) est donné dans le tableau 53. La
signification des champs Type, Origine et Confiance sont
expliqués dans les sections qui suivent.
Tableau 53 Table des
définitions
Un exemple d’enregistrement de la table est
donné dans ce tableau.
Champ
|
Contenu
|
Clef Définition
|
10856
|
Label
|
abdA
|
Type
|
Synonyme
|
Origine
|
Flybase
|
Confiance
|
correcte
|
Problème
|
|
Date
|
21/04/00 16:16:49
|
- Les tables annexes
- La table des types de
définition
Les
différents types de définitions sont énumérés
dans la table type de définition. Le contenu de cette table est
donné dans le tableau 54. La table est
intitulée Ty.
Tableau 54 Table des types de
définition
Cette table fait l’inventaire des
modalités possible pour le champ type de la table
définition.
Clef
|
Type
|
1
|
Symbole
|
2
|
Nom Complet
|
3
|
Synonyme
|
4
|
Protéine
|
La valeur protéine est utilisée
pour les définitions qui associent un nom de protéine au
gène qui code pour cette protéine. Dans Flybase cette
modalité est absente. Dans notre base de données, les
définitions de type protéine sont en général issues
du processus d’ajout automatique de définition qui sera
expliqué en Partie 2 Chapitre 2
I.C.3.a.
- Structure de données pour le suivi de
l’origine des
définitions
Les
modalités possibles du champ Origine de la table des
définitions sont données dans la table Origine des
définitions (appelé OED pour Origine des
Enregistrements du Dictionnaire) dont le contenu est donné dans le tableau 55.
Tableau 55 Table origine des
définitions
Cette table fait l’inventaire des
modalités possible du champ origine de la table
définition.
Clef
|
Origine
|
Confiance
|
Variante
|
1
|
Flybase
|
Oui
|
Non
|
2
|
Ajout Manuel
|
Oui
|
Non
|
3
|
Tout en majuscule
|
Non
|
Oui
|
4
|
1ère lettre en majuscule
|
Non
|
Oui
|
5
|
Tout en minuscule
|
Non
|
Oui
|
6
|
Tiret -> espace
|
Non
|
Oui
|
7
|
Espace -> tiret
|
Non
|
Oui
|
8
|
réimport
|
Non
|
Non
|
Il y a deux types principaux
d’origines :
- Les origines de type variantes (de 3 à 7
dans la table) correspondent à des définitions qui ont
été ajoutées automatiquement. C’est ce que nous avons
appelé des définitions variantes.
- Les origines de type confiance qui
correspondent à des définitions qui, soit étaient
présentes dans Flybase, soit ont été
rajoutées manuellement par
l’annotateur.
L’origine
réimport correspond à des enregistrements qui avaient
été supprimés à un stade précoce du
traitement, car ils ne sont pas appropriés pour notre travail. Cela est
expliqué dans la section Partie 2 Chapitre 1
I.E.2. Ces enregistrements de la table définition ont
été réimportés dans la base pour permettre une mise
à jour des données à l’avenir. Ces enregistrements
sont disqualifiés à toutes les étapes de
l’identification des gènes par la présence de la
modalité désactivée sur liste dans le champ
confiance.
- Structure de données pour gérer la
confiance mise dans les
définitions
Les
modalités possibles du champ confiance de la table
définitions sont données dans la table Confiance dans
les Définitions (CD) qui est donnée intégralement dans
le tableau 56.
Tableau 56 Table confiance dans les
définitions
Cette table fait l’inventaire des
modalités possible du champ confiance de la table des
définitions.
Clef
|
Confiance
|
Valide
|
Prendre
|
Confirmation
|
Commentaire
|
1
|
correcte
|
Oui
|
Oui
|
Non
|
La définition n'est pas contredite par une
définition valide.
|
2
|
privilégiée
|
Oui
|
Oui
|
Non
|
La définition est contredite mais elle reste
crédible.
|
3
|
à confirmer
|
Oui
|
Oui
|
Oui
|
La définition est contredite par une
définition plus crédible. Elle n'est pas prise en compte à
moins qu'elle soit confirmée par ailleurs.
|
5
|
imprécise
|
Oui
|
Non
|
Non
|
Le label ne désigne pas un gène
précis mais une collection de gènes.
|
8
|
non confirmée
|
Oui
|
Non
|
Non
|
La définition qui a été
ajoutée automatiquement n'est pas confirmée par une annalyse
automatique des textes
|
4
|
invalidée manuellement
|
Non
|
Non
|
Non
|
L'opérateur à choisit d'invalider la
définition.
|
6
|
désactivée sur liste
|
Non
|
Non
|
Non
|
La définition concerne un label jugés
abérant (correspond au réimport)
|
7
|
transférée
|
Non
|
Non
|
Non
|
la définition a été
transféré du gène fils au gène père. Elle
n'est plus active chez le fils.
|
Les valeurs des champs valide, prendre
et confirmation indiquent quels traitements doivent avoir lieu sur les
définitions concernées. L’utilisation de chacun de ces
champs est expliquée dans les sections qui suivent.
- Structure de données pour permettre la mise
à jour
La
possibilité de mettre à jour le dictionnaire des gènes est
assurée par le champ Valide. Les enregistrements qui ne sont pas
conformes n’ont pas été supprimés. A la place de
cela, nous les avons marqués par le champ valide. De cette
façon, on garantit qu’ils ne seront pas
réintégrés de nouveau dans les données lors des
futures mises à jour.
- Structure de donné pour prendre ou ne pas
prendre en compte les
définitions
Certaines
définitions ne doivent pas être prises en compte dans
l’identification des gènes, même si elles sont exactes. Il
s’agit par exemple, des définitions imprécises qui ont
été définies dans la section Partie 2 Chapitre 1 I.D.1. Le champ prendre
sert à indiquer que les définitions associées ne doivent
pas être prises en compte lors de l’identification des gènes.
La valeur par défaut pour ce champ est Oui.
- Structure de données pour exiger la
confirmation de la reconnaissance d’une
définition
Certaines
définitions n’ont pas les qualités suffisantes pour
qu’elles puissent être interprétées dans un texte
à elles seules. L’identification du gène qu’elles
définissent doit être confirmée par ailleurs dans le
résumé par la présence d’au moins une autre
définition du même gène. Ces définitions sont dites
à confirmer. Cette notion à été
abordée à la section Partie 2 Chapitre 1
I.F.1. Le champ
à
confirmer est utilisé dans le processus
d’identification des gènes pour vérifier si la
reconnaissance de la définition, même isolée, peut
être utilisée dans l’interprétation.