Up Previous Next Title Page Index Contents

Structure de données pour les définitions
  1. La table des définitions de gènes
Le dictionnaire des gènes et objets assimilés est structuré à l’aide de définitions comme expliqué en Partie 2 Chapitre 1 I.B.2. Un exemple d’enregistrement de la table des définitions de gène (DG) est donné dans le tableau 53. La signification des champs Type, Origine et Confiance sont expliqués dans les sections qui suivent.
Tableau 53 Table des définitions
Un exemple d’enregistrement de la table est donné dans ce tableau.
Champ
Contenu
Clef Définition
10856
Label
abdA
Type
Synonyme
Origine
Flybase
Confiance
correcte
Problème

Date
21/04/00 16:16:49
  1. Les tables annexes
  2. La table des types de définition
Les différents types de définitions sont énumérés dans la table type de définition. Le contenu de cette table est donné dans le tableau 54. La table est intitulée Ty.
Tableau 54 Table des types de définition
Cette table fait l’inventaire des modalités possible pour le champ type de la table définition.
Clef
Type
1
Symbole
2
Nom Complet
3
Synonyme
4
Protéine
La valeur protéine est utilisée pour les définitions qui associent un nom de protéine au gène qui code pour cette protéine. Dans Flybase cette modalité est absente. Dans notre base de données, les définitions de type protéine sont en général issues du processus d’ajout automatique de définition qui sera expliqué en Partie 2 Chapitre 2 I.C.3.a.
  1. Structure de données pour le suivi de l’origine des définitions
Les modalités possibles du champ Origine de la table des définitions sont données dans la table Origine des définitions (appelé OED pour Origine des Enregistrements du Dictionnaire) dont le contenu est donné dans le tableau 55.
Tableau 55 Table origine des définitions
Cette table fait l’inventaire des modalités possible du champ origine de la table définition.
Clef
Origine
Confiance
Variante
1
Flybase
Oui
Non
2
Ajout Manuel
Oui
Non
3
Tout en majuscule
Non
Oui
4
1ère lettre en majuscule
Non
Oui
5
Tout en minuscule
Non
Oui
6
Tiret -> espace
Non
Oui
7
Espace -> tiret
Non
Oui
8
réimport
Non
Non
Il y a deux types principaux d’origines :
L’origine réimport correspond à des enregistrements qui avaient été supprimés à un stade précoce du traitement, car ils ne sont pas appropriés pour notre travail. Cela est expliqué dans la section Partie 2 Chapitre 1 I.E.2. Ces enregistrements de la table définition ont été réimportés dans la base pour permettre une mise à jour des données à l’avenir. Ces enregistrements sont disqualifiés à toutes les étapes de l’identification des gènes par la présence de la modalité désactivée sur liste dans le champ confiance.
  1. Structure de données pour gérer la confiance mise dans les définitions
Les modalités possibles du champ confiance de la table définitions sont données dans la table Confiance dans les Définitions (CD) qui est donnée intégralement dans le tableau 56.
Tableau 56 Table confiance dans les définitions
Cette table fait l’inventaire des modalités possible du champ confiance de la table des définitions.
Clef
Confiance
Valide
Prendre
Confirmation
Commentaire
1
correcte
Oui
Oui
Non
La définition n'est pas contredite par une définition valide.
2
privilégiée
Oui
Oui
Non
La définition est contredite mais elle reste crédible.
3
à confirmer
Oui
Oui
Oui
La définition est contredite par une définition plus crédible. Elle n'est pas prise en compte à moins qu'elle soit confirmée par ailleurs.
5
imprécise
Oui
Non
Non
Le label ne désigne pas un gène précis mais une collection de gènes.
8
non confirmée
Oui
Non
Non
La définition qui a été ajoutée automatiquement n'est pas confirmée par une annalyse automatique des textes
4
invalidée manuellement
Non
Non
Non
L'opérateur à choisit d'invalider la définition.
6
désactivée sur liste
Non
Non
Non
La définition concerne un label jugés abérant (correspond au réimport)
7
transférée
Non
Non
Non
la définition a été transféré du gène fils au gène père. Elle n'est plus active chez le fils.
Les valeurs des champs valide, prendre et confirmation indiquent quels traitements doivent avoir lieu sur les définitions concernées. L’utilisation de chacun de ces champs est expliquée dans les sections qui suivent.
  1. Structure de données pour permettre la mise à jour
La possibilité de mettre à jour le dictionnaire des gènes est assurée par le champ Valide. Les enregistrements qui ne sont pas conformes n’ont pas été supprimés. A la place de cela, nous les avons marqués par le champ valide. De cette façon, on garantit qu’ils ne seront pas réintégrés de nouveau dans les données lors des futures mises à jour.
  1. Structure de donné pour prendre ou ne pas prendre en compte les définitions
Certaines définitions ne doivent pas être prises en compte dans l’identification des gènes, même si elles sont exactes. Il s’agit par exemple, des définitions imprécises qui ont été définies dans la section Partie 2 Chapitre 1 I.D.1. Le champ prendre sert à indiquer que les définitions associées ne doivent pas être prises en compte lors de l’identification des gènes. La valeur par défaut pour ce champ est Oui.
  1. Structure de données pour exiger la confirmation de la reconnaissance d’une définition
Certaines définitions n’ont pas les qualités suffisantes pour qu’elles puissent être interprétées dans un texte à elles seules. L’identification du gène qu’elles définissent doit être confirmée par ailleurs dans le résumé par la présence d’au moins une autre définition du même gène. Ces définitions sont dites à confirmer. Cette notion à été abordée à la section Partie 2 Chapitre 1 I.F.1. Le champ à confirmer est utilisé dans le processus d’identification des gènes pour vérifier si la reconnaissance de la définition, même isolée, peut être utilisée dans l’interprétation.

Up Previous Next Title Page Index Contents