A. La
création de liens entre bases de données
Il est vrai que chaque base de données
s’emploie à créer des liens vers d’autres bases de
données. Ainsi, il est très courant, dans les bases de
données factuelles, de voir des références à des
notices bibliographiques issues de Medline. Cependant, le travail de mise
en relation est souvent fait manuellement. Il ne peut donc être exhaustif
et rapide.
Des bases de données, créées
spécifiquement pour compulser des données trouvées dans
d’autres bases de données ont vu le jour. On peut citer
Genecards [8]
qui est une encyclopédie sur les gènes humains (Rebhan et
al., 1998). Cette base de données rassemble sous une forme conviviale
des informations sur les gènes, les protéines, les
séquences et les pathologies. L’intérêt de cette base
réside dans le fait que ces quatre types d’objets sont intimement
liés. Plus précisément, la base est organisée autour
des gènes qui sont présentés sous forme de
‘carte’, qui est un écran de synthèse sur toutes les
informations rassemblées sur le gène. La base comporte 22400
cartes, ce qui correspond à 7000 gènes différents. Les
informations sont issues des bases de données les plus complètes
sur leurs sujets, entre autres
SWISS-PROT,
OMIM, GENATLAS et
GDB.
OMIM [9]
est un catalogue de gènes humains et de maladies associées.
GENATLAS [10]
est une compilation d’information sur la cartographie du génome
humain.
GDB [11]
est une autre base de données sur la cartographie du génome
humain.
DBGET/LinkDB
est un autre projet d’acquisition et de gestion de données venant
de bases de données biologiques hétérogènes
(Fu jibuchi et al., 1998). C’est le
système sur lequel s’appuie le programme
GenomeNet dont
fait partie l’encyclopédie sur les voies métaboliques
KEGG.
Au niveau français, on peut citer la base de
données prototype
Virgil [12]
qui permet de gérer des liens entre deux bases de données,
à savoir,
GenBank,
qui est une base de séquences de gènes humains, et
GDB
qui est une base de données sur la cartographie des gènes humains
(Achard et al., 1998). Cette base de
données permet de compter les liens entres les enregistrements des bases
de données, de savoir s’ils sont réciproques ou
unidirectionnels, etc. La base de données est accessible à travers
CORBA [13]
qui est une interface qui permettant d’interroger plusieurs bases de
données à la fois.
Pour faciliter les échanges
d’informations entre les bases de données, les ontologies sont
utilisées. Il s’agit de représentations formelles d’un
domaine scientifique donné. Dans ces représentations, les objets
et les relations entre ces objets sont décrits. Les ontologies peuvent
être utilisées pour représenter les schémas
d’organisation de l’information dans une base. L’ontologie
devient la référence commune à plusieurs bases de
données et elle permet l’échange d’information entre
les différentes bases.
[8]
REBHAN M, CHALIFA-CASPI V, PRILUSKY J, LANCET D. GeneCards: encyclopedia for
genes, proteins and diseases. Weizmann Institute of Science, Bioinformatics Unit
and Genome Center (Rehovot, Israel), 1997. Accessible sur http://thr.cit.nih.gov:8081/cards