A. La création de liens entre bases de données

Il est vrai que chaque base de données s’emploie à créer des liens vers d’autres bases de données. Ainsi, il est très courant, dans les bases de données factuelles, de voir des références à des notices bibliographiques issues de Medline. Cependant, le travail de mise en relation est souvent fait manuellement. Il ne peut donc être exhaustif et rapide.

Des bases de données, créées spécifiquement pour compulser des données trouvées dans d’autres bases de données ont vu le jour. On peut citer Genecards^[8] qui est une encyclopédie sur les gènes humains (Rebhan et al., 1998). Cette base de données rassemble sous une forme conviviale des informations sur les gènes, les protéines, les séquences et les pathologies. L’intérêt de cette base réside dans le fait que ces quatre types d’objets sont intimement liés. Plus précisément, la base est organisée autour des gènes qui sont présentés sous forme de ‘carte’, qui est un écran de synthèse sur toutes les informations rassemblées sur le gène. La base comporte 22400 cartes, ce qui correspond à 7000 gènes différents. Les informations sont issues des bases de données les plus complètes sur leurs sujets, entre autres SWISS-PROT, OMIM, GENATLAS et GDB.

OMIM^[9] est un catalogue de gènes humains et de maladies associées. GENATLAS^[10] est une compilation d’information sur la cartographie du génome humain. GDB^[11] est une autre base de données sur la cartographie du génome humain.

DBGET/LinkDB est un autre projet d’acquisition et de gestion de données venant de bases de données biologiques hétérogènes (Fu jibuchi et al., 1998). C’est le système sur lequel s’appuie le programme GenomeNet dont fait partie l’encyclopédie sur les voies métaboliques KEGG.

Au niveau français, on peut citer la base de données prototype Virgil^[12] qui permet de gérer des liens entre deux bases de données, à savoir, GenBank, qui est une base de séquences de gènes humains, et GDB qui est une base de données sur la cartographie des gènes humains (Achard et al., 1998). Cette base de données permet de compter les liens entres les enregistrements des bases de données, de savoir s’ils sont réciproques ou unidirectionnels, etc. La base de données est accessible à travers CORBA^[13] qui est une interface qui permettant d’interroger plusieurs bases de données à la fois.

Pour faciliter les échanges d’informations entre les bases de données, les ontologies sont utilisées. Il s’agit de représentations formelles d’un domaine scientifique donné. Dans ces représentations, les objets et les relations entre ces objets sont décrits. Les ontologies peuvent être utilisées pour représenter les schémas d’organisation de l’information dans une base. L’ontologie devient la référence commune à plusieurs bases de données et elle permet l’échange d’information entre les différentes bases.

^[8] REBHAN M, CHALIFA-CASPI V, PRILUSKY J, LANCET D. GeneCards: encyclopedia for genes, proteins and diseases. Weizmann Institute of Science, Bioinformatics Unit and Genome Center (Rehovot, Israel), 1997. Accessible sur http://thr.cit.nih.gov:8081/cards