Page d'acceuil - CV - Bibliographie - Téléchargement - me contacter :

J'ai soutenu une thèse sur le thème du couplage entre bases de données factuelles et bases de données bibliographiques.

Sujet de thèse

Expérience de couplage entre bases de données factuelles et bases de données bibliographiques: Identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’information sur les interactions génétiques ou moléculaires à partir de publications

La thèse est disponible en plusieurs format ici

Résumé

La thèse propose des solutions pour mettre automatiquement en relation des informations bibliographiques avec des informations factuelles. Les bases de données bibliographiques donne accès à l'information la plus exhaustive et la plus précise tandis que les bases de données factuelles organisent le savoir accumulé dans des encyclopédies électronique ou dans des banques de résultats d'expériences. Coupler ces deux types de bases de données est nécessaire. Il s'agit soit de documenter des bases de données factuelles avec des références bibliographiques, soit d'extraire de l'information directement à partir de la littérature scientifique.
Nous avons pris l'exemple des gènes et de leurs interactions chez la Drosophile. La Drosophile est un organisme modèle en génétique et l'analyse des interactions génétiques ou moléculaires permet de comprendre comment plusieurs gènes collaborent à une même fonction.
Dans un premier temps, nous avons construit un système qui permet de créer des liens entre Flybase et Medline. Flybase est une encyclopédie électronique sur la Drosophile. Medline est la plus grande base de données bibliographiques dans le domaine des sciences de la vie. Ces liens consistent à identifier dans Medline des gènes décrit dans Flybase. Cette tâche est difficile à automatiser en raison de la complexité de la nomenclature (existence d'alias, d'abréviations et de termes vagues, composition de termes utilisant des noms de gènes, etc.) et de la confusion possible entre certains noms de gènes et des mots du vocabulaire courant.
Dans un second temps, notre travail a consisté à établir une liste d'interactions probables à partir d'un ensemble de résumés issus de Medline. Cela a été fait par l'analyse statistique du vocabulaire utilisé.
La méthode a été testée avec succès et le détail de la mise en œuvre est donné dans le document.

Mots clefs

Informatique documentaire, extraction d’information, statistique textuelle, terminologie, nomenclature, gènes, interaction génétique, interaction moléculaire, bioinformatique, Drosophila Melanogaster, Medline, Flybase.

Comment ça marche ?

Bibliographie

Consulter la thèse

Dernières modifications le 13 janvier 2002