Page d'acceuil - CV - Bibliographie - Téléchargement - me contacter :

Comment ça marche ?

Le prototype est réalisé sous Access. Il y a deux volets au travail :

L’identification des gènes

Le système est basé sur un dictionnaire des gènes. Ce dictionnaire a été créé à partir de la base de données sur la Drosophile Flybase. Ce dictionnaire a été retraité automatiquement et complété manuellement. Sur les 108 résumés qui ont servi à sa mise au point les taux de rappel et de précision dépassent 99%.

Des règles sont appliquées qui prennent en compte :

  • Le degré d’ambiguïté des noms de gènes
  • La présence éventuelle dans le dictionnaire de plusieurs gènes pour un même nom de gène
  • La présence simultanée dans le même résumé du même gène sous plusieurs appellations.

La reconnaissance des interactions

Le vocabulaire est analysé avec des méthodes statistiques. Une note est attribuée à chaque phrase, évaluant la probabilité qu’elle décrive une interaction. Pour chaque phrase qui cite plusieurs gènes et qui est bien notée une interaction potentielle est générée entre chaque couple de gènes en présence.

Publications

Ingold Ambroise, Jacq Bernard, Quoniam Luc. Analyse automatique de textes libres issus de résumés de publications en génétique : identification des gènes cités. Colloque de la Société française de bibliométrie appliquée, Ile Rousse, septembre 1999.

Quoniam Luc, Pillet Violaine, Ingold Ambroise, Jacq Bernard. Information Analysis, Genome Program and "hidden Data". 17ième international CODATA conférence. Octobre 2000.

Ingold Ambroise. Expérience de couplage entre bases de données factuelles et bases de données bibliographiques: Identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’information sur les interactions génétiques ou moléculaires à partir de publications. Thèse en science de l'information et de la communication : Université d'Aix-Marseille III, 4 janvier 2002. 187 p. Disponible en téléchargement