![]() |
||||||
Page d'acceuil - CV - Bibliographie - Téléchargement - me contacter : | ||||||
Le prototype est réalisé sous Access. Il y a deux volets au travail :
Le système est basé sur un dictionnaire des gènes. Ce dictionnaire a été créé à partir de la base de données sur la Drosophile Flybase. Ce dictionnaire a été retraité automatiquement et complété manuellement. Sur les 108 résumés qui ont servi à sa mise au point les taux de rappel et de précision dépassent 99%. Des règles sont appliquées qui prennent en compte :
Le vocabulaire est analysé avec des méthodes statistiques. Une note est attribuée à chaque phrase, évaluant la probabilité qu’elle décrive une interaction. Pour chaque phrase qui cite plusieurs gènes et qui est bien notée une interaction potentielle est générée entre chaque couple de gènes en présence.
Ingold Ambroise, Jacq Bernard, Quoniam Luc. Analyse automatique de textes libres issus de résumés de publications en génétique : identification des gènes cités. Colloque de la Société française de bibliométrie appliquée, Ile Rousse, septembre 1999. Quoniam Luc, Pillet Violaine, Ingold Ambroise, Jacq Bernard. Information Analysis, Genome Program and "hidden Data". 17ième international CODATA conférence. Octobre 2000. Ingold Ambroise. Expérience de couplage entre bases de données factuelles et bases de données bibliographiques: Identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’information sur les interactions génétiques ou moléculaires à partir de publications. Thèse en science de l'information et de la communication : Université d'Aix-Marseille III, 4 janvier 2002. 187 p. Disponible en téléchargement |
||||||
![]() |
![]() |