1. La
saisie des informations sur les interactions génétiques et
moléculaires
Cette tâche, à laquelle nous avons
participé, vise à mettre à disposition du consortium et
plus spécialement de la communauté des chercheurs en
génétique, un nombre important d’informations tirées
d’articles scientifiques sur les interactions génétiques et
moléculaires. Deux techniques différentes ont été
utilisées.
La première, mise en œuvre avec
l’aide du CRRM est basée sur l’utilisation des statistiques
textuelles. Ce travail a été initié en 1996 lors du DEA de
Pillet et a été complété par une thèse
(2000). Cette technique a servi de point de départ à notre travail
et nous reprendrons un certain nombre de résultats et en particulier la
mise en évidence d’un vocabulaire spécifique aux phrases
décrivant une interaction génétique ou moléculaire
ainsi que le critère de la présence simultanée de deux noms
de gènes dans une même phrase.
Choix d’une méthode d’analyse
basée sur le vocabulaire et la présence simultané de deux
noms de gènes dans une même phrases
Nous revenons ici sur ce qui a motiver le travail
précédemment entreprit par Mlle Pillet car nous avons tout
à fait adopté une des méthode d’analyse des textes
qu’elle a contribué à mettre au point.
Cette méthode, très intuitive est
basée sur un constat simple et pragmatique sur les textes à
analyser.
Voyons le sur un exemple. Voici une phrase extraite
de Flybase qui nous parle d’interaction :
Il est dit dans cette phrase qu’un certain type
d’analyse, l’analyse par double mutant, permet
d’établir que le gène sdt agit en aval du gène crb et
est activé par celui-ci. Il est donc question d’une voix de
régulation génétique auxquelles les deux gène
participent, étant précisé le sens du signal, de crb vers
sdt, et le signe de l’interaction : sdt active crb.
Nous voyons sur cette exemple que l’analyse
qu’il y a à faire sur la phrase pour en comprendre le sens est
assez poussée car elle demande d’avoir beaucoup de connaissance du
domaine. Une analyse a base d’intelligence artificielle serais donc
difficile. En revanche on remarque que le simple fait de repérer des noms
de gènes et des syntagme tel que act downstream ou is activated
by serait suffisante pour extraire l’information dont nous avons
besoin. Nous le voyons graphiquement ici :
Double mutant analysis suggests that sdt
acts downstream of and is activated by crb
La présence simultanée dans la
même phrases de deux noms de gènes et d’expression aussi
spécifique que act downstream et is activated by permet de
conclure assez raisonnablement qu’une interactions est décrite et
quelle met en jeux les deux gènes citées.
Reste donc seulement à repérer ses
termes spécifique des interactions
Nous voyons dans cette phrase que l’information
se concentre sur certain mots ou expression comme activated ou act
downstream.
Méthode des requêtes
Les résultats déjà obtenues par
Mlle Violaine Pillet dans sa thèseLa seconde technique utilisée,
basée sur la linguistique informatique a été mise en
œuvre par l’INRIA Rhône Alpes et la Compagnie
Xerox. Elle a donné lieu à une thèse
(Proux,
2001)
Ces deux techniques d’extraction
d’information ont été développées
indépendamment. Cependant elles sont complémentaires au sens
où la seconde pourrait s’enchaîner à la
première.