1. La saisie des informations sur les interactions génétiques et moléculaires

Cette tâche, à laquelle nous avons participé, vise à mettre à disposition du consortium et plus spécialement de la communauté des chercheurs en génétique, un nombre important d’informations tirées d’articles scientifiques sur les interactions génétiques et moléculaires. Deux techniques différentes ont été utilisées.

La première, mise en œuvre avec l’aide du CRRM est basée sur l’utilisation des statistiques textuelles. Ce travail a été initié en 1996 lors du DEA de Pillet et a été complété par une thèse (2000). Cette technique a servi de point de départ à notre travail et nous reprendrons un certain nombre de résultats et en particulier la mise en évidence d’un vocabulaire spécifique aux phrases décrivant une interaction génétique ou moléculaire ainsi que le critère de la présence simultanée de deux noms de gènes dans une même phrase.

Choix d’une méthode d’analyse basée sur le vocabulaire et la présence simultané de deux noms de gènes dans une même phrases

Nous revenons ici sur ce qui a motiver le travail précédemment entreprit par Mlle Pillet car nous avons tout à fait adopté une des méthode d’analyse des textes qu’elle a contribué à mettre au point.

Il est dit dans cette phrase qu’un certain type d’analyse, l’analyse par double mutant, permet d’établir que le gène sdt agit en aval du gène crb et est activé par celui-ci. Il est donc question d’une voix de régulation génétique auxquelles les deux gène participent, étant précisé le sens du signal, de crb vers sdt, et le signe de l’interaction : sdt active crb.

Nous voyons sur cette exemple que l’analyse qu’il y a à faire sur la phrase pour en comprendre le sens est assez poussée car elle demande d’avoir beaucoup de connaissance du domaine. Une analyse a base d’intelligence artificielle serais donc difficile. En revanche on remarque que le simple fait de repérer des noms de gènes et des syntagme tel que act downstream ou is activated by serait suffisante pour extraire l’information dont nous avons besoin. Nous le voyons graphiquement ici :

La présence simultanée dans la même phrases de deux noms de gènes et d’expression aussi spécifique que act downstream et is activated by permet de conclure assez raisonnablement qu’une interactions est décrite et quelle met en jeux les deux gènes citées.

Nous voyons dans cette phrase que l’information se concentre sur certain mots ou expression comme activated ou act downstream.

Les résultats déjà obtenues par Mlle Violaine Pillet dans sa thèseLa seconde technique utilisée, basée sur la linguistique informatique a été mise en œuvre par l’INRIA Rhône Alpes et la Compagnie Xerox. Elle a donné lieu à une thèse (Proux, 2001)

Ces deux techniques d’extraction d’information ont été développées indépendamment. Cependant elles sont complémentaires au sens où la seconde pourrait s’enchaîner à la première.