II. Travaux sur l’analyse informatique des textes et les interactions génétiques ou moléculaires

Le second volet de notre travail consiste à extraire des informations sur les interactions génétiques et moléculaires. Cette tâche relève de l’extraction d’informations telle que nous l’avons définie précédemment. La plupart des travaux appartiennent au domaine de la compréhension du langage naturel qui est une branche de l’intelligence artificielle qui elle-même est une discipline de l’informatique. Il s’agit de rechercher des motifs spécifiques de la description d’une interaction. Il existe différentes approches que nous présenterons successivement.

Nous traiterons des méthodes basées sur la cooccurrence des gènes. La cooccurrence est un facteur qui est utilisé dans tous les travaux mais qui n’est pas toujours mis en valeur. Il semble que les auteurs considèrent la cooccurrence comme un critère allant de soi. De fait, il est naturel de penser qu’un texte qui décrit une interaction entre deux gènes, les citent tous les deux au moins une fois. La cooccurrence apparaît comme une condition nécessaire mais non suffisante. La plupart des auteurs vont se concentrer sur ce que leur analyse des textes peut apporter comme information supplémentaire. Cependant, certains travaux utilisent la cooccurrence comme source d’informations principales. Il s’agit, dans ce cas, de détecter des corrélations statistiques entre l’apparition d’un gène –dans un texte –et l’apparition d’un autre gène. Ces corrélations expriment des relations fonctionnelles évidentes ou révèlent des relations cachées. Ces études permettent donc l’exploration de connaissances bien établies tout en proposant une aide à la découverte.

D’une part, les mots clefs sont utilisés par la plupart des méthodes pour sélectionner les textes qui vont être traités. D’autre part, les travaux en compréhension du langage naturel n’utilisent pour la plupart d’entre eux qu’un tout petit nombre de mots pivots, souvent des verbes, pour repérer les interactions. Ainsi, les méthodes classiques utilisent d’une certaine façon des mots clefs même si elles se concentrent sur ce qu’elles peuvent apporter en plus au processus d’extraction d’informations. Nous réserverons donc une partie aux méthodes qui traitent de l’utilisation de mots clefs pour permettre l’accès à l’information pertinente sur les interactions.