II. Travaux
sur l’analyse informatique des textes et les interactions
génétiques ou moléculaires
Le second volet de notre travail consiste à
extraire des informations sur les interactions génétiques et
moléculaires. Cette tâche relève de l’extraction
d’informations telle que nous l’avons définie
précédemment. La plupart des travaux appartiennent au domaine de
la compréhension du langage naturel qui est une branche de
l’intelligence artificielle qui elle-même est une discipline de
l’informatique. Il s’agit de rechercher des motifs
spécifiques de la description d’une interaction. Il existe
différentes approches que nous présenterons
successivement.
Nous traiterons des méthodes basées sur
la cooccurrence des gènes. La cooccurrence est un facteur qui est
utilisé dans tous les travaux mais qui n’est pas toujours mis en
valeur. Il semble que les auteurs considèrent la cooccurrence comme un
critère allant de soi. De fait, il est naturel de penser qu’un
texte qui décrit une interaction entre deux gènes, les citent tous
les deux au moins une fois. La cooccurrence apparaît comme une condition
nécessaire mais non suffisante. La plupart des auteurs vont se
concentrer sur ce que leur analyse des textes peut apporter comme information
supplémentaire. Cependant, certains travaux utilisent la cooccurrence
comme source d’informations principales. Il s’agit, dans ce cas, de
détecter des corrélations statistiques entre l’apparition
d’un gène –dans un texte –et l’apparition
d’un autre gène. Ces corrélations expriment des relations
fonctionnelles évidentes ou révèlent des relations
cachées. Ces études permettent donc l’exploration de
connaissances bien établies tout en proposant une aide à la
découverte.
Nous traiterons aussi des méthodes
basées sur la recherche de mots clefs ou de phrases clefs. Ces travaux
sont fondés sur le repérage des segments de textes pertinents pour
une question donnée.
D’une part, les mots clefs sont utilisés
par la plupart des méthodes pour sélectionner les textes qui vont
être traités. D’autre part, les travaux en
compréhension du langage naturel n’utilisent pour la plupart
d’entre eux qu’un tout petit nombre de mots pivots, souvent des
verbes, pour repérer les interactions. Ainsi, les méthodes
classiques utilisent d’une certaine façon des mots clefs même
si elles se concentrent sur ce qu’elles peuvent apporter en plus au
processus d’extraction d’informations. Nous réserverons donc
une partie aux méthodes qui traitent de l’utilisation de mots clefs
pour permettre l’accès à l’information pertinente sur
les interactions.