D. Méthodes basées sur des motifs textuels pour extraire des informations sur les interactions génétiques ou moléculaires

Pour détecter des interactions, la cooccurrence de deux labels n’est pas un facteur suffisant. La cooccurrence peut avoir lieu pour bien d’autres raisons que la description d’une interaction. Des éléments supplémentaires d’informations doivent être adjoints pour décider si une interaction est décrite ou non. De plus, dans le cas où il y aurait cooccurrence, et sauf dans le cas où il n’y aurait que deux labels, il resterait à déterminer entre quels labels les interactions ont lieu. La question du sens, de A vers B ou de B vers A, doit aussi être posée. La question de savoir quel est le type de l’interaction, activation ou inhibition par exemple, reste elle aussi ouverte.

Ainsi, il apparaît nécessaire de faire une analyse plus approfondie de la phrase. Il est important de repérer des verbes tel que activate ou inhibit et de déterminer sujets et compléments d’objets associés. Il s’agit donc de faire appel au traitement automatique des langues. Les travaux qui suivent font appels à cette technique.

Blaschke et al. (1999) proposent un système d’extraction d’informations sur les interactions entres protéines. Ce système s’appelle suiseki^[21]. Il permet de travailler sur un ensemble prédéfini de protéines impliquées dans un même processus. Les résumés issus de Medline qui correspondent à ce processus sont analysés. Il s’agit de reconnaître des motifs du type : Protéine A – Action – Protéine B, où Protéine A et Protéine B sont des noms de protéines et Action est un verbe appartenant à une liste prédéfinie. Les auteurs recherchent aussi des phrases du type « la protéine A est un membre de la famille B » et ils utilisent d’autres motifs textuels pour cela. Le verbe utilisé pour l’action permet aussi de déterminer quel est le type de l’interaction. Le système est testé dans des cas pratiques, ce qui permet aux auteurs de démontrer sa pertinence. Cependant les auteurs n’ont pas évalué la précision et le rappel.

Sekimizu et al. proposent un système d’extraction d’information sur les interactions entre les gènes ou leurs produits (1998). Les interactions sont détectées grâce à la présence de verbes tels que activate, bind, interact, regulate et inhibit. Ce travail s’inscrit dans le projet GENIA d’acquisition de connaissances à partir de publications sur le génome (1999). Les auteurs évaluent la précision de leur résultat mais ne sont pas en mesure d’évaluer le rappel.

L’université de Tokyo développe un système d’extraction d’informations sur les interactions entre protéines (Ono et al., 1999). Les motifs utilisés sont du type Protéine A – interact with – Protéine B. Le système a été testé sur la levure Saccharomyces cerevisiae et sur la bactérie Escherichia coli. Les taux de rappel atteignent respectivement 86,8% et 82,5% (Ono et al., 2001). Cependant les performances du système sont évaluées sur les seules phrases qui contiennent les motifs recherchés. Ainsi le rappel calculé ne prend pas en compte toutes les interactions qui ont été manquées à cause d’un motif trop spécifique. Les taux de précision atteignent respectivement 94,3 % et 93,5 %.

La même équipe de recherche présente aussi un travail sur les voies biologiques (Hishigaki et al., 1999). Il s’agit d’extraire des informations sur les relations entre les protéines et les voies biologiques dans lesquelles la protéine est impliquée. Les auteurs proposent d’exploiter les données sur les interactions pour obtenir des informations sur la fonction des protéines et les voies biologiques.

D’autres équipes de recherche travaillent sur l’extraction d’informations sur les voies biologiques. Le système PIES (Protein Interaction Extraction System) associe des fonctions de recherche et d’extraction d’informations sur les interactions entre protéines, de manipulation des informations sur les interactions et sur les voies biologiques et de visualisation des réseaux d’interactions (Ng et al., 1999). Dans ce système la recherche d’informations se fait par repérage de certains verbes. Ces verbes sont choisis avant toute expérience. Ils sont regroupés en classes selon des thèmes. Le thème Inhibition regroupe les verbes inhibit, suppress et negativly regulate. Le thème Activation regroupe les verbes activate, transactivate, induce, upregulate et positively regulate. Les phrases contenant un de ces verbes sont sélectionnées. Des motifs sont recherchés dans ces phrases de façon à extraire des informations sur le réseau d’interactions décrit. Le stockage et la manipulation des informations sur les interactions et les voies biologiques est réalisé dans une base de données. Le système permet aussi d’intégrer des informations sur les interactions issues de calcul sur les séquences (Wong et al., 2001). Il s’agit de repérer des évènements de fusion entre gènes au cours de l’évolution. PIES se présente donc comme un système complet d’acquisition, de manipulation de visualisation d’informations sur les voies biologiques.

Les systèmes d’extraction d’informations sur les interactions peuvent être des adaptations d’un système plus généraliste. Le système d’extraction d’informations Highlight est une adaptation du système FASTUS développé par le SRI (Thomas et al., 2000). Les informations extraites concernent les interactions entre protéines. Les verbes utilisés sont interract, associate et bind. Un test effectué sur un échantillon de 90 résumés fait ressortir des taux de rappel et de précision de respectivement 29 % et 69 %.