D. Méthodes
basées sur des motifs textuels pour extraire des informations sur les
interactions génétiques ou moléculaires
Pour détecter des interactions, la
cooccurrence de deux labels n’est pas un facteur suffisant. La
cooccurrence peut avoir lieu pour bien d’autres raisons que la description
d’une interaction. Des éléments supplémentaires
d’informations doivent être adjoints pour décider si une
interaction est décrite ou non. De plus, dans le cas où il y
aurait cooccurrence, et sauf dans le cas où il n’y aurait que deux
labels, il resterait à déterminer entre quels labels les
interactions ont lieu. La question du sens, de A vers B ou de B vers A, doit
aussi être posée. La question de savoir quel est le type de
l’interaction, activation ou inhibition par exemple, reste elle aussi
ouverte.
Ainsi, il apparaît nécessaire de faire
une analyse plus approfondie de la phrase. Il est important de repérer
des verbes tel que activate ou inhibit et de déterminer
sujets et compléments d’objets associés. Il s’agit
donc de faire appel au traitement automatique des langues. Les travaux qui
suivent font appels à cette technique.
Blaschke et al. (1999) proposent un
système d’extraction d’informations sur les interactions
entres protéines. Ce système s’appelle
suiseki [21].
Il permet de travailler sur un ensemble prédéfini de
protéines impliquées dans un même processus. Les
résumés issus de Medline qui
correspondent à ce processus sont analysés. Il s’agit de
reconnaître des motifs du type : Protéine A – Action
– Protéine B, où Protéine A et Protéine B sont
des noms de protéines et Action est un verbe appartenant à une
liste prédéfinie. Les auteurs recherchent aussi des phrases du
type « la protéine A est un membre de la famille B »
et ils utilisent d’autres motifs textuels pour cela. Le verbe
utilisé pour l’action permet aussi de déterminer quel est le
type de l’interaction. Le système est testé dans des cas
pratiques, ce qui permet aux auteurs de démontrer sa pertinence.
Cependant les auteurs n’ont pas évalué la précision
et le rappel.
Sekimizu et al. proposent un système
d’extraction d’information sur les interactions entre les
gènes ou leurs produits (1998). Les interactions sont
détectées grâce à la présence de verbes tels
que activate, bind, interact, regulate et
inhibit. Ce travail s’inscrit dans le projet GENIA
d’acquisition de connaissances à partir de publications sur le
génome (1999). Les auteurs évaluent la précision de leur
résultat mais ne sont pas en mesure d’évaluer le
rappel.
L’université de Tokyo développe
un système d’extraction d’informations sur les interactions
entre protéines (Ono et al., 1999). Les motifs utilisés
sont du type Protéine A – interact with – Protéine
B. Le système a été testé sur la levure
Saccharomyces cerevisiae et sur la bactérie Escherichia
coli. Les taux de rappel atteignent respectivement 86,8% et 82,5% (Ono et
al., 2001). Cependant les performances du système sont
évaluées sur les seules phrases qui contiennent les motifs
recherchés. Ainsi le rappel calculé ne prend pas en compte toutes
les interactions qui ont été manquées à cause
d’un motif trop spécifique. Les taux de précision atteignent
respectivement 94,3 % et 93,5 %.
La même équipe de recherche
présente aussi un travail sur les voies biologiques (Hishigaki et
al., 1999). Il s’agit d’extraire des informations sur les
relations entre les protéines et les voies biologiques dans lesquelles la
protéine est impliquée. Les auteurs proposent d’exploiter
les données sur les interactions pour obtenir des informations sur la
fonction des protéines et les voies biologiques.
D’autres équipes de recherche
travaillent sur l’extraction d’informations sur les voies
biologiques. Le système PIES
(Protein Interaction
Extraction System)
associe des fonctions de recherche et d’extraction d’informations
sur les interactions entre protéines, de manipulation des informations
sur les interactions et sur les voies biologiques et de visualisation des
réseaux d’interactions (Ng et
al., 1999). Dans ce système la recherche d’informations se fait
par repérage de certains verbes. Ces verbes sont choisis avant toute
expérience. Ils sont regroupés en classes selon des thèmes.
Le thème Inhibition regroupe les verbes inhibit,
suppress et negativly regulate. Le thème Activation
regroupe les verbes activate, transactivate, induce,
upregulate et positively regulate. Les phrases contenant un de ces
verbes sont sélectionnées. Des motifs sont recherchés dans
ces phrases de façon à extraire des informations sur le
réseau d’interactions décrit. Le stockage et la manipulation
des informations sur les interactions et les voies biologiques est
réalisé dans une base de données. Le système permet
aussi d’intégrer des informations sur les interactions issues de
calcul sur les séquences (Wong et al., 2001). Il s’agit de
repérer des évènements de fusion entre gènes au
cours de l’évolution. PIES se présente donc comme un
système complet d’acquisition, de manipulation de visualisation
d’informations sur les voies biologiques.
Les systèmes d’extraction
d’informations sur les interactions peuvent être des adaptations
d’un système plus généraliste. Le système
d’extraction d’informations Highlight est une
adaptation du système
FASTUS
développé par le SRI
(Thomas
et al., 2000). Les informations extraites concernent les interactions entre
protéines. Les verbes utilisés sont interract,
associate et bind. Un test effectué sur un
échantillon de 90 résumés fait ressortir des taux de rappel
et de précision de respectivement 29 % et 69 %.