A. Complexité de la
reconnaissance des interactions
Cette complexité tient à la nature
même de la tâche, indépendamment de la méthode mise en
œuvre pour y parvenir.
Il s’agit en particulier de trouver une
définition pertinente de la notion d’interaction. En effet, dans le
travail de Pillet, on est parti du principe que les interactions étaient
représentées par des couples de gènes. Cela
découlait en réalité d’une technique
d’extraction de l’information qui voulait que l’on ne
s’intéresse qu’aux seules phrases qui contiennent exactement
deux occurrences de gènes. Le travail sur Medline s’est fait
sans ce présupposé. C’est à dire que l’on a
annoté toutes les phrases, quel que soit le nombre de gènes
cités dans celles-ci. On se rend compte alors, à la lecture des
textes, qu’il est parfois difficile de réduire l’information
contenue dans une phrase à des listes de couples de gènes en
interaction.
Il est vrai que l’on peut concevoir un ensemble
de gènes en interaction comme un réseau de gènes en
interactions moléculaires. Cependant, certains des chaînons de ce
réseau font parfois intervenir plus de deux gènes. On ne peut donc
réduire le réseau à une liste d’interaction deux
à deux. De plus, les faits décrits dans les textes ne portent pas
toujours sur des interactions moléculaires. Plus
précisément, il s’agit souvent de chemins de signalisation
et de groupes de gènes en interaction, ce qui ne peut se ramener
entièrement à un ensemble d’interactions direct ou
non.