2. Méthodes
basées sur le nombre de gènes cités dans une même
phrase
Nous avons vu que la présence de deux
occurrences de gènes est un indice fort de la présence d’une
interaction entre les gènes concernés. Cependant, on imagine bien
que cet indice soit moins convaincant quand il s’agit de deux occurrences
du même gène. Autrement dit, si un auteur cite conjointement deux
gènes, c’est quand même un indice fort que les deux
gènes ont quelques chose à faire l’un avec l’autre et
donc en particulier qu’ils interagissent, tandis que si un auteur cite
plusieurs fois le même gène dans la même phrase, ce
n’est peut-être que parce que ce gène
l’intéresse. Ainsi, la méthode d’extraction
d’information que nous proposons paraît être plus pertinente
pour trouver des interactions entre gènes différents que pour
trouver des auto-interactions. Nous allons donc reprendre nos statistiques en ne
nous intéressant cette fois qu’aux interactions du premier type
pour négliger les interactions du deuxième type, sur lesquels
d’autres méthodes d’extraction d’interactions
pourraient s’avérer plus pertinentes.