b. Reconnaissance des
interactions à partir des phrases qui comptent plusieurs occurrences de
gène
Le processus d’extraction d’information
2RDG a l’inconvénient majeur de ne prendre en compte que les
phrases qui comptent deux occurrences de gène seulement. Or on sait que
de nombreuses interactions se trouvent dans les phrases qui comptent davantage
d’occurrences de gène. Nous avons donné des chiffres
à ce propos dans la section Chapitre 1
II.B.2. Nous avons donc créé le processus de reconnaissance
des interactions nRDG.
Le principe de la reconnaissance est le
suivant : pour chaque phrase qui compte plusieurs reconnaissances de
gène, pour chaque couple de reconnaissance de gène présent
dans cette phrase, on crée l’interaction correspondante dans la
table de reconnaissance des interactions. Le graphe correspondant se trouve figure 8, et les données correspondantes dans
le tableau 90. Le nombre de phrases
concernées par cette statistique est de 486.
Figure 8 Graphique
rappel-précision pour les interactions au cours du processus
nRDG
L’inconvénient de la méthode
nRDG apparaît tout de suite : beaucoup trop
d’interactions sont générées automatiquement,
relativement au nombre d’interaction qui sont réellement
décrites dans les phrases. On voit par exemple qu’avant
intervention de l’IVI, près de 1000 interactions sont
générées, alors que l’expert n’en a
trouvé que 154. La précision ne peut, dans ces conditions,
qu’être très faible.