b. Reconnaissance des interactions à partir des phrases qui comptent plusieurs occurrences de gène

b. Reconnaissance des interactions à partir des phrases qui comptent plusieurs occurrences de gène

Le processus d’extraction d’information 2RDG a l’inconvénient majeur de ne prendre en compte que les phrases qui comptent deux occurrences de gène seulement. Or on sait que de nombreuses interactions se trouvent dans les phrases qui comptent davantage d’occurrences de gène. Nous avons donné des chiffres à ce propos dans la section Chapitre 1 II.B.2. Nous avons donc créé le processus de reconnaissance des interactions nRDG.

Le principe de la reconnaissance est le suivant : pour chaque phrase qui compte plusieurs reconnaissances de gène, pour chaque couple de reconnaissance de gène présent dans cette phrase, on crée l’interaction correspondante dans la table de reconnaissance des interactions. Le graphe correspondant se trouve figure 8, et les données correspondantes dans le tableau 90. Le nombre de phrases concernées par cette statistique est de 486.

Figure 8 Graphique rappel-précision pour les interactions au cours du processus nRDG

L’inconvénient de la méthode nRDG apparaît tout de suite : beaucoup trop d’interactions sont générées automatiquement, relativement au nombre d’interaction qui sont réellement décrites dans les phrases. On voit par exemple qu’avant intervention de l’IVI, près de 1000 interactions sont générées, alors que l’expert n’en a trouvé que 154. La précision ne peut, dans ces conditions, qu’être très faible.