2. Annotation sur les interactions

Nous n’avons pas cherché à créer des reconnaissances d’interaction ordonnées. En d’autres termes, les annotations créées automatiquement sont toutes de type non-ordonnées. De même, nous n’avons créé des annotations que pour les gènes, au sens strict du terme, alors que l’annotateur a pu écrire des annotations qui font intervenir des groupes de gènes comme par exemple la famille de protéines actin.

Le principe de l’annotation automatique est le suivant : pour chaque couple d’occurrence de gènes, est créé une reconnaissance d’interaction entre les gènes correspondants. La sélection sur le critère des IVI n’intervient que dans un deuxième temps.

Le principe d’annotation que nous venons de décrire donne naissance aux annotations de processus intitulé nRDG. Les autres processus sont des variantes qui consistent à ne retenir qu’une partie des annotations de ce type selon des critères qui seront précisés dans la partie évaluation dans la section Chapitre 3 II.

Phrase	Interaction possible	IVI	Interaction retenue
The Enhancer of split locus is required during many cell-fate decisions in Drosophila, including the segregation of neural precursors in the embryo		-0.17
We have generated monoclonal antibodies that recognise some of the basic helix-loop-helix proteins encoded by the Enhancer of split locus and have used them to examine expression of Enhancer of split proteins during neurogenesis		-0.39
The proteins are expressed in a dynamic pattern in the ventral neurogenic region and are confined to those ectodermal cells that surround a neuroblast in the process of delaminating		-0.18
There is no staining in the neuroblasts themselves		-0.67
We have also examined the relationship between Enhancer of split protein accumulation and the Notch signalling pathway	N_E(spl)	0.04
Protein expression is abolished in a number of neurogenic mutant backgrounds, including Notch, but is increased as a result of expressing a constitutively active Notch product		-0.09
We conclude that Notch signalling activity is directly responsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus	N_E(spl)	0.13	N_E(spl)

Dans cet exemple, le seuil choisi pour l’IVI est de 0,1. Le programme ne fait aucune annotation par erreur et n’omet aucune interaction. Si le seuil avait été choisi inférieur à 0,04 le programme aurait fait une annotation par erreur dans la phrase numéro cinq. Cependant l’interaction extraite de cette phrase aurait été exacte ; il y a bien une interaction entre les deux gènes, comme on peut le voir dans la dernière phrase. On voit bien ici l’intérêt d’un décompte par interaction plutôt que d’un décompte par occurrence d’interaction. C’est ce qui est fait dans le paragraphe qui suit.

A partir des annotations faites phrase par phrase, il est possible de faire un bilan des interactions extraites sur l’ensemble du corpus. Le tableau 69 donne la liste des interactions extraites par le programme sur les phrases qui citent deux gènes.

Le tableau 70 donne la liste des interactions extraites par l’annotateur sur le même ensemble de phrases. Les lignes en gras sont les lignes communes aux deux tableaux. Il y en a 55. Le tableau 69 compte 75 lignes. Le taux de précision est donc de 55/75 soit 73 %. Le tableau 70 compte 62 lignes. Le taux de rappel est donc de 55/62 soit 89 %. Davantage de statistiques seront données dans la partie évaluation.