2. Annotation sur les
interactions
Des annotations sur les interactions peuvent
être crées automatiquement. Elles sont destinées à
être comparées aux annotations écrites par
l’annotateur des textes.
Nous n’avons pas cherché à
créer des reconnaissances d’interaction ordonnées. En
d’autres termes, les annotations créées automatiquement sont
toutes de type non-ordonnées. De même, nous n’avons
créé des annotations que pour les gènes, au sens strict du
terme, alors que l’annotateur a pu écrire des annotations qui font
intervenir des groupes de gènes comme par exemple la famille de
protéines actin.
Cette annotation automatique n’a
été faite que sur
l’échantillon A.
Le principe de l’annotation automatique est le
suivant : pour chaque couple d’occurrence de gènes, est
créé une reconnaissance d’interaction entre les gènes
correspondants. La sélection sur le critère des IVI
n’intervient que dans un deuxième temps.
Le principe d’annotation que nous venons de
décrire donne naissance aux annotations de processus
intitulé nRDG. Les autres processus sont des variantes qui
consistent à ne retenir qu’une partie des annotations de ce type
selon des critères qui seront précisés dans la partie
évaluation dans la section Chapitre 3
II.
Nous donnons ci-après
un exemple de résumés annotés par le
programme.
Tableau 68 Exemple d'annotation automatique d'un
résumé
La colonne interaction possible donne le
résultat du processus d’annotation automatique avant la prise en
compte de l’IVI. La dernière colonne donne le
résultat après prise en compte de
l’IVI.
Phrase
|
Interaction
possible
|
IVI
|
Interaction
retenue
|
The Enhancer of split locus is required during many
cell-fate decisions in Drosophila, including the segregation of neural
precursors in the embryo
|
|
-0.17
|
|
We have generated monoclonal antibodies that
recognise some of the basic helix-loop-helix proteins encoded by the Enhancer of
split locus and have used them to examine expression of Enhancer of split
proteins during neurogenesis
|
|
-0.39
|
|
The proteins are expressed in a dynamic pattern in
the ventral neurogenic region and are confined to those ectodermal cells that
surround a neuroblast in the process of delaminating
|
|
-0.18
|
|
There is no staining in the neuroblasts
themselves
|
|
-0.67
|
|
We have also examined the relationship between
Enhancer of split protein accumulation and the Notch signalling
pathway
|
N_E(spl)
|
0.04
|
|
Protein expression is abolished in a number of
neurogenic mutant backgrounds, including Notch, but is increased as a result of
expressing a constitutively active Notch product
|
|
-0.09
|
|
We conclude that Notch signalling activity is
directly responsible for the accumulation of basic helix-loop- helix proteins
encoded by the Enhancer of split locus
|
N_E(spl)
|
0.13
|
N_E(spl)
|
Dans cet exemple, le seuil choisi pour
l’IVI est de 0,1. Le programme ne fait aucune annotation par erreur
et n’omet aucune interaction. Si le seuil avait été choisi
inférieur à 0,04 le programme aurait fait une annotation par
erreur dans la phrase numéro cinq. Cependant l’interaction extraite
de cette phrase aurait été exacte ; il y a bien une
interaction entre les deux gènes, comme on peut le voir dans la
dernière phrase. On voit bien ici l’intérêt d’un
décompte par interaction plutôt que d’un décompte par
occurrence d’interaction. C’est ce qui est fait dans le paragraphe
qui suit.
A partir des annotations faites phrase par phrase, il
est possible de faire un bilan des interactions extraites sur l’ensemble
du corpus. Le tableau 69 donne la liste des
interactions extraites par le programme sur les phrases qui citent deux
gènes.
Le tableau 70 donne la liste des
interactions extraites par l’annotateur sur le même ensemble de
phrases. Les lignes en gras sont les lignes communes aux deux tableaux. Il y en
a 55. Le tableau 69 compte 75 lignes. Le taux de
précision est donc de 55/75 soit 73 %. Le tableau 70
compte 62 lignes. Le taux de rappel est donc de 55/62 soit 89 %. Davantage de
statistiques seront données dans la partie
évaluation.