1. Performance du
système d’identification des gènes sur
l’échantillon B
Les données de
l’échantillon A ne sont pas significatives pour évaluer
le système, car ce sont elles qui ont servi à la correction des
données terminologiques. Nous avons donc constitué un
deuxième échantillon,
l’échantillon B. Il a été
annoté par le programme en aveugle, c’est à dire avant que
nous ayons pris connaissance des textes qui s’y trouvent et fait les
adaptations nécessaires dans le dictionnaire des gènes.
L’échantillon B est constitué de 50
résumés. L’annotateur a effectué 408 identifications
de gènes. Le programme a effectué 396 identifications de
gènes. 349 identifications sont identiques. Nous pouvons donc dresser le
tableau suivant :
Tableau 71 Performance du
programme d’identification des gènes
L’évaluation a été faite
sur un ensemble de résumés qui n’a pas été
utilisé pour la mise au point du système.
Indicateur
|
Calcul
|
Valeur
|
Rappel
|
349/408
|
86 %
|
Précision
|
349/395
|
88 %
|
2.