1. Variante dans le calcul de
la spécificité
La définition de la spécificité
utilisée par Pillet est différente de celle que nous proposons.
Nous allons montrer que la définition que nous proposons est
équivalente après une simplification que nous
justifierons.
Nous avons défini la spécificité
à la section C.1 et notamment
par la définition 1. Pillet
utilise la définition ci-dessous.
Définition 3 Définition de la
spécificité utilisée par Pillet
Nterme désigne le
nombre de phrases utilisant le terme ; nterme
désigne le nombre de phrases utilisant le terme qui décrivent
une interaction ; n'terme désigne le nombre de
phrases utilisant le terme ne décrivant pas
d’interaction.
Pillet a classé les phrases en trois
catégories : les phrases qui décrivent une interaction,
celles qui n’en décrivent pas et enfin celles pour lesquelles la
situation n’est pas suffisamment claire pour pouvoir trancher. Nous avons
décidé de ne faire que deux catégories en
plaçant les phrases de la catégorie des indécises
dans la catégorie des non.
Le principal intérêt de cette
modification consiste à faciliter la comparaison de notre travail avec
d’autres travaux. En effet, dans la plupart des travaux sur
l’extraction d’information, on ne distingue que deux
catégories de texte –les bons et les mauvais –et non trois
catégories.
D’autre part, cette modification permet de substituer
la définition 3 par la définition 1 qui est à
notre sens plus simple. En effet, ces deux formules sont équivalentes
comme nous allons le montrer dans ce qui suit.
La présence de deux catégories
seulement permet d’écrire N = n + n'.
D’où, après calcul
S' = 2 S - 1 où S' désigne
la spécificité définie par Pillet, et S la
spécificité que nous proposons. On en déduit
IVI' = 2 IVI - 1 où IVI'
désigne l’index de vraisemblance d’interaction calculé
grâce aux spécificité S'. Les deux versions de
l’IVI sont identiques à la composition par une fonction
affine près. Ainsi, quand IVI' prend ses valeurs entre -1 et 1,
IVI varie entre 0 et 1. Imposer une condition du type
IVI > s revient exactement à imposer une condition du
type IVI' > s' où s' est un seuil choisi en
fonction du seuil s. Nous pouvons donc dire que les deux statistiques
IVI et IVI' sont équivalentes. Nous utiliserons la définition 3 dans les calculs de
l’IVI car elle a l’avantage de conduire à une
quantité qui change de signe, ce qui est plus lisible dans les
graphiques.