3. Utiliser les données
issues de Flybase pour analyser les textes de Medline
Il peut sembler surprenant de vouloir utiliser des
données issues de Flybase pour analyser des données issues
de Medline. Il y a plusieurs justifications à
cela.
Tout d’abord, comme nous l’avons évoqué
à la section I.B.1.b, les données issues de Flybase
sont plus homogènes que les données issues de Medline.
Elles sont donc plus intéressantes pour obtenir le vocabulaire spécifique
des interactions à partir de méthodes statistiques.
Ensuite, et c’est le principal, en utilisant
les données issues du travail de Pillet, nous n’avons pas le
problème de la distinction entre données d’apprentissage et
données de test. Les résultats que nous obtenons peuvent
être considérés comme des données de test alors que
Pillet avait ce problème de l’absence de données de test.
Nous évitons, par l’utilisation des données statistiques
obtenues sur un autre corpus, d’avoir à constituer des
résultats réservés à
l’apprentissage.