Up Previous Next Title Page Index Contents

2. Choix d’une méthode d’analyse basée sur la présence conjointe de noms de gènes et d’un vocabulaire spécifique dans une même phrase
La méthode qui a été adoptée est très intuitive, car elle est basée sur un constat simple et pragmatique sur les textes à analyser : les phrases qui décrivent une interaction génétique ou moléculaire se caractérisent par un vocabulaire spécifique et la présence de plusieurs occurrences de gènes.
Voyons-le sur l’exemple suivant :
Exemple 2 Phrase extraite de Flybase qui décrit une interaction
Il est dit dans cette phrase qu’un certain type d’analyse (l’analyse par double mutant) permet d’établir que le gène sdt agit en aval du gène crb et est activé par celui-ci.
Double mutant analysis suggests that sdt acts downstream of and is activated by crb.
Nous voyons par cet exemple que l’analyse à faire sur la phrase pour en comprendre le sens est assez poussée. Elle nécessite des connaissances approfondies du domaine. Il est implicitement question d’une voie de régulation génétique à laquelle les deux gènes participent. Des informations sont données sur la place et le rôle de chacun des deux gènes :
Une analyse à base d’intelligence artificielle serait donc difficile à mettre en œuvre. En revanche, nous remarquons que le simple fait de repérer des noms de gènes et des syntagmes tel que act downstream ou is activated by serait suffisante pour extraire l’information dont nous avons besoin. L’exemple suivant l’illustre.
Exemple 3 Traits caractéristiques servant à l’analyse
La présence simultanée dans la même phrase de deux noms de gènes et d’expressions aussi spécifiques que act downstream of et is activated by permet de conclure assez raisonnablement qu’une interaction est décrite et qu’elle met en jeu les deux gènes cités.
Double mutant analysis suggests that sdt acts downstream of and is activated by crb.
L’analyse des textes va consister à repérer à la fois un vocabulaire spécifique et des noms de gènes. Une interaction sera détectée quand une même phrase utilisera un vocabulaire spécifique et comptera au moins deux occurrences de noms de gènes, qui formeront alors les partenaires de l’interaction. Nous symboliserons ce principe par l’équation 1.
Équation 1 Le principe de l’analyse
Une interaction est décrite en faisant référence aux partenaires de celle-ci et par l’utilisation d’un vocabulaire spécifique, et vice-versa.
Interaction = Partenaires + vocabulaire spécifique
Voyons maintenant la méthode plus en détail, et notamment la méthode de détection du vocabulaire spécifique.

Up Previous Next Title Page Index Contents