2. Choix
d’une méthode d’analyse basée sur la présence
conjointe de noms de gènes et d’un vocabulaire spécifique
dans une même phrase
La méthode qui a été
adoptée est très intuitive, car elle est basée sur un
constat simple et pragmatique sur les textes à analyser : les
phrases qui décrivent une interaction génétique ou
moléculaire se caractérisent par un vocabulaire spécifique
et la présence de plusieurs occurrences de gènes.
Voyons-le sur l’exemple
suivant :
Exemple 2 Phrase
extraite de Flybase qui décrit une interaction
Il est dit dans cette phrase qu’un certain type
d’analyse (l’analyse par double mutant) permet
d’établir que le gène sdt agit en aval du gène
crb et est activé par celui-ci.
Double mutant analysis suggests that sdt acts
downstream of and is activated by crb.
Nous voyons par cet exemple que l’analyse
à faire sur la phrase pour en comprendre le sens est assez
poussée. Elle nécessite des connaissances approfondies du domaine.
Il est implicitement question d’une voie de régulation
génétique à laquelle les deux gènes participent. Des
informations sont données sur la place et le rôle de chacun des
deux gènes :
- Le sens du signal est précisé : il
s’agit d’un signal de crb vers sdt.
- Le signe du signal est précisé :
l’expression de sdt a une action positive sur l’expression de
crb.
Une analyse à base
d’intelligence artificielle serait donc difficile à mettre en
œuvre. En revanche, nous remarquons que le simple fait de repérer
des noms de gènes et des syntagmes tel que act downstream ou is
activated by serait suffisante pour extraire l’information dont nous
avons besoin. L’exemple suivant l’illustre.
Exemple 3 Traits
caractéristiques servant à l’analyse
La présence simultanée dans la
même phrase de deux noms de gènes et d’expressions aussi
spécifiques que act downstream of et is activated by permet
de conclure assez raisonnablement qu’une interaction est décrite et
qu’elle met en jeu les deux gènes cités.
Double mutant analysis suggests that sdt
acts downstream of and is activated by
crb.
L’analyse des textes va consister à repérer
à la fois un vocabulaire spécifique et des noms de gènes.
Une interaction sera détectée quand une même phrase utilisera
un vocabulaire spécifique et comptera au moins deux occurrences de noms
de gènes, qui formeront alors les partenaires de l’interaction.
Nous symboliserons ce principe par l’équation 1.
Équation
1 Le principe de l’analyse
Une interaction est décrite en faisant
référence aux partenaires de celle-ci et par l’utilisation
d’un vocabulaire spécifique, et vice-versa.
Interaction = Partenaires + vocabulaire
spécifique
Voyons maintenant la méthode plus en
détail, et notamment la méthode de détection du vocabulaire
spécifique.