b. Avantages
de la base de données Flybase
La base de données Flybase fait
autorité et est très complète en ce qui concerne les
interactions génétiques ou moléculaires chez la drosophile.
On peut donc s’attendre à y trouver l’essentiel des
informations.
Dans les textes issus de Flybase,
l’expression de l’information est beaucoup plus compacte et
homogène. En effet, les rédacteurs des textes écrivent des
petits résumés de quelques lignes sur les articles qu’ils
ont lus. A l’opposé, les résumés issus de
Medline font environ une demi-page. La concision de Flybase est
très avantageuse pour mettre en œuvre les techniques
d’extraction d’informations : plus petite est la proportion de
texte non pertinent, moins on a de chance de considérer à tort
une partie du texte comme pertinente.
Le fait que les textes issus de Flybase soient
écrits par quelques personnes seulement contre plusieurs centaines
d’auteurs différents pour les textes issus de Medline,
permet de garantir une certaine homogénéité dans
l’expression. Ceci est très précieux pour déceler par
des méthodes statistiques des motifs spécifiques
d’expression d’interactions génétiques ou
moléculaires.
Par ailleurs, certaines caractéristiques de
Flybase permettent d’éviter des erreurs d’analyse qui
demeurent possibles dans les textes issus de Medline. Par exemple, sur
Medline il peut y avoir des informations sur des gènes
d’autres espèces et ce, d’autant plus que les noms de
gènes sont parfois les mêmes d’une espèce à
l’autre. Ceci est évité dans Flybase
puisqu’elle se consacre presque exclusivement à la drosophile. Par
ailleurs, l’identification des gènes dans les textes issus de
Medline pose des difficultés spécifiques alors que dans
Flybase les annotateurs s’imposent une terminologie stricte et
parfaitement décrite dans Flybase elle-même. C’est un
point important, et nous reviendrons sur les difficultés de
l’identification des gènes dans les textes issue de Medline
à la section Partie 2 .