Utilisation du contexte pour
détecter les reconnaissances redondantes
Il est fréquent de voir un auteur apporter des
précisions sur la terminologie en donnant pour le même gène,
dans la même phrase et l’un à la suite de l’autre,
deux de ces labels. Typiquement, la première occurrence donne le nom
complet et la seconde le symbole, ce dernier étant
placé entre parenthèses. Dans ce cas, nous dirons que la
deuxième reconnaissance est redondante. Le voici
illustré dans l’exemple ci-dessous.
Exemple 17 Les
reconnaissances redondantes.
Le gène decapentaplegic (dpp) est
reconnu deux fois dans cette phrase, une première fois par le label
decapentaplegic, puis une deuxième fois par le label dpp.
La deuxième reconnaissance est dite redondante car elle suit
immédiatement la première.
The decapentaplegic (dpp) gene in Drosophila
melanogaster encodes a TGF- beta-like signalling molecule that is expressed in a
complex and changing pattern during development.
Il est important de savoir repérer ce type de
reconnaissance pour l’extraction d’information sur les interactions
génétiques. En effet, il ne faudrait pas considérer les
deux occurrences consécutives comme des partenaires d’une
éventuelle interaction. Les reconnaissances redondantes ne seront pas
prises en compte dans la recherche de partenaires.
La redondance est un phénomène
très fréquent. Dans l’échantillon A, 109
reconnaissances sur 1417 (soit 8 %) sont redondantes. Cela correspond à
62 résumés soit 52 % des 112 résumés que compte
l’échantillon A.