Up Previous Next Title Page Index Contents

1. Identifier le vocabulaire spécifique de l’interaction
Nous avons choisi d’aborder le sens des textes par l’analyse de leur seul vocabulaire. C’est à dire que nous ne voulons pas prendre en compte l’ordre des mots, ni même la présence simultanée de plusieurs mots. Ainsi, nous pensons que certains mots possèdent à eux seuls, en dehors de tout contexte ou de toute combinaison avec d’autres mots, un pouvoir de discriminer entre les phrases qui décrivent une interaction et celles qui n’en décrivent pas.
Downstream en est un bon exemple puisque l’on imagine mal que ce mot puisse servir à autre chose qu’à caractériser le place relative d’un gène par rapport à un autre dans une voie de signalisation. Dés lors, toute phrase qui utilise ce terme a de grande chance de décrire une interaction. Il se trouve qu’effectivement, dans le corpus étudié par Pillet, toutes les phrases qui utilisent downstream décrivent bien une interaction. Le tableau 1 donne les phrases qui utilisent le terme downstream.
Tableau 1 Notion de terme spécifique
Le tableau suivant donne toutes les phrases de Flybase qui utilisent le terme downstream. Toutes décrivent une interaction. Le terme est donc très spécifique.
Homozygous females and females of the genotype Df(1)HC244,Sxl[M1]/ovo are sterile with ovaries devoid of germ cells: ovo must act downstream of Sxl or in a different pathway
Females of the genotype Df(1)HC244,Sxl[M1]/fl(1)302 are sterile: fl(1)302 acts downstream of Sxl or in a different pathway
phl acts downstream of tor
csw functions downstream of tor
Jra is required downstream of the sev signalling pathway for development in the eye
Sor1 acts downstream of phl in the DER pathway
Genetic analysis suggests that pnt is a downstream effector of Ras85D
Kr acts downstream of ct in the Malpighian tubule regulatory pathway
srp acts downstream of hkb to promote morphogenesis and differentiation of anterior and posterior midgut
srp acts as a homeotic gene downstream of the terminal gap gene hkb to promote morphogenesis and differentiation of anterior and posterior midgut
Reduction in intensity of twi expression at gastrulation correlates well with degree of dorsalization of embryos, suggesting effect of dl mediated through its downstream target genes
The exd gene product acts with the selector homeodomain proteins, including Ubx, as a DNA binding transcription factor, thereby altering their regulation of downstream target genes
Double mutant analysis suggests that sdt acts downstream of and is activated by crb
Ems is a downstream gene that is transcriptionally regulated by Abd-B gene products
In-vivo ac is a direct downstream target of h regulation
Le terme act est lui aussi assez spécifique bien que les phrases qui utilisent ce terme ne décrivent pas toutes une interaction : 10 phrases sur un total de 60 ne décrivent pas d’interaction. Les proportions sont encore un peu moins favorables pour le terme activated puisque 14 phrases sur un total de 64 ne décrivent pas d’interaction.
Un tableau permettant de classer entre eux les termes associés à l’énoncé d’une interaction à été établi. Le tableau 2 en donne un extrait. Les calculs ont été faits, non pas sur les termes eux-même, mais sur les lemmes associés. La lemmatisation consiste à ramener les formes fléchies, à savoir les formes conjuguées et les pluriels, à des formes standardisées, à savoir l’infinitif ou le singulier.
Tableau 2 Vocabulaire spécifique d’une interaction
Les lemmes les plus spécifiques d’une interaction sont listés ici. La colonne fréquence donne le nombre de phrase qui utilisent au moins une fois le lemme. La colonne portion donne le nombre de phrase qui utilisent le terme et décrivent une interaction. Dans la colonne proportion on trouve le rapport entre les deux chiffres précédents.
Lemme
Fréquence
Portion
Proportion
synergistic
9
9
100%
positive
9
9
100%
downstream
15
15
100%
cardinal
6
6
100%
prefer
5
5
100%
autoregulate
11
11
100%
amnioserosa
7
7
100%
modulate
12
12
100%
epistasic
5
5
100%
derepress
7
7
100%
initiate
12
11
92%
class
30
27
90%
negative
19
17
89%
exert
9
8
89%
interact
149
131
88%
alter
24
21
88%
multiple
8
7
88%
ontogenetic
8
7
88%
sequence-motif
7
6
86%
pc-group
7
6
86%
zygote
44
37
84%
downregulate
6
5
83%
pre-mrna
6
5
83%
supply
6
5
83%
r7
6
5
83%
act
60
50
83%
trans-act
6
5
83%
transductor
6
5
83%
On voit apparaître le lemme downstream en haut du tableau et le lemme act en bas du tableau. En revanche, le dernier lemme de l’exemple Activated n’apparaît pas dans l’extrait présenté ici.
La proportion des textes qui décrivent une interaction parmi ceux qui utilisent un terme donné paraît être un bon indicateur de la spécificité du lemme. On nommera cette quantité spécificité. La définition en est donnée en page 43.
Définition 1 Spécificité d’un lemme
Nlemme est le nombre de phrases qui utilisent le lemme, et nlemme est le nombre de phrases décrivant une interaction qui utilisent le lemme.
PhD01.png

Up Previous Next Title Page Index Contents