Up Previous Next Title Page Index Contents

2. Difficulté introduite par la présence de plus de deux gènes dans une même phrase
Nous avons constaté l’existence de descriptions d’interaction dans des phrases qui comptent plus de deux occurrences de gène. Ceci est illustré dans l’exemple suivant.
Exemple 23 Plus de deux gènes dans une même phrase.
Dans cette phrase, 9 gènes sont cités et il est question d’interaction mais elles ne sont qu’au nombre de 9, alors qu’il pourrait y en avoir jusqu’à 72 si chaque gène en présence interagissait avec chacun des autres.
Males hemizygous for a temperature-sensitive allele, ph2, are lethal when heterozygous with mutants in Asx, Pc, Pcl, Psc, Sce and Scm, and with E(Pc) and Su(z)2.
Dans les phrases qui ne comptent que deux occurrences de gènes, la situation est simple : s’il y a interaction, on connaît immédiatement les deux partenaires. Des exceptions existent car un des partenaires d’une interaction peut ne pas être cité, mais elles sont rares. En revanche, dans le cas d’une phrase pour laquelle il existe d’avantages d’occurrences de gènes, on ne peut pas prévoir entre quels gènes il y a interaction, à supposer qu’il y en ait.
Ce type de problème est important car comme on peut le voir dans le tableau 32, seulement 31% des reconnaissances d’interactions sont issues d’une phrase qui contient exactement deux occurrences de gène.
Tableau 32 Interaction et nombre d’occurrence de gène
Le tableau donne le nombre de reconnaissance d’interactions (colonne du milieu) en fonction du nombre d’occurrence de gènes dans la phrase (colonne de gauche). Cette statistique est faite à partir des annotations manuelles de l’échantillon A.
Gène
Interaction
Proportion
0
0
0%
1
13
5%
2
75
31%
3
53
22%
4
43
18%
5
35
15%
6 ou plus
22
9%
0 ou plus
241
100%

Tableau 33 Labels assez ambigus
Les labels présentés prêtent à confusion avec des termes d’anglais courant. Le gène désigné est donné dans la colonne de droite.
Label
Gène
abdominal
abdominal (abd)
act
actidione-sensitive (act)
al
aristaless (al)
ambiguous
ambiguous (abg)
antenna
empty spiracles (ems)
arrest
arrest (aret)
band
band (bn)
blocked
blocked (blc)
blood
blood element (blood)
bp
bulge (bul)
brief
brief (bf)
broad
broad (br)
c
curved (c)
condensed
condensed (con)
cortex
cortex (cort)
dark
dark (dk)
dark
darkener of white-eosin (dark)
defective
defective (df)
depleted
depleted (ded)
depressed
depressed (dep)
divergent
divergent (dv)
double
(double)
early
early (eay)
early
lodestar (lds)
ectodermal
ectodermal (ect)
extended
extended (ext)
eye
clift (cli)
eye
eyeless (ey)
h
hairy (h)
high
high (hi)
inactive
inactive (iav)
juvenile
juvenile (juv)
labial
labial (lab)
leg
runt (run)
limited
limited (lm)
lines
lines (lin)
ll
lanceolate (ll)
M
(anon-ESTCL2c12)
map
midgut amylase pattern PMG (mapP)
mid
midline (mid)
midline
midline (mid)
midway
midway (mdy)
missing
missing (msg)
multiple
multiple (mul)
N
Notch (N)
naked cuticle
naked cuticle (nkd)
narrow
narrow (nw)
paired
paired (prd)
period
period (per)
pre
presto (pre)
R
Roughened (R)
r
rudimentary (r)
raised
raised (rsd)
ray
rayon (ray)
re
reduced eyes (re)
re
rough eye (rey)
reduced
reduced (rd)
retained
retained (retn)
reversed polarity
reversed polarity (repo)
rudimentary
rudimentary (r)
s
sable (s)
SD
Segregation distorter (Sd)
separated
separated (sep)
shifted
shifted (shf)
similar
similar (sima)
small
small (sml)
smaller
smaller (sma)
spliced
torso (tor)
spread
spread (sprd)
stripe
stripe (sr)
stripes
stripes (str)
terminus
terminus (term)
trunk
trunk (trk)
twisted
twisted (tw)
ve
rhomboid (rho)
vein
vein (vn)
Tableau 34 Labels faiblement ambigus.
Dans le doute, ils serviront à l’identification des gènes dans les textes.
Label
Gène
Remarque
abbreviated
abbreviated (abb)

abrupt
abrupt (ab)

adipose
adipose (adp)

amalgam
Amalgam (Ama)

Amalgam
Amalgam (Ama)

amber
amber (amb)
signifie ambre, terme rare
approximated
approximated (app)

Attenuated
Attenuated (At)

Bag
Bag (Bg)

bent
bent (bt)
signifie tordu, terme rare
blunt
blunt (blu)
signifie émoussé, terme rare
bordered
bordered (bord)
signifie en bordure de, terme rare
Bristle
Bristle (Bl)
signifie soie de porc, terme rare
cardinal
cardinal (cd)

clipped
clipped (cp)
signfie taillé, terme rare
compressed
compressed (com)

Dense
Dense (Dns)
ne se confond pas avec dense
displaced
displaced (dd)

Drop
Drop (Dr)

erratic
erratic (err)

expanded
expanded (ex)
signifie élargir, terme rare
Large
Large (Lg)

Malformed
Malformed (Mal)

miniature
miniature (m)

Minute
Minute (M(1)7C)
ne se confond pas avec minute
morula
morula (mr)

oblique
oblique (ob)

opaque
opaque (op)

Open
Open (On)
ne se confond pas avec open
pale
pale (ple)

pointed
pointed (pnt)

silver
silver (svr)

Spread
Spread (Spr)
ne se confond pas avec spread
sticky
sticky (sti)
signifie colant, terme rare
Streak
Streak (Sk)
ne se confond pas avec streak
Stripe
stripe (sr)
ne se confond pas avec stripe
syndrome
syndrome (syn)

thread
thread (th)
signifie fil, terme rare
Tilt
tilt (tt)
signifie inclinaison, terme rare
Tiny
tiny (ty)
signifie foin, terme rare
Tumor
Tumor (TU)
ne se confond pas avec tumor
uncoordinated
uncoordinated (unc)

uneven
uneven (un)
signifie impair, terme rare
Unfolded
Unfolded (Uf)
ne se confond pas avec unfolded
Vein
Vein (Vn)

daughterless
daughterless (da)
Signifie sans fille

Tableau 35 Collection de gènes
Les labels présentés désignent une collection de gènes. Chacun de ces labels a été trouvé au moins une fois au cours de l’annotation. Chaque ligne du tableau correspond à une définition présente dans le dictionnaire issu de Flybase. Ces définitions étant imprécises, elles sont mises de côté dans la reconnaissance des gènes.
Label
Gène

Spectrin
alpha Spectrin (alpha-Spec)

Spectrin
beta Spectrin (beta-Spec)

spectrin
alpha Spectrin (alpha-Spec)

spectrin
beta Spectrin (beta-Spec)

ASC
asense (ase)

ASC
achaete (ac)

BXC
abdominal A (abd-A)

BXC
Abdominal B (Abd-B)

BXC
Ultrabithorax (Ubx)

Actin
Actin 42A (Act42A)

Actin
Actin 57B (Act57B)

Actin
Actin 79B (Act79B)

Actin
Actin 87E (Act87E)

Actin
Actin 88F (Act88F)

Actin
Actin 5C (Act5C)

actin
Actin 42A (Act42A)

actin
Actin 5C (Act5C)

hsp70
Heat-shock-protein-70Ab (Hsp70Ab)

hsp70
Heat-shock-protein-70Ba (Hsp70Ba)

hsp70
Heat-shock-protein-70Bb (Hsp70Bb)

hsp70
Heat-shock-protein-70Aa (Hsp70Aa)

hsp70
Heat-shock-protein-70Bc (Hsp70Bc)

U2AF
(U2af50)

U2AF
(U2af65)

U2AF
(U2af35)

histone
Histone H2A (His2A)

histone
Histone H1 (His1)

histone
Histone H2B (His2B)

histone
Histone H4 (His4)

histone
Histone H3 (His3)

gooseberry
gooseberry distal (gsb-d)

gooseberry
gooseberry proximal (gsb-p)

Amylase
Amylase distal (Amy-d)

Amylase
Amylase proximal (Amy-p)

amylase
Amylase proximal (Amy-p)

amylase
Amylase distal (Amy-d)


Tableau 36 Orthographie absentes de Flybase
Les deux premières colonnes indiquent la définition absente du dictionnaire extrait de Flybase, et la troisième le nombre de reconnaissance faite par l’annotateur.
Label
Gène
Fréquence
Wingless
wingless (wg)
12
Armadillo
armadillo (arm)
11
SUHW
suppressor of Hairy wing (su(Hw))
9
Dorsal
dorsal (dl)
8
extramacrochaete
extra macrochaetae (emc)
6
even-skipped
even skipped (eve)
6
UBX
Ultrabithorax (Ubx)
5
dU2AF50
U2af50
5
DPP
decapentaplegic (dpp)
4
calmodulin
Calmodulin (Cam)
4
Bicoid
bicoid (bcd)
3
Abdominal-B
Abdominal B (Abd-B)
3
Tube
tube (tub)
3
Pelle
pelle (pll)
3
Hairless
Hairless (H)
3
Dm cdc2c
cdc2c
3
gooseberry-distal
gooseberry distal (gsb-d)
3
gooseberry-proximal
gooseberry proximal (gsb-p)
3
abdominal-A
abdominal A (abd-A)
3
Nos
nanos (nos)
3
beta 1 tubulin
betaTubulin56D (betaTub56D)
3
cyclin E
Cyclin E (CycE)
3
Sry delta
Serendipity delta (Sry-delta)
3
Sex-lethal
Sex lethal (Sxl)
2
Cactus
cactus (cact)
2
Torso
torso (tor)
2
EGF-Receptor
EGF receptor (Egfr)
2
Daughterless
daughterless (da)
2
extra sex combs
extra sexcombs (esc)
2
TmI
Tropomyosin 1 (Tm1)
2
NINAC
neither inactivation nor afterpotential C (ninaC)
2
Grk
gurken (grk)
1
lethal-of- scute
lethal of scute (l(1)sc)
1
alpha- spectrin
alpha Spectrin (alpha-Spec)
1
TOLLOID
tolloid (tld)
1
Ultra-bithorax
Ultrabithorax (Ubx)
1
tropomyosin I
Tropomyosin 1 (Tm1)
1
vgBG
vestigial (vg)
1
Lethal of Scute
lethal of scute (l(1)sc)
1
Scute
scute (sc)
1
Sevenless
sevenless (sev)
1
suppressor of Hairy-wing
suppressor of Hairy wing (su(Hw))
1
ANTP
Antennapedia (Antp)
1
TmII
Tropomyosin 2 (Tm2)
1
Protein Kinase A
Protein Kinase A (PKA)
1
serendipity delta
Serendipity delta (Sry-delta)
1
acetylcholinesterase
Acetylcholine esterase (Ace)
1
Segregation Distorter
Segregation distorter (Sd)
1
SCW
screw (scw)
1
troponin I
wings up A (wupA)
1
Hunchback
hunchback (hb)
1
Runt
runt (run)
1
Abdominal- A
abdominal A (abd-A)
1
Zeste-White 3
shaggy (sgg)
1
histone H1
Histone H1 (His1)
1
AceIJ29
Acetylcholine esterase (Ace)
1
AceIJ40
Acetylcholine esterase (Ace)
1
Hsp90
Heat shock protein 83 (Hsp83)
1
EMS
empty spiracles (ems)
1
double sex
doublesex (dsx)
1
absent, small or homeotic discs1
absent, small, or homeotic discs 1 (ash1)
1
histone H3
Histone H3 (His3)
1
D- Mek
Downstream of raf1 (Dsor1)
1
PSI
P-element somatic inhibitor (Psi)
1
bigbrain
big brain (bib)
1
TRA
transformer (tra)
1
extra-macrochaete
extra macrochaetae (emc)
1
Achaete
achaete (ac)
1
Beta Tub56D
betaTubulin56D (betaTub56D)
1
Beta 3 tubulin
betaTubulin60D (betaTub60D)
1
Phosrestin II
Arrestin A (Arr1)
1
Zeste-white 3
shaggy (sgg)
1
Tableau 37 Définitions aberrantes
Certaines définitions sont manifestement inappropriées pour identifier des gènes à l’intérieur de texte. Le label de la première colonne est sensé désigner le gène de la deuxième colonne. Plus de 4500 définitions de cette sorte ont été dénombrées. Nous listons ici celles qui concernent les gènes les plus répandus.
Label
Gène
l(2)22Fa
decapentaplegic (dpp)
Hin-d
decapentaplegic (dpp)
ho
decapentaplegic (dpp)
Haplo-insufficient
decapentaplegic (dpp)
l(2)10638
decapentaplegic (dpp)
M(2)23AB
decapentaplegic (dpp)
M(2)LS1
decapentaplegic (dpp)
I
wingless (wg)
Complementation group I
wingless (wg)
l(2)02657
wingless (wg)
l(2)rO727
wingless (wg)
bx
Ultrabithorax (Ubx)
bithorax
Ultrabithorax (Ubx)
l(3)89Eb
Ultrabithorax (Ubx)
prd4
bicoid (bcd)
PRD gene 4
bicoid (bcd)
mat(2)dorsal
dorsal (dl)
l(1)6Fa
Sex lethal (Sxl)
Fl
Sex lethal (Sxl)
Female lethal
Sex lethal (Sxl)
l(1)3Cb
Notch (N)
l(1)N
Notch (N)
T5
achaete (ac)
l(3)08247
hairy (h)
l(3)85Ah
hunchback (hb)
l(3)rM384
hairy (h)
transcript group V
engrailed (en)
V
engrailed (en)
Humeral
Antennapedia (Antp)
l(3)84Ba
Antennapedia (Antp)
ANTC
Antennapedia (Antp)
Hu
Antennapedia (Antp)
l(2)57Ea
EGF receptor (Egfr)
l(2)57DEFa
EGF receptor (Egfr)
l(2)57EFa
EGF receptor (Egfr)
l(1)IV
extradenticle (exd)
Drosophila epidermal growth factor receptor homologue
EGF receptor (Egfr)
T4
scute (sc)
l(1)1Ba
scute (sc)
l(2)br28
snail (sna)
l(3)br28
snail (sna)
l(2)35Db
snail (sna)
l35Db
snail (sna)
br28
snail (sna)
l(3)84Ag
fushi tarazu (ftz)
l(3)07117
nanos (nos)
l(3)j6E3
squid (sqd)
l(2)49Ea
Posterior sex combs (Psc)
l(2)vr14
Posterior sex combs (Psc)
vr14
Posterior sex combs (Psc)

Tableau 38 Liste des tables présentes dans la base de données
La deuxième colonne renvoie au code de la section qui décrit la table.
Intitulé
Section
Contenu de la table
AR
Annotateur Résumé. Personne qui a annoté le résumé
CD
Confiance dans la Définition. Type de traitement à donner à la définition en fonction de la confiance qu’on lui porte.
CI
Couple de gènes en Interaction. Reconnaissance d’interaction.
DG
Définition de gène. Association entre un gène et un label.
EB
Entité Biologique. Rubrique du dictionnaire des gènes.
FGA
Filiation Gène ou Assimilé. Table de relation père-fils pour les gènes.
GA
Gène ou objet assimilé.
IPF_PF_IRM_
Phrase issue de Flybase.
Lm
Lemme. Forme lemmatisé des termes spécifiques de l’interaction.
MB
Mot brut. Forme non lemmatisé des mots spécifiques de l’interaction
NG
Nom de Gène. Label, terme utilisé pour désigner un gène.
OED
Origine de l’Enregistrement du Dictionnaire. Origine de la définition de gène.
OI
Ordre dans l’Interaction.
ORM
Origine du Résumé Medline.
PGA
Provenance Gène ou Assimilé.
PM
Phrase Medline.
PRG
Processus de Reconnaissance des Gènes. Etape dans le processus de reconnaissance des gènes dans les textes.
PRI
Processus de Reconnaissance des Interactions. Type de reconnaissance pour les interactions.
RDG
Reconnaissance de Définition de Gène. Identification d'une définition de gène en un lieu donné d'un texte.
RM
Résumé Medline. Le résumé en entier.
RMB
Reconnaissance Mot Brut. Identification d'un mot brut dans une phrase en un lieu donné.
RNG
Reconnaissance Nom de Gène. Identification d'un label dans une phrase à une certaine position.
RNGR
Reconnaissance Nom de Gène Réflexive. Identification d'un label dans un autre label en une position donnée.
RT
Relation de Transformation. Type de transformation qui mène d'un label à un autre label.
TNG
Transformation Nom de Gène. Relation de transformation entre les labels.
TR
Type de Reconnaissance. Catégorie de labels et donc traitement approprié à faire lors de la reconnaissance.
Ty
Type de la définition. Catégorie Nom abrégé, Nom Complet, Synonyme...

Chapitre 2


Up Previous Next Title Page Index Contents