A. Travaux
sur la reconnaissance des gènes ou de leurs produits basés sur
l’utilisation de listes de termes
La méthode la plus simple pour
reconnaître l’utilisation d’un nom de gène dans un
texte est l’utilisation d’un lexique, autrement dit
d’une liste non structurée de termes.
D’une façon
générale, nous emploierons le terme de lexique pour
désigner une simple liste. Dans le cas où la structuration des
données est suffisante pour permettre de savoir que plusieurs termes
désignent la même entité, nous emploierons le terme de
dictionnaire.
Nous réserverons le terme de
nomenclature
dans le cas où les entités elles-mêmes sont
structurées en classe. Il s’agit par exemple de protéines
organisées en familles.
L’avantage d’un dictionnaire sur un
lexique est qu’il rend possible l’identification précise
d’un gène, alors que l’utilisation d’un lexique ne le
permet pas.
Il existe de nombreux systèmes
d’extraction d’informations sur les interactions
génétiques ou moléculaires et plus
généralement sur la fonction des gènes. Les auteurs
prennent souvent le parti de ne travailler que sur un ensemble de gènes
défini à l’avance. Ils renoncent de ce fait à des
études globales sur le génome, mais cela leur permet de se
concentrer sur les problèmes que pose la nomenclature des gènes.
Dans ce cas, l’utilisateur a la possibilité d’intervenir sur
les dictionnaires utilisés et de rajouter, par exemple, des synonymes qui
manqueraient.
Andrade et al. dans leur travail
d’extraction de mots clefs et de phrases clefs décrivant au mieux
une famille de protéines, utilisent une simple liste de protéines
(2001). La liste contient des noms synonymes mais les auteurs remarquent
qu’ils ne sont pas tous répertoriés dans la liste
qu’ils utilisent, et que cela oblige l’utilisateur à
compléter manuellement la liste.
Cependant dans un autre travail auquel Andrade a
participé, portant cette fois sur l’extraction d’informations
sur les interactions entre protéines, les auteurs parviennent à
s’abstraire de ce problème en travaillant sur un petit nombre de
gènes (Blaschke et al., 1999). Dans ce travail, les auteurs
construisent des graphes de labels co-occurrents, c’est à dire des
labels qui apparaissent dans les mêmes textes.
Le fait que le système soit utilisé sur
un petit nombre de gènes permet de travailler avec une liste de synonymes
incomplète. Dans ce système, Medline est interrogé
avec ce petit nombre de protéines, que l’on sait être
impliquées dans un même processus. La lecture des
résumés obtenus permet de rajouter des synonymes à la liste
de départ. Une nouvelle interrogation de Medline est alors faite
avec le nouvel ensemble de noms de protéine.
Nous remarquons que le système proposé
ne prend pas intégralement en compte le phénomène de
synonymie, puisque dans le graphe ce n’est pas les protéines qui
sont représentés mais les labels. Ainsi, il se peut que deux
nœuds différents du graphe concernent en réalité la
même protéine.
Le problème des homonymes (protéine
ayant le même nom) est aussi remarqué par les auteurs. Là
encore l’interrogation sur un petit nombre de protéines permet de
contourner le problème. Les éventuels gènes homonymes sont,
sauf cas exceptionnel, impliqués dans des phénomènes
très différents du phénomène étudié.
Ils seront donc cités dans d’autres résumés. Ainsi,
il n’existera pas de résumé citant à la fois un
gène d’intérêt et un gène homonyme. Le graphe
de gènes co-occurrents, qui est le résultat final de
l’analyse, sera donc exact.
PathBinder,
qui est un système d’extraction d’informations sur les
interactions, est un exemple de système qui se concentre sur une liste de
gènes définie par avance (Qi et
al., 2000). La recherche sur un ou plusieurs gènes donnés est
élargie grâce à des listes de synonymes. Ces synonymes sont
extraits de la nomenclature maintenue par le HUGO Gene Nomenclature
Committee et par la base de données
OMIM. Chaque synonyme
est présenté à l’utilisateur pour
vérification.
HUGO
est une organisation internationale qui organise la coopération autour du
séquençage et de la cartographie du génome humain. Elle
possède un comité pour aider à la standardisation des noms
de gènes. Ce comité rédige des recommandations et maintient
une base de données sur la nomenclature des
gènes.
Medminer
est un système de recherche d’information sur la fonction des
gènes et leurs relations à partir de résumés
Medline (Tanabe et al., 1999). Il
permet de sélectionner des résumés sur la base de la
présence de certains mots clefs et de certains gènes ou couples de
gènes. Ce système prend en compte la synonymie grâce aux
informations extraites de Genecards. Les synonymes sont
présentés à l’utilisateur pour validation. De ce
fait, le système est adapté à la recherche sur un petit
nombre de gènes.
A l’inverse des travaux présentés
précédemment, PubGene travaille
d’emblée sur un très grand nombre de gènes, ce qui
lui permet de présenter des résultats basés sur des
statistiques
(Jenssen
et al., 2001). PubGene est un système d’extraction
d’informations sur les relations entre les gènes humains. Il
travaille à partir de résumés issus de Medline. Il
exploite la cooccurrence, c’est à dire le fait que plusieurs
gènes soient cités dans le même texte. Il est donc important
que les alias soient reconnus et correctement attribués aux gènes
associés. Le système prend donc en charge la synonymie. Les
informations sur la nomenclature des gènes humains ont été
obtenues par compilation de données provenant de différentes bases
de données. Les bases de données utilisées sont : la
base de donnée du HUGO Gene Nomenclature Committee,
GDB, GENATLAS et
LocusLink [14].
Cette dernière est une base de données sur la localisation
chromosomique des gènes.
Stephens et al. proposent un système
analogue (2001). Il s’agit d’extraction d’informations sur les
relations qu’entretiennent les gènes. Le système utilise
aussi un lexique défini avant toute expérience de nom de
gènes ou de protéines.
Cependant la tâche d’identification des
gènes dans les textes n’a pas été
évaluée en tant que telle. C’est le résultat final,
à savoir le réseau des gènes co-occurrents qui est
évalué. Ce réseau est évalué du point de vue
de sa pertinence pour le biologiste.
Rindflech et al., dans leur travail en
recherche d’informations sur les liaisons moléculaires entre
macro-molécules, détectent les noms des objets en interactions
grâce à leur fonction grammaticale dans la phrase et les
identifient à des entrées de GenBank quand cela est
possible (1999). Dans son travail sur l’extraction de relations entre
médicaments, gènes et cellules, les noms de gènes sont
reconnus comme tels grâce à l’utilisation d’un
thésaurus (Rindflesch et al., 2000). Ce thésaurus,
l’UMLS
Metathesaurus
(Humphreys et al., 1998), est
spécialisé dans le domaine médical. Il lui permet de
reconnaître des objets de type cellule, médicament ou gène
et de faire la distinction entre ces trois types d’objets. Pour les
gènes, une liste de noms synonymes est adjointe à
l’aide de GeneCards.
L’université de Tokyo développe
un système d’extraction d’informations sur les interactions
protéine-protéine (Ono et al., 2001). Dans ce
système, la reconnaissance des noms de protéines se fait par
l’utilisation d’un dictionnaire sur les protéines. Ce
dictionnaire a été créé semi-automatiquement par une
analyse de la littérature sur laquelle nous reviendrons dans la partie
réservée à l’étude de la bibliographie sur la
création automatique de dictionnaire à partir de textes
(Yoshida et al., 2000).
En France, on peut noter le travail de Turner et
al. sur la création de liens entre SwissProt et Medline
(2000). Dans ce travail, les résumés sont indexés avec des
mots clefs extraits de SwissProt. Cette indexation permet de créer des
liens d’un résumé vers des données factuelles
contenues dans SwissProt. Les noms de protéines sont utilisés
comme mots clefs pour indexer les résumés Medline. Le
système est évalué du point de vue de la
représentation documentaire. La question est de savoir si
l’indexation des résumés est pertinente du point de vue
d’une interrogation documentaire. Les auteurs n’ont pas
évalué, en terme de rappel et de précision, leur technique
de reconnaissance des protéines.