B. Méthodes
basées sur des études statistiques d’apparition de mots
clefs pour extraire des informations sur les interactions
génétiques ou moléculaires
Un autre courant de recherche utilise la statistique
textuelle pour obtenir des informations synthétiques sur la fonction des
gènes. Les statistiques sont effectuées sur des mots du texte ou
sur des descripteurs.
Shatkay et al. proposent un système
pour caractériser des ensembles de gènes par des mots clefs
(2000). Les auteurs font appel à des modèles statistiques qui
décrivent la fréquence des mots dans les documents. Les documents
sont représentés par les mots qu’ils utilisent. La question
qui est posée est celle de trouver les termes qui représentent le
mieux un ensemble de documents donnés. Le système est
utilisé pour interpréter des données d’expression
issues de puces à ADN.
Masys et al. proposent un système
analogue d’interprétation de données d’expressions
(2001). Il s’agit aussi d’interpréter les résultats
d’expériences issues de puces à ADN. Les groupes de
gènes, ayant des profils similaires, sont caractérisés
grâce à des données issues de Medline. Les
informations extraites de Medline sont les termes MeSH qui servent
à l’indexation des résumés. Ainsi les profils
d’expressions sont associés à des termes MeSH. Les
auteurs utilisent en particulier la classification hiérarchique des
enzymes que propose le MeSH. Nous avons là un exemple très
intéressant de liens établis entre des données
d’expériences et des données de type encyclopédique.
Ces liens sont établis par l’intermédiaire des publications.
Il s’agit de composer deux liens. Le premier lien va des données
d’expérience vers les données de publications. Il
s’agit de trouver les publications qui donnent des informations sur les
gènes dont on a des données d’expressions. Le
deuxième lien va des publications vers des données de
classification. Il s’agit d’une description des documents faite par
Medline. Le résultat est une description très riche des
données d’expériences.
Biobibliometrics [19]
est un système d’extraction d’informations sur les fonctions
des gènes basé sur des statistiques de cooccurrences des labels
(Stapley et al., 2000). Le système est basé sur le fait que
les gènes n’apparaissent pas « au hasard » dans
les textes. Il y a des corrélations. Le traitement statistique vise
à découvrir ces corrélations. Des couples de gènes
en relation sont ainsi mis en évidence. Les auteurs affirment que ces
corrélations sont liées à des similitudes fonctionnelles.
Le système permet aussi de révéler des relations qui ne
sont pas évidentes au premier abord. Il permet donc la découverte.
Le résultat est présenté sous forme de graphes. Le
système est interrogeable à partir de mots clefs. Pour
résumer, le système permet de connaître les gènes
impliqués dans un phénomène donné et leurs relations
de cooccurrence.
Stephens et al. (2001) proposent aussi un
système basé sur des statistiques de cooccurrence pour extraire
des informations sur les relations qu’entretiennent les gènes entre
eux. Les relations en question ne sont pas définies avec
précision. Il peut s’agir d’interaction, de participation
à des processus communs ou simplement de partage de
caractéristiques communes. La démarche est donc clairement celle
de la découverte. Un graphe est construit automatiquement pour visualiser
le résultat d’une requête. Dans ce graphe, les nœuds
représentent des labels et les branches représentent des relations
de cooccurrence. La longueur d’une branche est d’autant plus petite
que les labels ont tendance à être présents dans les
mêmes résumés. Cependant, l’importance d’une
cooccurrence dans le calcul va dépendre de l’importance des
gènes concernés dans la représentation du document à
l’intérieur de l’espace des documents.
L’interprétation des graphes n’est donc pas évidente.
Le système proposé permet en plus de caractériser la
relation entre les gènes. La caractérisation de la relation
qu’entretiennent deux gènes co-occurrents est
réalisée comme suit. Une liste de descripteurs possibles est
dressée avant toute expérience. Il s’agit de mots clefs que
l’on est susceptible de trouver dans les résumés. Parmi ces
descripteurs, est choisi, pour caractériser la relation celui qui est le
plus statistiquement significatif de l’ensemble de résumés
qui co-citent les gènes. Les expériences sont menées sur un
petit groupe de gènes que l’on sait être en relation. Le
dispositif est d’un maniement assez délicat puisque le nombre de
résumés doit être sensiblement le même pour chaque
label.
PubGene [20]est
un système analogue qui exploite la cooccurrence pour faire des
statistiques (Jenssen et al., 2001). Ce logiciel est dédié
à l’étude des relations que peuvent entretenir les
gènes humains entre eux. Ce système exploite plus de 10 millions
de notices bibliographiques issues de Medline. Les cooccurrences sont
recherchées dans le titre ou dans le résumé. Le
système permet aussi d’étudier des relations plus larges. Il
s’agit de trouver des gènes présents dans des articles
co-cités. La co-citation, c’est à dire, pour deux articles,
le fait d’être cité en référence
bibliographique dans un troisième article, révèle une
relation entre les deux articles. Les gènes décrits dans des
articles en relation sont en relation eux-mêmes. C’est cette
relation entre les gènes qui est étudiée. Pour faire ce
travail les auteurs ont utilisé le Science Citation
Index. Dans cette
base de données la bibliographie de chaque article est incluse dans la
notice (Quoniam, 1996).
Le premier but de PubGene est de visualiser
des graphes de gènes en relation. Cependant, les auteurs proposent
d’autres types d’utilisation, à
savoir :
- parcourir la littérature associée
à un gène donné de façon plus ou moins
large,
- rechercher la littérature relative à un
groupe de gènes,
- rechercher des termes associés à un
gène donné,
- trouver les noms officiels d’un gène
donné,
- rechercher les termes MeSH associées
à un groupe de gène,
- interpréter des données
d’expressions.