Up Previous Next Title Page Index Contents

B. Méthodes basées sur des études statistiques d’apparition de mots clefs pour extraire des informations sur les interactions génétiques ou moléculaires

Un autre courant de recherche utilise la statistique textuelle pour obtenir des informations synthétiques sur la fonction des gènes. Les statistiques sont effectuées sur des mots du texte ou sur des descripteurs.
Shatkay et al. proposent un système pour caractériser des ensembles de gènes par des mots clefs (2000). Les auteurs font appel à des modèles statistiques qui décrivent la fréquence des mots dans les documents. Les documents sont représentés par les mots qu’ils utilisent. La question qui est posée est celle de trouver les termes qui représentent le mieux un ensemble de documents donnés. Le système est utilisé pour interpréter des données d’expression issues de puces à ADN.
Masys et al. proposent un système analogue d’interprétation de données d’expressions (2001). Il s’agit aussi d’interpréter les résultats d’expériences issues de puces à ADN. Les groupes de gènes, ayant des profils similaires, sont caractérisés grâce à des données issues de Medline. Les informations extraites de Medline sont les termes MeSH qui servent à l’indexation des résumés. Ainsi les profils d’expressions sont associés à des termes MeSH. Les auteurs utilisent en particulier la classification hiérarchique des enzymes que propose le MeSH. Nous avons là un exemple très intéressant de liens établis entre des données d’expériences et des données de type encyclopédique. Ces liens sont établis par l’intermédiaire des publications. Il s’agit de composer deux liens. Le premier lien va des données d’expérience vers les données de publications. Il s’agit de trouver les publications qui donnent des informations sur les gènes dont on a des données d’expressions. Le deuxième lien va des publications vers des données de classification. Il s’agit d’une description des documents faite par Medline. Le résultat est une description très riche des données d’expériences.
Biobibliometrics [19] est un système d’extraction d’informations sur les fonctions des gènes basé sur des statistiques de cooccurrences des labels (Stapley et al., 2000). Le système est basé sur le fait que les gènes n’apparaissent pas « au hasard » dans les textes. Il y a des corrélations. Le traitement statistique vise à découvrir ces corrélations. Des couples de gènes en relation sont ainsi mis en évidence. Les auteurs affirment que ces corrélations sont liées à des similitudes fonctionnelles. Le système permet aussi de révéler des relations qui ne sont pas évidentes au premier abord. Il permet donc la découverte. Le résultat est présenté sous forme de graphes. Le système est interrogeable à partir de mots clefs. Pour résumer, le système permet de connaître les gènes impliqués dans un phénomène donné et leurs relations de cooccurrence.
Stephens et al. (2001) proposent aussi un système basé sur des statistiques de cooccurrence pour extraire des informations sur les relations qu’entretiennent les gènes entre eux. Les relations en question ne sont pas définies avec précision. Il peut s’agir d’interaction, de participation à des processus communs ou simplement de partage de caractéristiques communes. La démarche est donc clairement celle de la découverte. Un graphe est construit automatiquement pour visualiser le résultat d’une requête. Dans ce graphe, les nœuds représentent des labels et les branches représentent des relations de cooccurrence. La longueur d’une branche est d’autant plus petite que les labels ont tendance à être présents dans les mêmes résumés. Cependant, l’importance d’une cooccurrence dans le calcul va dépendre de l’importance des gènes concernés dans la représentation du document à l’intérieur de l’espace des documents. L’interprétation des graphes n’est donc pas évidente. Le système proposé permet en plus de caractériser la relation entre les gènes. La caractérisation de la relation qu’entretiennent deux gènes co-occurrents est réalisée comme suit. Une liste de descripteurs possibles est dressée avant toute expérience. Il s’agit de mots clefs que l’on est susceptible de trouver dans les résumés. Parmi ces descripteurs, est choisi, pour caractériser la relation celui qui est le plus statistiquement significatif de l’ensemble de résumés qui co-citent les gènes. Les expériences sont menées sur un petit groupe de gènes que l’on sait être en relation. Le dispositif est d’un maniement assez délicat puisque le nombre de résumés doit être sensiblement le même pour chaque label.
PubGene [20]est un système analogue qui exploite la cooccurrence pour faire des statistiques (Jenssen et al., 2001). Ce logiciel est dédié à l’étude des relations que peuvent entretenir les gènes humains entre eux. Ce système exploite plus de 10 millions de notices bibliographiques issues de Medline. Les cooccurrences sont recherchées dans le titre ou dans le résumé. Le système permet aussi d’étudier des relations plus larges. Il s’agit de trouver des gènes présents dans des articles co-cités. La co-citation, c’est à dire, pour deux articles, le fait d’être cité en référence bibliographique dans un troisième article, révèle une relation entre les deux articles. Les gènes décrits dans des articles en relation sont en relation eux-mêmes. C’est cette relation entre les gènes qui est étudiée. Pour faire ce travail les auteurs ont utilisé le Science Citation Index. Dans cette base de données la bibliographie de chaque article est incluse dans la notice (Quoniam, 1996).
Le premier but de PubGene est de visualiser des graphes de gènes en relation. Cependant, les auteurs proposent d’autres types d’utilisation, à savoir :

[19] Accessible sur http://www.bmm.icnet.uk/~stapleyb/biobib/
[20] Accessible sur http://www.pubgene.org/

Up Previous Next Title Page Index Contents