Up Previous Next Title Page Index Contents

A. Travaux sur la reconnaissance des gènes ou de leurs produits basés sur l’utilisation de listes de termes

La méthode la plus simple pour reconnaître l’utilisation d’un nom de gène dans un texte est l’utilisation d’un lexique, autrement dit d’une liste non structurée de termes.
D’une façon générale, nous emploierons le terme de lexique pour désigner une simple liste. Dans le cas où la structuration des données est suffisante pour permettre de savoir que plusieurs termes désignent la même entité, nous emploierons le terme de dictionnaire. Nous réserverons le terme de nomenclature dans le cas où les entités elles-mêmes sont structurées en classe. Il s’agit par exemple de protéines organisées en familles.
L’avantage d’un dictionnaire sur un lexique est qu’il rend possible l’identification précise d’un gène, alors que l’utilisation d’un lexique ne le permet pas.
Il existe de nombreux systèmes d’extraction d’informations sur les interactions génétiques ou moléculaires et plus généralement sur la fonction des gènes. Les auteurs prennent souvent le parti de ne travailler que sur un ensemble de gènes défini à l’avance. Ils renoncent de ce fait à des études globales sur le génome, mais cela leur permet de se concentrer sur les problèmes que pose la nomenclature des gènes. Dans ce cas, l’utilisateur a la possibilité d’intervenir sur les dictionnaires utilisés et de rajouter, par exemple, des synonymes qui manqueraient.
Andrade et al. dans leur travail d’extraction de mots clefs et de phrases clefs décrivant au mieux une famille de protéines, utilisent une simple liste de protéines (2001). La liste contient des noms synonymes mais les auteurs remarquent qu’ils ne sont pas tous répertoriés dans la liste qu’ils utilisent, et que cela oblige l’utilisateur à compléter manuellement la liste.
Cependant dans un autre travail auquel Andrade a participé, portant cette fois sur l’extraction d’informations sur les interactions entre protéines, les auteurs parviennent à s’abstraire de ce problème en travaillant sur un petit nombre de gènes (Blaschke et al., 1999). Dans ce travail, les auteurs construisent des graphes de labels co-occurrents, c’est à dire des labels qui apparaissent dans les mêmes textes.
Le fait que le système soit utilisé sur un petit nombre de gènes permet de travailler avec une liste de synonymes incomplète. Dans ce système, Medline est interrogé avec ce petit nombre de protéines, que l’on sait être impliquées dans un même processus. La lecture des résumés obtenus permet de rajouter des synonymes à la liste de départ. Une nouvelle interrogation de Medline est alors faite avec le nouvel ensemble de noms de protéine.
Nous remarquons que le système proposé ne prend pas intégralement en compte le phénomène de synonymie, puisque dans le graphe ce n’est pas les protéines qui sont représentés mais les labels. Ainsi, il se peut que deux nœuds différents du graphe concernent en réalité la même protéine.
Le problème des homonymes (protéine ayant le même nom) est aussi remarqué par les auteurs. Là encore l’interrogation sur un petit nombre de protéines permet de contourner le problème. Les éventuels gènes homonymes sont, sauf cas exceptionnel, impliqués dans des phénomènes très différents du phénomène étudié. Ils seront donc cités dans d’autres résumés. Ainsi, il n’existera pas de résumé citant à la fois un gène d’intérêt et un gène homonyme. Le graphe de gènes co-occurrents, qui est le résultat final de l’analyse, sera donc exact.
PathBinder, qui est un système d’extraction d’informations sur les interactions, est un exemple de système qui se concentre sur une liste de gènes définie par avance (Qi et al., 2000). La recherche sur un ou plusieurs gènes donnés est élargie grâce à des listes de synonymes. Ces synonymes sont extraits de la nomenclature maintenue par le HUGO Gene Nomenclature Committee et par la base de données OMIM. Chaque synonyme est présenté à l’utilisateur pour vérification.
HUGO est une organisation internationale qui organise la coopération autour du séquençage et de la cartographie du génome humain. Elle possède un comité pour aider à la standardisation des noms de gènes. Ce comité rédige des recommandations et maintient une base de données sur la nomenclature des gènes.
Medminer est un système de recherche d’information sur la fonction des gènes et leurs relations à partir de résumés Medline (Tanabe et al., 1999). Il permet de sélectionner des résumés sur la base de la présence de certains mots clefs et de certains gènes ou couples de gènes. Ce système prend en compte la synonymie grâce aux informations extraites de Genecards. Les synonymes sont présentés à l’utilisateur pour validation. De ce fait, le système est adapté à la recherche sur un petit nombre de gènes.
A l’inverse des travaux présentés précédemment, PubGene travaille d’emblée sur un très grand nombre de gènes, ce qui lui permet de présenter des résultats basés sur des statistiques (Jenssen et al., 2001). PubGene est un système d’extraction d’informations sur les relations entre les gènes humains. Il travaille à partir de résumés issus de Medline. Il exploite la cooccurrence, c’est à dire le fait que plusieurs gènes soient cités dans le même texte. Il est donc important que les alias soient reconnus et correctement attribués aux gènes associés. Le système prend donc en charge la synonymie. Les informations sur la nomenclature des gènes humains ont été obtenues par compilation de données provenant de différentes bases de données. Les bases de données utilisées sont : la base de donnée du HUGO Gene Nomenclature Committee, GDB, GENATLAS et LocusLink [14]. Cette dernière est une base de données sur la localisation chromosomique des gènes.
Stephens et al. proposent un système analogue (2001). Il s’agit d’extraction d’informations sur les relations qu’entretiennent les gènes. Le système utilise aussi un lexique défini avant toute expérience de nom de gènes ou de protéines.
Cependant la tâche d’identification des gènes dans les textes n’a pas été évaluée en tant que telle. C’est le résultat final, à savoir le réseau des gènes co-occurrents qui est évalué. Ce réseau est évalué du point de vue de sa pertinence pour le biologiste.
Rindflech et al., dans leur travail en recherche d’informations sur les liaisons moléculaires entre macro-molécules, détectent les noms des objets en interactions grâce à leur fonction grammaticale dans la phrase et les identifient à des entrées de GenBank quand cela est possible (1999). Dans son travail sur l’extraction de relations entre médicaments, gènes et cellules, les noms de gènes sont reconnus comme tels grâce à l’utilisation d’un thésaurus (Rindflesch et al., 2000). Ce thésaurus, l’UMLS Metathesaurus (Humphreys et al., 1998), est spécialisé dans le domaine médical. Il lui permet de reconnaître des objets de type cellule, médicament ou gène et de faire la distinction entre ces trois types d’objets. Pour les gènes, une liste de noms synonymes est adjointe à l’aide de GeneCards.
L’université de Tokyo développe un système d’extraction d’informations sur les interactions protéine-protéine (Ono et al., 2001). Dans ce système, la reconnaissance des noms de protéines se fait par l’utilisation d’un dictionnaire sur les protéines. Ce dictionnaire a été créé semi-automatiquement par une analyse de la littérature sur laquelle nous reviendrons dans la partie réservée à l’étude de la bibliographie sur la création automatique de dictionnaire à partir de textes (Yoshida et al., 2000).
En France, on peut noter le travail de Turner et al. sur la création de liens entre SwissProt et Medline (2000). Dans ce travail, les résumés sont indexés avec des mots clefs extraits de SwissProt. Cette indexation permet de créer des liens d’un résumé vers des données factuelles contenues dans SwissProt. Les noms de protéines sont utilisés comme mots clefs pour indexer les résumés Medline. Le système est évalué du point de vue de la représentation documentaire. La question est de savoir si l’indexation des résumés est pertinente du point de vue d’une interrogation documentaire. Les auteurs n’ont pas évalué, en terme de rappel et de précision, leur technique de reconnaissance des protéines.

[14] Accessible sur http://www.ncbi.nlm.nih.gov/LocusLink/

Up Previous Next Title Page Index Contents