UNIVERSITé D’AIX-MARSEILLE
III
EXPéRIENCE DE COUPLAGE
ENTRE BASES DE DONNéES FACTUELLES ET BASES DE DONNéES BIBLIOGRAPHIQUE :
IDENTIFICATION DANS MEDLINE
DES GèNES DéCRITS DANS FLYBASE ET APPLICATION à L’EXTRACTION
D’INFORMATIONS SUR LES INTERACTIONS GéNéTIQUES OU MOLéCULAIRES
à PARTIR DE PUBLICATIONS
THèSE
pour obtenir le grade de
DOCTEUR DE L'UNIVERSITé DE DROIT, D’éCONOMIE
ET DES SCIENCES D’AIX-MARSEILLE
en
SCIENCES DE L’INFORMATION ET DE LA COMMUNICATION
présentée et soutenue publiquement
le 4 Janvier 2002
par
Ambroise Ingold
Rapporteurs
Pierre Zweigenbaum, DIAM / AP-HP et Université
Paris 6
Philippe Dessen, INSERM - CNRS
Xavier Polanco, PRIS/INIST
Jury
Bernard Jacq, LGPD/IBDM/CNRS (codirecteur)
Luc Quoniam, Lepont, Université de Toulon et
du Var (codirecteur)
Henri Dou, CRRM/Université Aix-Marseille III
Philippe Dessen, INSERM - CNRS
Xavier Polanco, PRIS/INIST
Je voudrais tout d'abord remercier Henri Dou et Luc
Quoniam pour la bourse de thèse dont j'ai bénéficié
grâce à eux.
Je remercie Luc Quoniam pour avoir lancé le
projet avec l'énergie qui le caractérise et d'avoir coordonné
le travail d'équipe avec Violaine Pillet. Il m'a mis le pied à
l'étrier et m'a encouragé.
Je remercie Bernard Jacq pour la curiosité
et l'ouverture d'esprit dont il a fait preuve. Je le remercie aussi pour le
temps qu'il a consacré au suivi de mon travail et pour sa participation
à l'annotation des textes.
Je suis reconnaissant à Henri Dou d'avoir
apporté son soutien aux moments importants, me permettant de mener
ma thèse à bonne fin.
Je remercie mon entourage qui m'a soutenu et conseillé
pendant les périodes d'incertitude et en particulier :
- mon père pour ses corrections,
- Alice pour ses relectures averties,
- Jean-Baptiste pour avoir souvent témoigné
de l’intérêt pour la progression de mon travail,
- Laurence pour la finesses de son jugement.
Je remercie Valérie Leveillé, Marie
Thérèse Maunoury, François Radvanyi et Marianne Tuefferd
pour avoir corrigé mon manuscrit.
Je remercie Christian Jacquemin, William Turner et
François Rechenmann pour avoir lu mon manuscrit et m'avoir donné
des conseils.
Je remercie enfin les membres du jury pour leurs
participations et leurs conseils.
L’achèvement du projet génome
ouvre la voie vers de nouvelles perspectives. Il s’agit d’exploiter
les données acquises pour parvenir à comprendre le fonctionnement
du vivant. De grandes bases de données capitalisent et organisent le
savoir accumulé. Chacune répond à une problématique
différente et la synthèse appartient finalement au chercheur
lui-même. Les bases de données bibliographiques permettent l’accès
au texte, qu’il s’agisse d’un résumé de publication,
ou qu’il s’agisse du texte intégral de la publication.
C’est là que se trouve l’information la plus complète,
la plus détaillée, et la plus à jour. Les encyclopédies
électroniques offrent un point de vue synthétique sur l’état
du savoir. Les bases de données de résultats d’expériences
permettent de formuler des hypothèses fécondes. Le va-et-vient
entre les bases de données bibliographiques et les bases de données
factuelles est rendu possible par des liens croisés. Pour les bases
de données factuelles, il s’agit de maintenir des pointeurs vers
de la bibliographie. Pour les bases de données bibliographiques, il
s’agit, d’une part, de proposer des liens vers les résultats
d’expériences, et d’autre part, d’indexer les textes
à l’aide des nomenclatures maintenues par les encyclopédies
électroniques. La masse des données en jeu est énorme.
La vitesse avec laquelle le savoir s’accumule et s’actualise est
grande. L’établissement de liens entre bases de données
bibliographiques et bases de données factuelles ne peut plus être
effectué manuellement. Comment l’automatiser ? Nous prenons
deux exemples d’applications complémentaires pour y répondre.
Dans les publications scientifiques, qu’est-ce
que nous aimerions voir repéré et lié à des données
factuelles ? D’une part les objets, et d’autre part, les
relations entre ces objets. Nous prendrons un exemple d’application
pour chaque cas. Pour les objets, nous prendrons comme exemple les gènes
de la Drosophile. Pour les relations, nous prendrons comme exemple les interactions
génétiques ou moléculaires chez ce même organisme.
Il s’agit d’un type de relation pertinent en génétique.
La question est de savoir quand deux gènes collaborent dans un processus
dans lequel ils sont impliqués. Dans certains cas (interaction moléculaire),
cette collaboration s’explique par un contact physique entre des molécules.
Plus généralement (interaction génétique), les
mécanismes moléculaires restent inconnus ou l’interaction
résulte de plusieurs interactions moléculaires s’enchaînant
en cascade.
Notre travail comprend donc deux volets. Le premier
volet consiste à repérer dans la base de données bibliographique
Medline [1]
les gènes qui sont répertoriés dans l’encyclopédie
électronique sur la Drosophile Flybase. Le deuxième volet
consiste à construire une base de données sur les interactions
à partir des résumés de publications contenus dans Medline.
Enfin, nous présentons le travail d’annotation permettant d’évaluer
les résultats.
- Le repérage des gènes et des
interactions géniques
À quelles disciplines scientifiques pouvons-nous
faire appel ? Il s’agit tout d’abord de recherche d’informations.
Quels sont les textes qui citent tel ou tel gène ? Quel sont les
textes qui traitent d’interactions génétiques ou
moléculaires ? L’intelligence artificielle est concernée,
elle aussi. Il s’agit de compréhension du langage naturel. L’analyse
grammaticale des phrases permet de repérer des syntagmes qui sont éventuellement
des noms de gènes. Elle permet aussi de repérer des relations
qui sont énoncées dans les textes. La bibliométrie
et la statistique textuelle sont concernées. Il s’agit de valoriser
des textes de publication scientifique, de trouver le vocabulaire spécifique
des interactions et d’amener le lecteur à découvrir des
relations entre les gènes par l’étude de la cooccurrence.
Nous discuterons des apports possibles de ces disciplines à travers
l’étude de travaux comparables. Nous emprunterons à chacune
d’elles des idées, des techniques et des moyens d’évaluation.
Nous pensons que l’accès à l’information
textuelle doit se faire par des mots clefs. Pour l’identification des
gènes, il s’agit d’utiliser les divers noms du gène
ou de ses produits. Pour la reconnaissance des interactions, il s’agit
d’analyser le vocabulaire présent pour détecter le thème
de l’interaction. C’est d’ailleurs de cette façon
que les utilisateurs des bases de données recherchent des informations
sur les objets qui les intéressent ou sur les relations qu’entretiennent
ces objets entre eux. Ils utilisent des mots clefs qui représentent,
soit les objets, soit les relations.
Identifier les gènes cités dans un
texte est une tâche difficile à automatiser car la nomenclature
est complexe et l’usage ne suit pas toujours la norme. Des abréviations
sont utilisées, mais il peut en exister plusieurs. La terminologie
évolue avec la progression de la connaissance. Les anciennes dénominations
vont former des alias. En outre, un gène peut être désigné
par ses produits, en particulier les protéines dont il commande la
synthèse. Des variations orthographiques existent, notamment avec la
coupure des mots, l’usage optionnel des tirets ou des majuscules. Des
contradictions finissent par apparaître : deux termes peuvent désigner
le même gène. Le contexte peut primer quand il existe plusieurs
indices concordants de la présence d’un même gène.
Certaines interprétations devront être privilégiées
à contexte équivalent. Il existe aussi des termes vagues, qui
ne désignent pas un gène précis mais peuvent renvoyer
à toute une collection de gènes.
Flybase rend compte de la variété
de tel ou tel nom de gène mais pas du choix des dénominations.
S’y retrouve mêlées des informations relatives à
la norme, à l’historique, aux mécanismes biologiques (avec
les noms de protéines), aux variations orthographiques, aux écarts
acceptables par rapport à la norme, à l’usage ponctuel
dans une publication, à l’usage fautif, au manque de précisions,
etc. Flybase présente un inventaire. Elle n’explique
pas comment identifier les gènes dans un texte.
La polysémie est présente dans le domaine
des gènes de la drosophile. D’une part, les termes utilisés
peuvent désigner tout autre chose que des gènes. Par exemple :
labial, blood et arrest sont des noms de gènes.
De même N, h et if sont des noms abrégés
des gènes Notch, hairy et inflated. D’autre part,
les noms de gènes peuvent rentrer dans la composition de terme désignant
d’autres gènes ou tout autre chose. Par exemple, les noms de
gènes lethal of scute et Suppressor of Hairless sont
formés sur les noms de gènes scute et Hairless.
Autre exemple, le nom de gène scute entre dans la composition
de Achaete-scute Complex qui est un complexe de gènes ;
Polycomb entre dans la composition de Polycomb group qui est
un groupe de gènes. Ce phénomène d’appariement
de plusieurs termes pour former une entité de sens est appelé
collocation.
Le contexte permet souvent de lever les ambiguïtés.
Il permet soit d’identifier une collocation, soit de donner plusieurs
indices concordants de la présence d’un même gène.
Pour parvenir à automatiser l’identification
des gènes, il s’agit de structurer correctement les connaissances
nécessaires à l’interprétation et de trouver un
algorithme efficace. L’organisation des données a été
conduite grâce à une base de données relationnelle. L’algorithme
permettant l’interprétation du texte a été mis
en œuvre grâce à des automatismes se succédant dans
un ordre déterminé.
Plus qu’un algorithme d’identification
des gènes, nous proposons une méthode pour corriger, structurer
et enrichir des données déjà existantes sur la terminologie,
de façon à permettre leur utilisation lors d’un processus
automatique d’identification des gènes. Cette méthode
passe par une confrontation des données présentes dans la nomenclature
et des textes à annoter. Cette confrontation permet à la fois
de mesurer l’efficacité du processus, de comprendre les problèmes,
de corriger, annoter ou enrichir la nomenclature. La question est aussi d’obtenir
des informations sur l’usage réel qui est fait de la nomenclature.
Par exemple quelle est la fréquence d’utilisation des abréviations,
des alias, etc. ?
La nomenclature maintenue par Flybase n’est
pas tout à fait complète. Des variations orthographiques ont
été omises. Nous proposons un système pour anticiper
certaines de ces variations orthographiques. Il s’agit d’enrichir
la nomenclature par analyse automatique des textes, de façon à
valider les variations orthographiques anticipées.
- Extraction d’information sur les interactions
génétiques ou moléculaires
Le deuxième volet de notre travail consiste
à construire une base de données sur les interactions génétiques
ou moléculaires à partir de résumés de publications.
Il s’agit d’une tâche d’extraction de connaissances
à partir de texte. Nous utilisons principalement la cooccurrence pour
y parvenir. Il s’agit de repérer les couples de gènes
cités dans au moins une phrase. Nous utilisons en complément
un indicateur statistique évaluant la probabilité qu’une
phrase décrive une interaction. Cet indicateur est basé sur
l’existence d’un vocabulaire spécifique aux interactions
génétiques ou moléculaires. Il s’agit de résultats
obtenus au CRRM par Violaine Pillet et que nous avons intégrés
à notre système (2000).
Les travaux sur l’extraction d’information
sur les interactions génétiques ou moléculaires sont
de deux types. Dans un premier type d’étude, des matrices de
cooccurrence sont calculées pour savoir si l’apparition d’un
gène est corrélée avec l’apparition d’un
autre gène. Ces études permettent de découvrir des relations
fonctionnelles évidentes ou cachées et apportent donc une aide
à la découverte. Les résultats sont évalués
sur la base de leur utilité pour le chercheur. Il est difficile de
savoir dans quelle mesure une information initialement présente dans
les textes est ou n’est pas retenue.
Dans un autre type d’étude, des modèles
d’énoncés d’interactions sont inventoriés
et les motifs textuels correspondants sont recherchés dans les textes.
Cependant les modèles utilisés sont simples et les motifs sont
donc très spécifiques. Par exemple, il s’agira de rechercher
des verbes d’action comme bind et de les associer aux syntagmes
nominaux voisins, qui sont en principe des noms de gènes ou de protéines.
La spécificité des motifs recherchés va assurer une grande
qualité des réponses fournies. La précision sera donc
bonne. Inversement la quantité d’information extraite sera relativement
faible car beaucoup de descriptions d’interactions ne correspondront
pas au modèle prédéfini. Le rappel sera donc mauvais.
- Les bénéfices de l’annotation
Dans la plupart des études, la perte d’information,
due à la trop grande spécificité des motifs textuels
recherchés ou plus généralement à la sélection
qui est opérée sur les textes, n’est pas évaluée.
En effet, dans ces études, l’évaluation n’est menée
que sur les textes qui présentent déjà des caractéristiques
bien précises. Nous pensons que l’annotation des textes doit
se faire avant toute sélection. C’est la seule façon de
connaître la quantité d’informations qui est perdue après
la sélection.
En outre, cette annotation est très instructive.
Elle permet de se rendre compte du fait que les interactions sont souvent
décrites dans des énoncés très complexes. Ces
énoncés se prêtent difficilement à des recherches
de motifs textuels précis. Nous proposons donc un système basé
sur la recherche de termes simples. Ces termes sont choisis pour les renseignements
qu’ils apportent à eux seuls – c’est à dire
en dehors de toute combinaison – sur la présence d’une
interaction. Ceci est apprécié par une corrélation statistique
entre leur utilisation dans une phrase et la présence d’une interaction
dans cette même phrase. À chacun de ces termes est associé
un coefficient qui a été calculé sur un échantillon
d’apprentissage. La moyenne des nombres ainsi trouvée dans une
même phrase nous renseigne sur la probabilité d’avoir une
ou plusieurs interactions dans la phrase. Les phrases dont le vocabulaire
est considéré comme favorable seront annotées. Cette
annotation consiste à repérer tous les couples de gènes
en présence.
Le document est organisé en deux parties.
La première partie donne les éléments nécessaires
à la compréhension en ce qui concerne la veille technologique,
la bibliométrie, la biologie et les techniques de recherche et d’extraction
d’informations. L’analyse critique des travaux menés dans
ce domaine est fournie dans cette partie. Nous décrivons ensuite le
programme de recherche auquel nous prenons part, ainsi que les principaux
résultats sur lesquels nous nous appuyons. La deuxième partie
présente les réalisations effectuées, elle fournit les
résultats obtenus et donne des méthodes d’évaluation
de ces résultats.
[1]
Les termes de l’index sont en italique. A l’endroit du textes
où ils sont définis, ils sont en gras.