manuscrit de thèse

<div align="center"><font face="Garamond"><i>UNIVERSITé D’AIX-MARSEILLE III</i></font><br> </div> <div align="center"><font face="Garamond" size="4">EXPéRIENCE DE COUPLAGE ENTRE BASES DE DONNéES FACTUELLES ET BASES DE DONNéES BIBLIOGRAPHIQUE :</font><br> </div> <div align="center"><font face="Garamond" size="4">IDENTIFICATION DANS MEDLINE DES GèNES DéCRITS DANS FLYBASE ET APPLICATION à L’EXTRACTION D’INFORMATIONS SUR LES INTERACTIONS GéNéTIQUES OU MOLéCULAIRES à PARTIR DE PUBLICATIONS</font><br> <font face="Garamond"><i>THèSE</i></font><br> <font face="Garamond">pour obtenir le grade de</font><br> <font face="Garamond"><i>DOCTEUR DE L'UNIVERSITé DE DROIT, D’éCONOMIE ET DES SCIENCES D’AIX-MARSEILLE</i></font><br> <font face="Garamond">en</font><br> <font face="Garamond"><i>SCIENCES DE L’INFORMATION ET DE LA COMMUNICATION</i></font><br> <font face="Garamond">présentée et soutenue publiquement</font><br> <font face="Garamond">le 4 Janvier 2002</font><br> <font face="Garamond">par</font><br> </div> <div align="center"><font face="Garamond"><b><i>Ambroise Ingold</i></b></font><br> </div> <div><font face="Garamond"><u>Rapporteurs</u></font><br> <font face="Garamond">Pierre Zweigenbaum, DIAM / AP-HP et Université Paris 6</font><br> <font face="Garamond">Philippe Dessen, INSERM - CNRS</font><br> <font face="Garamond">Xavier Polanco, PRIS/INIST</font><br> <font face="Garamond"><u>Jury</u></font><br> <font face="Garamond">Bernard Jacq, LGPD/IBDM/CNRS (codirecteur)</font><br> <font face="Garamond">Luc Quoniam, Lepont, Université de Toulon et du Var (codirecteur)</font><br> <font face="Garamond">Henri Dou, CRRM/Université Aix-Marseille III</font><br> <font face="Garamond">Philippe Dessen, INSERM - CNRS</font><br> <font face="Garamond">Xavier Polanco, PRIS/INIST</font><br> </div> <div align="center"><a name="_Ref490393532"></a><a name="_Toc535378955"></a><a name="_Toc31080207"></a><font face="Garamond">SOMMAIRE</font><br> </div> <div><br> </div> <div align="center"><a name="_Ref500942333"></a><a name="_Toc508512342"></a><a name="_Toc508513877"></a><a name="_Toc31080208"></a><font face="Garamond">REMERCIEMENT</font><br> </div> <div><font face="Garamond">Je voudrais tout d'abord remercier Henri Dou et Luc Quoniam pour la bourse de thèse dont j'ai bénéficié grâce à eux.</font><br> </div> <div><font face="Garamond">Je remercie Luc Quoniam pour avoir lancé le projet avec l'énergie qui le caractérise et d'avoir coordonné le travail d'équipe avec Violaine Pillet. Il m'a mis le pied à l'étrier et m'a encouragé.</font><br> </div> <div><font face="Garamond">Je remercie Bernard Jacq pour la curiosité et l'ouverture d'esprit dont il a fait preuve. Je le remercie aussi pour le temps qu'il a consacré au suivi de mon travail et pour sa participation à l'annotation des textes.</font><br> </div> <div><font face="Garamond">Je suis reconnaissant à Henri Dou d'avoir apporté son soutien aux moments importants, me permettant de mener ma thèse à bonne fin.</font><br> </div> <div><font face="Garamond">Je remercie mon entourage qui m'a soutenu et conseillé pendant les périodes d'incertitude et en particulier :</font><br> </div> <ul> <li><font face="Garamond">mon père pour ses corrections,</font></li> <li><font face="Garamond">Alice pour ses relectures averties,</font></li> <li><font face="Garamond">Jean-Baptiste pour avoir souvent témoigné de l’intérêt pour la progression de mon travail,</font></li> <li><font face="Garamond">Laurence pour la finesses de son jugement.</font></li> </ul> <div><font face="Garamond">Je remercie Valérie Leveillé, Marie Thérèse Maunoury, François Radvanyi et Marianne Tuefferd pour avoir corrigé mon manuscrit.</font><br> </div> <div><font face="Garamond">Je remercie Christian Jacquemin, William Turner et François Rechenmann pour avoir lu mon manuscrit et m'avoir donné des conseils.</font><br> </div> <div><font face="Garamond">Je remercie enfin les membres du jury pour leurs participations et leurs conseils.</font><br> </div> <div><br> </div> <div align="center"><a name="_Toc31080209"></a><font face="Garamond">INTRODUCTION</font><br> </div> <div><font face="Garamond">L’achèvement du projet génome ouvre la voie vers de nouvelles perspectives. Il s’agit d’exploiter les données acquises pour parvenir à comprendre le fonctionnement du vivant. De grandes bases de données capitalisent et organisent le savoir accumulé. Chacune répond à une problématique différente et la synthèse appartient finalement au chercheur lui-même. Les bases de données bibliographiques permettent l’accès au texte, qu’il s’agisse d’un résumé de publication, ou qu’il s’agisse du texte intégral de la publication. C’est là que se trouve l’information la plus complète, la plus détaillée, et la plus à jour. Les encyclopédies électroniques offrent un point de vue synthétique sur l’état du savoir. Les bases de données de résultats d’expériences permettent de formuler des hypothèses fécondes. Le va-et-vient entre les bases de données bibliographiques et les bases de données factuelles est rendu possible par des liens croisés. Pour les bases de données factuelles, il s’agit de maintenir des pointeurs vers de la bibliographie. Pour les bases de données bibliographiques, il s’agit, d’une part, de proposer des liens vers les résultats d’expériences, et d’autre part, d’indexer les textes à l’aide des nomenclatures maintenues par les encyclopédies électroniques. La masse des données en jeu est énorme. La vitesse avec laquelle le savoir s’accumule et s’actualise est grande. L’établissement de liens entre bases de données bibliographiques et bases de données factuelles ne peut plus être effectué manuellement. Comment l’automatiser ? Nous prenons deux exemples d’applications complémentaires pour y répondre.</font><br> </div> <div><font face="Garamond">Dans les publications scientifiques, qu’est-ce que nous aimerions voir repéré et lié à des données factuelles ? D’une part les objets, et d’autre part, les relations entre ces objets. Nous prendrons un exemple d’application pour chaque cas. Pour les objets, nous prendrons comme exemple les gènes de la Drosophile. Pour les relations, nous prendrons comme exemple les interactions génétiques ou moléculaires chez ce même organisme. Il s’agit d’un type de relation pertinent en génétique. La question est de savoir quand deux gènes collaborent dans un processus dans lequel ils sont impliqués. Dans certains cas (interaction moléculaire), cette collaboration s’explique par un contact physique entre des molécules. Plus généralement (interaction génétique), les mécanismes moléculaires restent inconnus ou l’interaction résulte de plusieurs interactions moléculaires s’enchaînant en cascade.</font><br> </div> <div><font face="Garamond">Notre travail comprend donc deux volets. Le premier volet consiste à repérer dans la base de données bibliographique <i>Medline</i></font><sup><font face="Garamond" size="2"> </font><font face="Garamond"><a name="fnB1" href="#fn1">[1]</a></font></sup><font face="Garamond"> les gènes qui sont répertoriés dans l’encyclopédie électronique sur la Drosophile <i>Flybase</i>. Le deuxième volet consiste à construire une base de données sur les interactions à partir des résumés de publications contenus dans <i>Medline</i>. Enfin, nous présentons le travail d’annotation permettant d’évaluer les résultats.</font><br> </div> <ol> <li><font face="Garamond"><b><i>Le repérage des gènes et des interactions géniques</i></b></font></li> </ol> <div><font face="Garamond">À quelles disciplines scientifiques pouvons-nous faire appel ? Il s’agit tout d’abord de recherche d’informations. Quels sont les textes qui citent tel ou tel gène ? Quel sont les textes qui traitent d’interactions génétiques ou moléculaires ? L’intelligence artificielle est concernée, elle aussi. Il s’agit de compréhension du langage naturel. L’analyse grammaticale des phrases permet de repérer des syntagmes qui sont éventuellement des noms de gènes. Elle permet aussi de repérer des relations qui sont énoncées dans les textes. La <i>bibliométrie</i> et la statistique textuelle sont concernées. Il s’agit de valoriser des textes de publication scientifique, de trouver le vocabulaire spécifique des interactions et d’amener le lecteur à découvrir des relations entre les gènes par l’étude de la cooccurrence. Nous discuterons des apports possibles de ces disciplines à travers l’étude de travaux comparables. Nous emprunterons à chacune d’elles des idées, des techniques et des moyens d’évaluation.</font><br> </div> <div><font face="Garamond">Nous pensons que l’accès à l’information textuelle doit se faire par des mots clefs. Pour l’identification des gènes, il s’agit d’utiliser les divers noms du gène ou de ses produits. Pour la reconnaissance des interactions, il s’agit d’analyser le vocabulaire présent pour détecter le thème de l’interaction. C’est d’ailleurs de cette façon que les utilisateurs des bases de données recherchent des informations sur les objets qui les intéressent ou sur les relations qu’entretiennent ces objets entre eux. Ils utilisent des mots clefs qui représentent, soit les objets, soit les relations.</font><br> </div> <div><font face="Garamond">Identifier les gènes cités dans un texte est une tâche difficile à automatiser car la nomenclature est complexe et l’usage ne suit pas toujours la norme. Des abréviations sont utilisées, mais il peut en exister plusieurs. La terminologie évolue avec la progression de la connaissance. Les anciennes dénominations vont former des alias. En outre, un gène peut être désigné par ses produits, en particulier les protéines dont il commande la synthèse. Des variations orthographiques existent, notamment avec la coupure des mots, l’usage optionnel des tirets ou des majuscules. Des contradictions finissent par apparaître : deux termes peuvent désigner le même gène. Le contexte peut primer quand il existe plusieurs indices concordants de la présence d’un même gène. Certaines interprétations devront être privilégiées à contexte équivalent. Il existe aussi des termes vagues, qui ne désignent pas un gène précis mais peuvent renvoyer à toute une collection de gènes.</font><br> </div> <div><font face="Garamond"><i>Flybase</i> rend compte de la variété de tel ou tel nom de gène mais pas du choix des dénominations. S’y retrouve mêlées des informations relatives à la norme, à l’historique, aux mécanismes biologiques (avec les noms de protéines), aux variations orthographiques, aux écarts acceptables par rapport à la norme, à l’usage ponctuel dans une publication, à l’usage fautif, au manque de précisions, etc<i>.</i> <i>Flybase</i> présente un inventaire. Elle n’explique pas comment identifier les gènes dans un texte.</font><br> </div> <div><font face="Garamond">La polysémie est présente dans le domaine des gènes de la drosophile. D’une part, les termes utilisés peuvent désigner tout autre chose que des gènes. Par exemple : <i>labial</i>, <i>blood</i> et <i>arrest</i> sont des noms de gènes. De même <i>N</i>,<i> h</i> et <i>if</i> sont des noms abrégés des gènes <i>Notch, hairy</i> et <i>inflated</i>. D’autre part, les noms de gènes peuvent rentrer dans la composition de terme désignant d’autres gènes ou tout autre chose. Par exemple, les noms de gènes <i>lethal of scute</i> et <i>Suppressor of Hairless</i> sont formés sur les noms de gènes <i>scute</i> et <i>Hairless</i>. Autre exemple, le nom de gène <i>scute</i> entre dans la composition de <i>Achaete-scute Complex</i> qui est un complexe de gènes ; <i>Polycomb</i> entre dans la composition de <i>Polycomb group</i> qui est un groupe de gènes. Ce phénomène d’appariement de plusieurs termes pour former une entité de sens est appelé <i>collocation</i>.</font><br> </div> <div><font face="Garamond">Le contexte permet souvent de lever les ambiguïtés. Il permet soit d’identifier une collocation, soit de donner plusieurs indices concordants de la présence d’un même gène.</font><br> </div> <div><font face="Garamond">Pour parvenir à automatiser l’identification des gènes, il s’agit de structurer correctement les connaissances nécessaires à l’interprétation et de trouver un algorithme efficace. L’organisation des données a été conduite grâce à une base de données relationnelle. L’algorithme permettant l’interprétation du texte a été mis en œuvre grâce à des automatismes se succédant dans un ordre déterminé.</font><br> </div> <div><font face="Garamond">Plus qu’un algorithme d’identification des gènes, nous proposons une méthode pour corriger, structurer et enrichir des données déjà existantes sur la terminologie, de façon à permettre leur utilisation lors d’un processus automatique d’identification des gènes. Cette méthode passe par une confrontation des données présentes dans la nomenclature et des textes à annoter. Cette confrontation permet à la fois de mesurer l’efficacité du processus, de comprendre les problèmes, de corriger, annoter ou enrichir la nomenclature. La question est aussi d’obtenir des informations sur l’usage réel qui est fait de la nomenclature. Par exemple quelle est la fréquence d’utilisation des abréviations, des alias, etc. ?</font><br> </div> <div><font face="Garamond">La nomenclature maintenue par <i>Flybase</i> n’est pas tout à fait complète. Des variations orthographiques ont été omises. Nous proposons un système pour anticiper certaines de ces variations orthographiques. Il s’agit d’enrichir la nomenclature par analyse automatique des textes, de façon à valider les variations orthographiques anticipées.</font><br> </div> <ol> <li><font face="Garamond"><b><i>Extraction d’information sur les interactions génétiques ou moléculaires</i></b></font></li> </ol> <div><font face="Garamond">Le deuxième volet de notre travail consiste à construire une base de données sur les interactions génétiques ou moléculaires à partir de résumés de publications. Il s’agit d’une tâche d’extraction de connaissances à partir de texte. Nous utilisons principalement la cooccurrence pour y parvenir. Il s’agit de repérer les couples de gènes cités dans au moins une phrase. Nous utilisons en complément un indicateur statistique évaluant la probabilité qu’une phrase décrive une interaction. Cet indicateur est basé sur l’existence d’un vocabulaire spécifique aux interactions génétiques ou moléculaires. Il s’agit de résultats obtenus au CRRM par Violaine Pillet et que nous avons intégrés à notre système (2000).</font><br> </div> <div><font face="Garamond">Les travaux sur l’extraction d’information sur les interactions génétiques ou moléculaires sont de deux types. Dans un premier type d’étude, des matrices de cooccurrence sont calculées pour savoir si l’apparition d’un gène est corrélée avec l’apparition d’un autre gène. Ces études permettent de découvrir des relations fonctionnelles évidentes ou cachées et apportent donc une aide à la découverte. Les résultats sont évalués sur la base de leur utilité pour le chercheur. Il est difficile de savoir dans quelle mesure une information initialement présente dans les textes est ou n’est pas retenue. </font><br> </div> <div><font face="Garamond">Dans un autre type d’étude, des modèles d’énoncés d’interactions sont inventoriés et les motifs textuels correspondants sont recherchés dans les textes. Cependant les modèles utilisés sont simples et les motifs sont donc très spécifiques. Par exemple, il s’agira de rechercher des verbes d’action comme <i>bind</i> et de les associer aux syntagmes nominaux voisins, qui sont en principe des noms de gènes ou de protéines. La spécificité des motifs recherchés va assurer une grande qualité des réponses fournies. La précision sera donc bonne. Inversement la quantité d’information extraite sera relativement faible car beaucoup de descriptions d’interactions ne correspondront pas au modèle prédéfini. Le rappel sera donc mauvais.</font><br> </div> <ol> <li><font face="Garamond"><b><i>Les bénéfices de l’annotation</i></b></font></li> </ol> <div><font face="Garamond">Dans la plupart des études, la perte d’information, due à la trop grande spécificité des motifs textuels recherchés ou plus généralement à la sélection qui est opérée sur les textes, n’est pas évaluée. En effet, dans ces études, l’évaluation n’est menée que sur les textes qui présentent déjà des caractéristiques bien précises. Nous pensons que l’annotation des textes doit se faire avant toute sélection. C’est la seule façon de connaître la quantité d’informations qui est perdue après la sélection.</font><br> </div> <div><font face="Garamond">En outre, cette annotation est très instructive. Elle permet de se rendre compte du fait que les interactions sont souvent décrites dans des énoncés très complexes. Ces énoncés se prêtent difficilement à des recherches de motifs textuels précis. Nous proposons donc un système basé sur la recherche de termes simples. Ces termes sont choisis pour les renseignements qu’ils apportent à eux seuls – c’est à dire en dehors de toute combinaison – sur la présence d’une interaction. Ceci est apprécié par une corrélation statistique entre leur utilisation dans une phrase et la présence d’une interaction dans cette même phrase. À chacun de ces termes est associé un coefficient qui a été calculé sur un échantillon d’apprentissage. La moyenne des nombres ainsi trouvée dans une même phrase nous renseigne sur la probabilité d’avoir une ou plusieurs interactions dans la phrase. Les phrases dont le vocabulaire est considéré comme favorable seront annotées. Cette annotation consiste à repérer tous les couples de gènes en présence.</font><br> </div> <div><font face="Garamond">Le document est organisé en deux parties. La première partie donne les éléments nécessaires à la compréhension en ce qui concerne la veille technologique, la bibliométrie, la biologie et les techniques de recherche et d’extraction d’informations. L’analyse critique des travaux menés dans ce domaine est fournie dans cette partie. Nous décrivons ensuite le programme de recherche auquel nous prenons part, ainsi que les principaux résultats sur lesquels nous nous appuyons. La deuxième partie présente les réalisations effectuées, elle fournit les résultats obtenus et donne des méthodes d’évaluation de ces résultats.</font><br> </div> <hr> <div><sup><font face="Garamond" size="2"><a name="fn1" href="#fnB1">[1]</a></font></sup><font face="Garamond" size="2"> Les termes de l’index sont en italique. A l’endroit du textes où ils sont définis, ils sont en gras.</font><br> </div> <ul> <li><a href="/PhD-Partie.html#Heading138">Partie 1 État de l’Art</a></li> <li><a href="/PhD-Partie-2.html#Heading704">Partie 2 Réalisation et résultats</a></li> <li><a href="/PhD-Partie-3.html#Heading5461">Partie 3 Conclusion</a></li> </ul> <hr> <div align="CENTER"><a href="/PhD-Partie.html" target="RightFrame"><img src="/images/next.gif" alt="Next " border="0"></a> <a href="/PhD-Title.html"><img src="/images/first.gif" alt="Title Page " border="0"></a> <a href="../Images/these/PhD-Index.html"><img src="../Images/these/images/index.gif" alt="Index " border="0"></a> <a href="../Images/these/PhD-Contents.html"><img src="../Images/these/images/contents.gif" alt="Contents " border="0"></a> </div> </body>