manuscrit de thèse - Contents
manuscrit de thèse - Title Page
Partie 1 État de l’Art
Chapitre 1 Contexte scientifique de l’étude
I. Veille technologique, intelligence économique et analyse de l’information textuelle
II. De la génétique à la bioinformatique
A. La génétique
1. Notions de base
2. Définition des interactions
B. Le projet génome
C. La post-génomique
D. Utilisation du projet génome pour accéder à la fonction des gènes
III. La recherche et l’extraction d’informations textuelles
A. La recherche d’informations textuelles
B. L’extraction d’informations textuelles
IV. Le couplage des Bases de données
A. La création de liens entre bases de données
B. Couplage des bases de données factuelles avec des bases de données bibliographiques
Chapitre 2 Études des travaux comparables
I. Travaux concernant la reconnaissance de gènes ou de leurs produits dans des textes
A. Travaux sur la reconnaissance des gènes ou de leurs produits basés sur l’utilisation de listes de termes
B. Travaux sur la reconnaissance des gènes ou de leurs produits n’utilisant pas de lexiques
C. Travaux sur la création automatique ou assistée de dictionnaire des gènes ou de leurs produits à partir de textes
D. Conclusion sur les travaux concernant la recherche de gènes ou de leurs produits dans des textes
II. Travaux sur l’analyse informatique des textes et les interactions génétiques ou moléculaires
A. Méthodes d’analyse informatique des textes sur les interactions génétiques et moléculaires basées sur la recherche de mots clefs et de phrases clefs
B. Méthodes basées sur des études statistiques d’apparition de mots clefs pour extraire des informations sur les interactions génétiques ou moléculaires
C. Méthodes basées sur la cooccurrence pour extraire des informations sur les interactions génétiques ou moléculaires
D. Méthodes basées sur des motifs textuels pour extraire des informations sur les interactions génétiques ou moléculaires
Chapitre 3 Notre apport et celui du consortium Cerise
I. Historique des travaux dans le consortium Cerise
A. Présentation du programme de recherche du consortium Cerise
1. La saisie des informations sur les interactions génétiques et moléculaires
2. La représentation des connaissances sur les interactions génétiques et moléculaires
3. Analyse, comparaison et simulation de fonctionnement des réseaux régulateurs
B. Choix méthodologique initié par Pillet
1. Choix de la base de données Flybase
a. Présentation de la base de données Flybase
b. Avantages de la base de données Flybase
2. Choix d’une méthode d’analyse basée sur la présence conjointe de noms de gènes et d’un vocabulaire spécifique dans une même phrase
C. La méthode des IVI
1. Identifier le vocabulaire spécifique de l’interaction
2. Sélectionner les textes qui décrivent une interaction
3. Performance de la méthode des IVI
D. Les variantes de la méthode des IVI
1. Variante dans le calcul de la spécificité
2. Calcul de l’IVI par la somme des spécificités
3. Calcul de l’IVI par l’analyse factorielle
II. Réflexions sur la méthode d’analyse que nous proposons
A. Choix du corpus d’analyse
1. Choix de Medline
2. Choix de l’échantillon d’analyse
3. Utiliser les données issues de Flybase pour analyser les textes de Medline
B. Discussions sur les moyens et les buts
1. La présence de deux noms de gènes est un indice fort
2. Utilisation des phrases qui comportent plus de deux occurrences de gènes
3. Reconnaissance des interactions et non des phrases qui décrivent des interactions
Partie 2 Réalisation et résultats
Chapitre 1 Analyse des problèmes posées
I. Inventaire des difficultés à résoudre pour réaliser un programme d’identification des gènes
A. Méthodologie
B. Complexité de la nomenclature
1. Règles de désignation des gènes pour la drosophile
2. Existence de plusieurs termes pour désigner un seul gène
3. Importance de la casse pour désigner un gène
4. Complexité introduite par la formation de mots composés
5. Complexité introduite par l’inclusion des termes les uns dans les autres
a. Inclusion à l’intérieur du dictionnaire des gènes
b. Inclusion des labels dans des termes de biologie
6. Complexité introduite par l’existence des allèles
C. Ambiguïté des labels
1. Les labels qui sont des mots vides
2. Les labels qui prêtent à confusion avec des termes d’anglais assez courants
a. Les labels fortement ambigus
b. Les labels qui dans le contexte de la génétique sont moins ambigus qu’ils ne semblent
c. Les labels faiblement ambigus.
d. Les labels ambigus mais très importants
3. Les labels qui prêtent à confusion avec des gènes de mammifères.
D. Imprécision dans la terminologie
1. Les termes qui ne décrivent pas un gène précis mais qui peuvent désigner plusieurs gènes
2. Les variations orthographiques
a. Inventaire des orthographies absentes de Flybase
b. Les variantes prévues
c. Les variantes imprévues
d. Importance relative des variantes prévues et imprévues
E. Les erreurs du dictionnaire
1. Les contradictions du dictionnaire
2. Des définitions aberrantes
3. Les formats imprévus
F. Nécessité de l’utilisation du contexte
1. Utilisation du contexte pour préférer une reconnaissance à une autre
2. Utilisation du contexte pour régler le problème de l’ambiguïté des labels
3. Utilisation du contexte pour détecter les reconnaissances redondantes
4. Utilisation du contexte pour valider les définitions crées pour anticiper les variations orthographiques des labels
II. Analyse du problème de la reconnaissance des interactions
A. Complexité de la reconnaissance des interactions
1. Partenaires mal définis
2. Interaction et ordre
3. Partenaires de l’interaction non identifiés
B. Difficulté de la reconnaissance des interactions
1. Partenaires de l’interaction absents de la phrase mais pas du résumé
2. Difficulté introduite par la présence de plus de deux gènes dans une même phrase
Chapitre 2 Mise en œuvre
I. Mise en œuvre du programme d’identification des gènes
A. Structure de données pour l’identification des gènes dans les textes
1. Préliminaires
a. Notions sur les bases de données relationnelles
b. Conventions sur les noms de champs et de tables
c. Quelques principes sur la structuration des données
2. Structure de données pour les textes
a. Structure de données pour les résumés
b. Structure de données pour les phrases qui constituent les résumés
3. Structure de données pour le dictionnaire des gènes
a. Structure de données pour les gènes ou objets assimilés
b. Structure de données pour les labels
c. Structure de données pour les définitions
4. Structure de données pour l’identification des gènes
a. Structure de données pour la reconnaissance des labels
b. Structure de données pour la reconnaissance des définitions
B. Méthode d’identification des gènes
1. La visualisation et l’exploitation des données dans une base de données relationnelle
a. L’utilisation des requêtes
b. L’automatisation des tâches
2. La détection des occurrences de labels
a. Indexation des textes
b. Correction pour les mots ambigus en début de phrase
c. Épuration de l’index
d. Reconnaissance des mots vides
3. Interprétation des labels
C. Acquisition des données nécessaires à l’analyse
1. Collecte des textes et intégration dans la base de données
a. Choix des résumés Medline
b. Intégration des textes issus de Flybase et de Medline
2. Constitution des données relatives au dictionnaire des gènes
a. Importation des données terminologiques
b. Les étapes de filtrages et de reformatages
c. Mise en forme relationnelle
d. Préparation de l’indexation des textes
e. Complémentation du dictionnaire
3. Acquisition de nouvelles connaissances sur la nomenclature des gènes
a. Construction des définitions variantes
b. Validation des définitions par l’analyse des textes
c. Validation des labels par l’analyse des textes
II. Mise en œuvre de la reconnaissance automatique des interactions
A. Structure de données pour la reconnaissance des interactions
1. Table de reconnaissance des interactions
2. Table Ordre dans les interactions
3. Table Processus de reconnaissance des interactions
B. Structure de données pour l’IVI
1. Structure de données pour le dictionnaire de lemmatisation
a. Structure de données pour les lemmes
b. Structure de données pour les formes fléchies
2. Structure de données pour la reconnaissance des formes fléchies
C. Constitution des données relatives au dictionnaire de lemmatisation
D. Méthode de reconnaissance des interactions
1. Calcul de l’IVI
2. Annotation sur les interactions
III. Interface de visualisation des données contenues dans la base de données
A. Confrontation entre indices et faits sur les interactions
B. Confrontation entre l’annotation manuelle et l’annotation automatique
C. Autres informations sur le résumé
Chapitre 3 Évaluation et propositions d’améliorations
I. Évaluation du programme d’identification des gènes et nouvelle directions de recherche
A. Évaluation du système d’identification des gènes sur l’échantillon A
B. Évaluation du système d’identification des gènes sur l’échantillon B et propositions d’améliorations
1. Performance du système d’identification des gènes sur l’échantillon B
2. Un exemple de résumé annoté par le programme d’identification des gènes
3. Inventaire des cas d’erreurs sur l’échantillon B et propositions pour les éviter
II. Évaluation du programme de reconnaissance des interactions et discussion
A. Explications communes à tous les graphiques
B. Statistiques sur les reconnaissances d’interactions
C. Statistiques sur les interactions
1. Méthodes basées sur le nombre d’occurrence de gènes dans une même phrase
a. Reconnaissance des interactions à partir des phrases qui comptent deux occurrences de gènes
b. Reconnaissance des interactions à partir des phrases qui comptent plusieurs occurrences de gène
c. Comparaison des performances des méthodes basées sur le nombre d’occurrences de gènes
2. Méthodes basées sur le nombre de gènes cités dans une même phrase
a. Reconnaissance des interactions à partir des phrases qui citent deux gènes
b. Reconnaissance des interactions à partir des phrases qui citent plusieurs gènes
c. Comparaison des performances des méthodes basées sur le nombre de gènes cités
3. Utilisation du nombre de fois où une interaction est reconnue automatiquement
a. Interactions reconnues plusieurs fois au cours du processus 2G
b. Interactions reconnues plusieurs fois au cours du processus nG
c. Discussion sur la redondance de l’information sur les interactions
D. Nouvelles directions de recherche
1. Amélioration du calcul de l’IVI
2. Utilisation du MeSH pour sélectionner les résumés
Partie 3 Conclusion
Chapitre 1 Bilan du travail
Chapitre 2 Améliorations envisagées et nouvelles directions de recherche
I. Transformation du prototype en un logiciel convivial
II. Couplage avec des résultats d’expériences
III. Utilisation dans d’autres domaines d’applications