Up Previous Next Title Page Index Contents

B. L’extraction d’informations textuelles

La recherche d’informations, dans son expression la plus simple, consiste à extraire un document ou un segment de document, c’est à dire une portion de texte. Le résultat est destiné à la lecture humaine et non à une exploitation informatique. Si l’on cherche à retourner une information codée dans un langage accessible à l’ordinateur, on quitte le champ de la recherche d’informations pour entrer dans celui de l’extraction d’informations.
L’extraction d’informations peut être considérée comme une branche de l’informatique. Il s’agit de répondre à une question bien précise. La réponse devra être codée dans un format défini par avance (Jacquemin et al., 2000). Des exemples typiques de tâches d’extraction d’informations sont donnés dans la série de conférences MUC (MUC-6, 1996). Les Message understanding conferences sont des compétitions organisées dans le domaine de l’extraction d’informations. Dans les épreuves, il s’agit par exemple de savoir quelles sont les entreprises qui fusionnent, se créent, passent des accords, etc. Pour réaliser une telle tâche, il faut être capable de réaliser des sous-tâches. La compétition est organisée en épreuve correspondant chacune à une sous-tâche. Je décris dans les sections suivantes chacune des sous-tâches définies par les conférences MUC.
Il s’agit de reconnaître les entités tels que des noms d’entreprise, des noms de personnes, des noms de lieux, des dates, etc. Les méthodes utilisées peuvent être basées sur un apprentissage statistique d’exemples (Bikel et al., 1997), sur le repérage d’indices comme les titres honorifiques (Monsieur, Docteur, etc.), ou sur la recherche de patron syntaxique. Pour chaque entité rencontrée, une marque SGML (i.e. une chaîne de caractères) est posée de façon à délimiter la portion de texte repérée.
De tels travaux existent pour la reconnaissance des labels et nous y reviendrons dans la partie consacrée aux travaux concernant la reconnaissance de gènes sans lexiques (section Chapitre 2 I.B).
Il s’agit de repérer quand, dans un texte, il est fait référence plusieurs fois à une même entité, même si cette entité est nommée de façons différentes ou si un pronom personnel est utilisé. Cela recouvre en particulier la détection de lien d’abréviation, avec comme exemple d’utilisation la construction de dictionnaire d’acronymes à partir de corpus. Ce type de tâche est utile pour la reconnaissance des interactions car il est fréquent qu’un gène soit nommé de plusieurs façon dans le même résumé, précisément dans le cas d’utilisation d’abréviation. En revanche, le cas de l’utilisation d’un pronom pour faire référence à un gène semble être très peu fréquent dans notre corpus.
Il existe des travaux sur la construction, à partir de corpus, de dictionnaire d’acronymes pour les noms de gènes. Nous y reviendrons à la section Chapitre 2 I.C.
Il s’agit de trouver des caractéristiques d’un objet. Par exemple, pour un produit, trouver son nom, la société qui le fabrique, son prix, etc.
Il s’agit de mettre à jour des relations entre les objets. On peut classer l’extraction d’informations sur les interactions dans cette catégorie.
Il s’agit de donner les caractéristiques d’un événement dans un texte : objets impliqués et modalités de réalisation. Par exemple : qui arrive à quel poste dans quelle entreprise. Dans le domaine de la génétique cela pourrait être : quelle protéine se fixe sur quel site promoteur, à quel stade du développement et quel est le type d’expérience qui a permis d’en apporter la preuve. Nous n’avons pas connaissance de système aussi élaboré dans le domaine de la génétique.
Nous voyons que l’extraction d’information se concentre sur la compréhension du texte, en évitant de faire référence à des connaissances extérieures. Par exemple, dans la tâche de reconnaissance des personnes, la question est plus de savoir qu’une portion de texte est un nom de personne (reconnaissance d’entité nommée) ou de savoir que plusieurs portions de textes renvoient en fait à un même individu (résolution d’anaphore), plutôt que d’identifier la personne avec une entrée d’un annuaire. Ainsi, la question est de comprendre ce qui est dit dans le texte et non de relier les éléments de compréhension acquis dans le texte à des connaissances acquises indépendamment.
Si le problème consiste à connecter, d’une part, des éléments de compréhension acquis dans le texte à, d’autre part, des connaissances du domaine acquises indépendamment, on se trouve face à d’autres exigences. On est placé dans le domaine de ce que nous appellerons la création de liens entre données factuelles et données bibliographiques. Cette thématique rejoint celles du couplage des bases de données, qu’elles soient bibliographiques ou factuelles.

Up Previous Next Title Page Index Contents