B. L’extraction
d’informations textuelles
La recherche d’informations, dans son
expression la plus simple, consiste à extraire un document ou un segment
de document, c’est à dire une portion de texte. Le résultat
est destiné à la lecture humaine et non à une exploitation
informatique. Si l’on cherche à retourner une information
codée dans un langage accessible à l’ordinateur, on quitte
le champ de la recherche d’informations pour entrer dans celui de
l’extraction d’informations.
L’extraction
d’informations peut être considérée comme une branche
de l’informatique. Il s’agit de répondre à une
question bien précise. La réponse devra être codée
dans un format défini par avance
(Jacquemin et al., 2000). Des exemples
typiques de tâches d’extraction d’informations sont
donnés dans la série de conférences
MUC
(MUC-6, 1996). Les Message understanding
conferences sont des
compétitions organisées dans le domaine de l’extraction
d’informations. Dans les épreuves, il s’agit par exemple de
savoir quelles sont les entreprises qui fusionnent, se créent, passent
des accords, etc. Pour réaliser une telle tâche, il faut être
capable de réaliser des sous-tâches. La compétition est
organisée en épreuve correspondant chacune à une
sous-tâche. Je décris dans les sections suivantes chacune des
sous-tâches définies par les conférences
MUC.
- La reconnaissance d’entités
nommées
(REN)
Il
s’agit de reconnaître les entités tels que des noms
d’entreprise, des noms de personnes, des noms de lieux, des dates, etc.
Les méthodes utilisées peuvent être basées sur un
apprentissage statistique d’exemples
(Bikel et al., 1997), sur le repérage
d’indices comme les titres honorifiques (Monsieur, Docteur, etc.), ou sur
la recherche de patron syntaxique. Pour chaque entité rencontrée,
une marque SGML (i.e. une chaîne de caractères) est posée de
façon à délimiter la portion de texte
repérée.
De tels travaux existent pour la reconnaissance des
labels et nous y reviendrons dans la partie consacrée aux travaux concernant
la reconnaissance de gènes sans lexiques (section Chapitre 2 I.B).
- La résolution
d’anaphore
(co-reference
resolution)
Il s’agit de
repérer quand, dans un texte, il est fait référence
plusieurs fois à une même entité, même si cette
entité est nommée de façons différentes ou si un
pronom personnel est utilisé. Cela recouvre en particulier la
détection de lien d’abréviation, avec comme exemple
d’utilisation la construction de dictionnaire d’acronymes à
partir de corpus. Ce type de tâche est utile pour la reconnaissance des
interactions car il est fréquent qu’un gène soit
nommé de plusieurs façon dans le même résumé,
précisément dans le cas d’utilisation
d’abréviation. En revanche, le cas de l’utilisation
d’un pronom pour faire référence à un gène
semble être très peu fréquent dans notre
corpus.
Il existe des travaux sur la construction, à
partir de corpus, de dictionnaire d’acronymes pour les noms de gènes.
Nous y reviendrons à la section Chapitre 2 I.C.
- Le remplissage d’un
formulaire simple (template
element)
Il s’agit de
trouver des caractéristiques d’un objet. Par exemple, pour un
produit, trouver son nom, la société qui le fabrique, son prix,
etc.
- La découverte d’une relation (template
relationship)
Il s’agit de
mettre à jour des relations entre les objets. On peut classer
l’extraction d’informations sur les interactions dans cette
catégorie.
- La description d’un évènement
(scenario template)
Il
s’agit de donner les caractéristiques d’un
événement dans un texte : objets impliqués et
modalités de réalisation. Par exemple : qui arrive à
quel poste dans quelle entreprise. Dans le domaine de la génétique
cela pourrait être : quelle protéine se fixe sur quel site
promoteur, à quel stade du développement et quel est le type
d’expérience qui a permis d’en apporter la preuve. Nous
n’avons pas connaissance de système aussi élaboré
dans le domaine de la génétique.
Nous voyons que l’extraction
d’information se concentre sur la compréhension du texte, en
évitant de faire référence à des connaissances
extérieures. Par exemple, dans la tâche de reconnaissance des
personnes, la question est plus de savoir qu’une portion de texte est un
nom de personne (reconnaissance d’entité nommée) ou de
savoir que plusieurs portions de textes renvoient en fait à un même
individu (résolution d’anaphore), plutôt que
d’identifier la personne avec une entrée d’un annuaire.
Ainsi, la question est de comprendre ce qui est dit dans le texte et non de
relier les éléments de compréhension acquis dans le texte
à des connaissances acquises indépendamment.
Si le problème consiste à connecter,
d’une part, des éléments de compréhension acquis dans
le texte à, d’autre part, des connaissances du domaine acquises
indépendamment, on se trouve face à d’autres exigences. On
est placé dans le domaine de ce que nous appellerons la création
de liens entre données factuelles et données bibliographiques.
Cette thématique rejoint celles du couplage des bases de données,
qu’elles soient bibliographiques ou factuelles.