I. Veille
technologique, intelligence économique et analyse de l’information
textuelle
Je travaille au
CRRM [2]
qui est un laboratoire dont l’objet de recherche est la veille
technologique. La
veille technologique est une discipline orientée vers l’entreprise.
Elle permet aux décideurs de mieux comprendre l’environnement
scientifique et technique de façon à orienter leurs choix
stratégiques (Dou, 1995 ).
La veille technologique fait partie d’une
démarche plus globale d’observation de la concurrence, des
marchées, de la législation, de la réglementation, des
normes, des évolutions sociales, etc. On parle alors
d’intelligence économique
(Martinet,
1995 ).
Les informations sont collectées,
analysées et synthétisées par des professionnels de la
veille avant d’être transmises à la direction de
l’entreprise (Jakobiak, 1998 ). Le veilleur s’intéresse aux
informations formelles, comme aux informations informelles. Les premières
regroupent les publications scientifiques, articles de presse, rapports,
études, notices bibliographiques, rapports de dépôts de
brevets, bases de données, etc. Les secondes regroupent les comptes
rendus de visites dans les salons professionnels, les rumeurs, les informations
obtenues auprès des fournisseurs ou clients, etc. Les informations
collectées sont le plus souvent non confidentielles. Dans tous les cas,
elles ont été obtenues légalement.
Pour l’information scientifique et technique,
les sources d’informations utilisées sont pour l’essentiel
présentes dans des bases de données. Les données en jeu
sont très nombreuses, elles se prêtent donc particulièrement
bien aux études globales. La veille technologique permet de
déterminer quels sont les thèmes de recherche les plus en vogue,
de connaître les domaines techniques dans lesquels les concurrents
déposent leurs brevets, de réaliser des réseaux de
co-auteurs, voire d’anticiper des tendances futures à partir de
signaux faibles.
Les techniques utilisées sont issues de la
bibliométrie. Dans cette discipline, il s’agit
d’effectuer des mesures (dénombrements ou études
statistiques) sur la science et les techniques à partir de publications.
Le facteur d’impact
(impact
factor) que calcule
l’ISI [3]
pour évaluer l’importance d’une revue dans sa discipline est
un très bon exemple d’étude bibliométrique (Magri,
1997). Quand les études servent au pilotage de la politique de recherche
on parle de scientométrie
(Barré,
1995 ). Quand les études servent à optimiser le fonctionnement des
bibliothèques, par exemple la souscription d’abonnement à
des revues, on parle de
bibliothéconomie.
La bibliométrie permet d’étudier
les producteurs (chercheur, équipe, laboratoire, entreprise, pays, ...)
ou les diffuseurs (éditeur, périodique, colloque,...) d’un
point de vue quantitatif ou qualitatif. Elle permet aussi de cartographier un
domaine de recherche. Des graphes de co-auteurs peuvent être
réalisés, des mots clefs peuvent être
identifiés.
L’étude que nous proposons sur les
interactions entre les gènes fait bien partie du champ de la
bibliométrie. Il s’agit d’exploiter des ressources
bibliographiques existantes pour obtenir une vision synthétique
d’un domaine de recherche donné. Il y a d’ailleurs une forte
analogie entre les réseaux de co-auteurs et les réseaux de
gènes en interactions. Dans les deux cas, il s’agit d’offrir
une vision synthétique des collaborations qui interviennent entre
différents acteurs dans la réalisation d’une certaine
tâche.
Dans la plupart des cas, les études
bibliométriques ne s’intéressent pas au champ
résumé. Les champs utilisés sont les champs auteur,
affiliation, date, source (nom du journal par exemple), mot clef, code de
classement, etc. Ces champs sont appelés champs
contrôlés. Ces champs contiennent une information de nature
très différente de celle qui est contenue dans le champ
résumé. Les modalités possibles pour les champs
contrôlés sont assez limitées. Il s’agit d’un
mot, d’un code, d’une date. En revanche le champ
résumé contient du texte rédigé. Dans le domaine du
traitement d’enquête, on appelle cela du
texte
libre : la
personne interrogée rédige librement sa réponse. Cela
correspond à une réponse à une question ouverte : que
faites-vous ? Tandis que les champs de description du document
correspondent chacun à une réponse à une question
fermée : qui a participé à l’écriture du
document ? Où a-t-il été publié ? Etc.
Dans le domaine de l’intelligence artificielle on appelle le texte
rédigé du langage
naturel, par
opposition aux langages informatiques qui manipulent des symboles, des nombres,
des équations et des instructions.
La nature des champs est très
différente ; les moyens d’analyse seront donc
différents. Alors que pour le champ auteur, il suffit d’extraire
les associations de noms présents pour obtenir un graphe de co-auteurs,
il n’en va pas de même pour réaliser un graphe de co-citation
des gènes. Cela demande des traitements préliminaires :
reconnaître les noms de gènes en présence dans le texte et
les associer au gène qu’il désigne (à travers un
numéro unique propre à chaque gène). Ce problème,
l’identification des gènes dans les textes, est assez complexe
comme nous le verrons dans la partie Partie 2 Chapitre
1
I [4].
Le traitement a nécessité l’utilisation d’un
dictionnaire des gènes. Ce dictionnaire décrit la terminologie
employée pour les gènes de la drosophile. Le traitement a aussi
nécessité l’emploi d’une base de données
relationnelle. Cette base était en effet indispensable pour organiser
correctement le dictionnaire. Elle a aussi servi à mémoriser les
annotations faites par l’expert et par le programme. Elle permet de faire
toutes sortes de comparaisons entre les données, de façon à
affiner la terminologie des gènes et à résoudre leurs
identifications dans les textes.
[4]
Pour consulter les renvois, on pourra se référer au plan
détaillé.