1. Structure de
données pour le dictionnaire de lemmatisation
Les statistiques calculées sur les textes
utilisent des donnés qui sont relatives à des lemmes et non
à des formes fléchies. Un dictionnaire de lemmatisation est donc
inclus dans la base de données. Le repérage du vocabulaire
spécifique se fait sans la prise en compte de la différence entre
les majuscules et les minuscules. Les données du dictionnaire sont, par
convention, toutes en minuscules.