Le groupe Etudes: l'analyse statistique des donnees textuelles
La première réunion du groupe Études de l’Association des Anciens Élèves de l’Ensae consacré aux méthodes d'analyse des données textuelles a eu lieu le 13 avril, dans les locaux de l'École des Hautes Études en Sciences Sociales, de 18 heures à 20 heures. Malgré la grève des transports, 29 personnes ont pu venir. Le groupe était constitué, pour dire vite, de praticiens chevronnés, de personnes intéressées par des applications à des problèmes particuliers, de type études, et de chercheurs de l'EHESS, dont des thésards qui s'intéressent à ces techniques. Les membres de l’Astec étaient minoritaires.
Après une brève présentation des objectifs du groupe (faire se rencontrer praticiens, et utilisateurs potentiels de ces techniques), et une rapide présentation du champ (acteurs, techniques), la séance a comporté deux exposés par des experts du domaine, Max Reinert (CRNS, concepteur du logiciel Alceste) a présenté son logiciel et quelques applications portant notamment sur des corpus de textes « littéraires », et Ludovic Lebart (ENST, concepteur du logiciel Spad.T) a brossé un tableau des techniques en montrant les applications de traitement des questions ouvertes. Par ailleurs, les participants au groupe se sont présentés et ont décrit brièvement la nature de leurs travaux. La réunion s'est continuée par une «troisième mi-temps » dans un café voisin, jusqu'à fermeture de celui-ci, avec des discussions animées et intéressantes.
Je fais ici un résumé subjectif de la séance, qui ne saurait rendre compte de la richesse des exposés.
Le champ de l'analyse statistique des données textuelles est en expansion rapide. Un certain nombre de logiciels permettant de traiter du texte par des méthodes statistiques sont déjà sur le marché, ou à un stade préindustriel. Par exemple (liste non exhaustive): Spad.T, Alceste, Termino, Hyperbase, Sato, Tewatt, Lexico, Prospero, Candide, Semiometre, Sphinx, Metis... Les utilisateurs sont, actuellement, principalement des centres de recherche publics ou associés à de grandes structures (Telecom, EDF, IBM...), ou des bureaux d'étude. Quelques firmes de grande taille commencent à utiliser ces techniques pour des applications industrielles.
Les adeptes de ces techniques forment un « collège invisible » qui se réunit aux JADT: Journées d'Analyse des Données Textuelles (les 3àmes de ce nom auront lieu à Rome, La Sapienza, 11 - 13 décembre 1995 - contact: M. Gabriella Ottavioni, 396 499 107 39). En France, il est probable qu'une centaine de personnes peuvent être considérées comme des praticiens réguliers.
Pour dire vite, les techniques d'analyse statistique des données textuelles (ADT), rapidement présentées dans Variances n'3, reviennent à ramener les textes, qui constituent le matériau brut, à des tableaux croisés de type (Unités textuelles) x (Lexèmes). Les unités jouent le rôle d'individus, et les lexèmes de variables. On se retrouve alors dans la situation classique de traitement de tableaux croisés, auxquels les méthodes statistiques sont alors applicables, et en particulier les méthodes d'analyse multivariées. Rappelons à ce sujet que le projet initial de J. P. Benzecri quand il développa ces techniques était précisément de traiter du texte (Benzecri, 1973, 1981). Uanalyse des données «classique» que nous connaissons sur des variables modales n'est en fait qu'un sous-produit du projet initial de Benzecri!
L'ADT pose certains problèmes techniques spécifiques. Je vous renvoie à l'ouvrage de Lebart et Salem (1988) pour une vision générale et plus détaillée.
D'abord, le choix des « individus » et des «variables». Un texte peut se découper en unités élémentaires de taille variable: caractères, formes graphiques (chaînes de caractères séparées par des blancs ou des signes de ponctuation, ex: « pomme », « boite »), segments répétés (suites de formes graphiques récurrentes, ex: «pomme de terre », « boite de vitesses »), quasi-segments (segments répétés pouvant être intercalés de formes graphiques, ex: «ne( ... ) pas » « analyse ( ... ) textuelle »), unités de contexte (ex: la phrase), parties de texte (ex: paragraphe, chapitre, tour de parole, réponse individuelle quand le fichier est constitué de réponses à des questions ouvertes). Ces unités sont emboîtées, ici décrites par ordre de taille croissante, et sont directement présentes dans le texte dont elles s'extraient par simple découpage automatique. Une autre unité utilisable est l'unité lemmatisée, ou lemme, c'est à dire une unité réduite à la racine. Elle doit être extraite du texte par un processus plus complexe qui fait intervenir une intelligence lexicale, syntaxique ou sémantique. Par exemple, le lemme «chant» est obtenu par reconnaissance du radical commun aux formes graphiques « chante », « chanterais », « chants »...
Le tableau de données est construit en croisant des unités textuelles.
Le choix de l'unité textuelle dépend de ce que recherche l'utilisateur, il est parfois difficile; il n'y a pas de solution universelle optimale. On pourra par exemple construire un tableau [réponses x formes graphiques], ou [réponses x segments répétés] pour analyser des réponses ouvertes; c'est ce que l'on fait en général avec le logiciel Spad.T qui a été spécialement conçu pour exploiter ce type de données en les croisant avec les variables modales issues des autres questions (fermées) du questionnaire. Ou encore, un tableau [unités de contexte x lemmes] ou [unités de contexte x lemmes répétés], comme on le fait en général avec le logiciel Alceste pour explorer des textes plus longs issus de bases de données textuelles.
La stratégie de «tableauisation» du corpus dépend de la nature du corpus traité et des objectifs du traitement. Par exemple, savoir s'il faut lemmatiser ou non est une décision qui doit être prise au vu de la nature des données.
La lemmatisation permet de traiter des tableaux moins «vides» (cf. infra), et d'avoir de meilleures stabilités des résultats; elle fait par contre perdre des flexions qui peuvent être pertinentes dans certains cas (par exemple, elle ramène au même lemme pluriel et singulier). Une lemmatisation partielle peut être souhaitable. Elle semble surtout utile dans les textes longs, peu répétitifs, et riches en vocabulaire (terrain de prédilection d'Alceste, qui a introduit dès l'origine l'option de lemmatiser), et moins dans les questions ouvertes, aux réponses très stéréotypées et où des variations mineures du type singulier/pluriel sont importantes à prendre en compte. On dispose désormais de lemmatiseurs performants. Silex, l'analyseur syntaxique par couches mis au point par Patrick Constant (Langage Naturel SA: Constant, 1991), semble en passe de devenir un standard: utilisé à titre expérimental au Credoc pour améliorer Alceste, son intégration esten cours dans Spad.T, serait déjà faite dans Sphinx, et il sera bientôt en interfaçage standard avec Alceste.
il n'existe pas de solution optimale unique pour le découpage des corpus en unités textuelles. Si la solution est relativement simple dans le cas de réponses à des questions ouvertes (1 réponse= 1 unité textuelle- individu statistique), dans le cas de textes longs c'est moins simple: faut-il prendre le texte entier, le paragraphe, la phrase? À ce problème redoutable Alceste apporte une réponse extrêmement élégante : il n'effectue pas de choix à priori, mais croise automatiquement plusieurs analyses sur des segments de textes de longueur variable (« unités de contexte ») dans une fourchette définie arbitrairement par l'utilisateur, pour ne conserver que les résultats stables, et donc indépendants du choix arbitraire initial. Je vous renvoie aux papiers de Reinert (1 983,1986,1987a et b, 1990,1991, 1 992a et b, 1993 a et b) et surtout au 1 993a, pour des précisions.
Une difficulté plus mathématique vient de ce que, quelle que soit la manière dont les corpus sont «tableauisés», le tableau résultant est hypercreux, c'est à-dire qu'il est essentiellement constitué de zéros (en général, de l'ordre de 95 à 99%). Cela se comprend facilement, puisqu'un individu (paragraphe, réponse ouverte ... ) n'utilise qu'une faible part du vocabulaire total. Si celui ci est de 1000 mots et qu'un individu (ex: réponse ouverte) moyen n'en utilise que 10, la ligne comportera 99% de zéros. Les méthodes factorielles classiques ont donc tendance à donner des résultats instables, et en même temps à manipuler des tableaux énormes. Diverses solutions ont été adoptées. L'une consiste à réduire le nombre de variables (mots) en ne retenant que les plus fréquentes, mais on perd de l'information. D'autres consistent à utiliser des techniques de classification. Les plus efficaces semblent des méthodes holistes (classification descendante, méthode de Condorcet ... ); le clustering ascendant classique étant assez sensible aux petits groupes d'individus stéréotypés qui constituent de dangereux noyaux d'accrétion des classes.
Ludovic Lebart et Max Reinert ont illustré leurs exposés d'exemples concrets:
l'analyse discriminante de textes, qui permet d'attribuer à tel ou tel auteur un texte d'origine douteuse, l'analyse de contenu de la Revue Surréaliste, qui fait apparaître clairement les registres discursifs et les problématiques de cette école hétérogène...
Je ne peux faire un compte-rendu détaillé, car je n'ai pas pris de notes exactes. Voici quelques idées qui m'ont frappé.
Paradoxalement, les questions ouvertes semblent plus adaptées pour les enquêtes internationales que les questions fermées, car elles permettent une meilleure prise en compte de la diversité culturelle (Lebart). Par exemple : quand on questionne sur leur alimentation des Japonais, des Français et des Américains, faire du fermé obligerait à lister tous les plats les plus fréquents dans toutes ces cultures pour avoir une bonne comparabilité, ce qui est à la fois inefficace et absurde, puisque certaines modalités sont non pertinentes pour un tas d'enquêtés (ex: peu de Français consomment des sushi, et peu de Japonais de la blanquette).
«Le profil lexical est sémantique» (Lebart). Le profil distributionnel d'un terme apporte des informations sémantiques, puisqu'il est l'indice des contextes d'utilisation du mot. Ceci permet de désambiguiser, et de limiter la nécessité du recours à des méthodes sophistiquées de compréhension grammaticale ou syntaxique.
Il existerait des niveaux de discours qui se retrouvent dans la plupart des textes, et renvoient à des catégories de la perception et de l'entendement (Reinert). Elles renvoient, pour dire vite, à des niveaux sensoriel, objectif et symbolique de la description du monde.
Les prochaines séances seront organisées autour des thèmes qui intéressent les participants: l'analyse des questions ouvertes, le traitement des corpus longs, l'exploration documentaire, la modélisation des objets... Nous envisageons de tenir les réunions dans les différentes institutions qui développent ces techniques.
Pour plus d’informations, contacter Saadi Lahlou (Ensce 83)
Aucun commentaire
Vous devez être connecté pour laisser un commentaire. Connectez-vous.