Recension : Émilie NÉE (dir.), « Méthodes et outils informatiques pour l’analyse du discours », Presses Universitaires de Rennes, Rennes, 2017, 248 p. ISBN : 978-2-7535-5499-3.

Yeny Serrano – Université de Strasbourg / LISEC / ADAL  

Six chercheurs en sciences du langage (Émilie Née, Frédérique Sitri et Marie Veniard), sciences de l’information et de la communication (Christine Barats), linguistique informatique (Serge Fleury) et informatique textuelle (Jean-Marc Leblanc) proposent cet ouvrage articulant l’analyse automatisée de données textuelles à des problématiques d’analyse du discours. La présentation des outils statistiques et informatiques suit le fil conducteur d’une démarche méthodologique inscrite dans l’analyse du discours (AD), telle qu’elle s’est développée en France, à partir des travaux de Jean Dubois, Michel Pêcheux et Michel Foucault au sujet de « l’ancrage social et politique du mot et sur le retour, dans un discours, de séquences posées comme équivalentes » (p. 12). Pour les auteurs, l’objectif est de rendre accessibles les méthodes d’analyse de données textuelles aux étudiants et aux chercheurs qui, maîtrisant d’autres méthodes, veulent élargir leurs compétences pour mieux traiter leurs corpus.

L’ouvrage s’organise en six chapitres, auxquels s’ajoute une section de fiches pratiques et d’approfondissement. Ces dernières proposent des éclairages ou des procédures méthodologiques détaillées. À ceux voulant s’initier à l’analyse du discours assistée par des outils informatiques, les auteurs recommandent les chapitres 1 (« Compter les mots ? Pas si simple »), 3 (« Constituer un corpus en trois scénarios »), 4 (« Compter dans les textes, quelles unités ? ») et 5 (« Quels outils logiciels et pour quoi faire ? ») ; et aux experts, ils conseillent de se concentrer sur les chapitres 2 (« Constituer un corpus en analyse du discours, un moment crucial ») et 6 (« Problématiques d’analyse du discours et méthodes »). Chaque chapitre inclut également des encadrés « pour aller plus loin » et des « zoom » suggérant des références complètes et des exemples des recherches illustrant la thématique traitée.

Le cadre théorique de l’AD est synthétisé en introduction. Il est précisé que l’analyse de données textuelles à l’aide d’outils informatiques n’est pas exclusive à cette discipline ; la statistique linguistique, la lexicométrie ou la sémantique interprétative s’y intéressent également. Ce qui caractérise l’AD est la manière dont elle aborde « l’extérieur » discursif, autrement dit la situation, le contexte et l’environnement du discours comme se manifestant dans le discours et le déterminant. L’AD postule que l’on ne dit pas la même chose en le disant autrement et que l’on n’accède pas « directement » au sens d’un discours, car le discours n’est pas le simple « reflet » d’une pensée ou d’une idéologie. En tant que discipline interprétative, l’AD cherche à expliquer la façon dont se construit le sens dans le discours étudié, tout en sachant que ce sens ne se construit pas « en dehors » de la langue, mais dans l’interaction entre les formes (mots, constructions syntaxiques, ponctuation…) et les déterminations extérieures.

Le Chapitre I pose les prérequis indispensables à une analyse du discours assistée par l’outil informatique, à savoir la connaissance du fonctionnement de l’outil. Ceci est très bien illustré avec un exemple qui compare le comptage de mots d’un poème de Baudelaire par Word, Notepad et une commande d’Unix. Les différences dans les résultats obtenus s’expliquent par la façon dont un mot est identifié par l’outil : tient-lui compte des espaces et des tirets ? Que fait-il des mots composés ? En d’autres termes, compter les mots (ou d’autres types d’unités) revient à faire des choix et ces choix nécessitent que l’on définisse très bien ce que l’on veut compter afin de pouvoir s’assurer que les décomptes obtenus correspondent aux choix de départ. Puis, se pose la question de savoir pourquoi on compte ce qu’on compte : quelle est la problématique autour de laquelle on construit les données avec lesquelles on validera ou infirmera des hypothèses. Ensuite, on décide de la manière de récolter, de structurer et d’organiser les données. Enfin, on identifie les unités à traiter : mots, séquences de mots, phrases…

Ces choix faits, on procède à la constitution du corpus, étape traitée dans les chapitres II et III. Le chapitre II commence par les principes de base, à savoir que tout corpus est :

  • plus qu’un simple recueil de textes ; il est construit en fonction de questions et des hypothèses de recherche : il est donc « un point de vue sur les données discursives » (p. 42) ;
  • contextualisé, autrement dit tributaire des conditions extra-langagières dans lesquelles il a été produit ;
  • contrastif ou comparatif. Les auteurs indiquent que même si la dimension comparative/contrastive n’est pas obligatoire, elle est utile pour expliquer comment se construit le sens : « le sens naît de la différence » (p. 43).

La constitution du corpus relève des choix arbitraires, notamment celui de la taille et des caractéristiques du corpus : clos/ouvert ou homogène/hétérogène. Historiquement l’AD ne s’est pas toujours positionnée de la même manière : les premiers travaux prônaient la constitution de corpus clos, déterminés par des conditions de production stables et homogènes, puis rapidement elle réfute cette clôture du corpus, en raison du caractère interdiscursif et dialogique du discours. Or, l’analyse outillée par l’informatique et les calculs qu’elle suppose nécessitent des corpus stables. Pour concilier stabilisation et ouverture du corpus, trois propositions sont faites :

  • constituer un corpus fermé en se basant sur des « moments de corpus » ; les résultats peuvent être par la suite mis en relation avec des énoncés hors corpus ;
  • intégrer le « hors-corpus » à travers des « corpus réflexifs ». Cela consiste à rassembler de grands voire de très grands corpus, contenant eux-mêmes les ressources permettant leur interprétation ;
  • construire des « corpus à géométrie variable » de façon à porter l’analyse sur l’ensemble du corpus et sur les différents « sous-corpus » qui le constituent.

En outre, la constitution d’un corpus peut se faire : a) en fonction des unités prédécoupées par les pratiques verbales – que Maingueneau et Charaudeau appellent « unités topiques » – et s’organisant autour de la notion de genre de discours ou b) selon des unités qui traversent les frontières des textes et des genres de discours, appelées « unités non topiques », comme par exemple les sources énonciatives, les espaces ou les sphères d’activité (juridique, médiatique, politique) ou les moments discursifs, notamment autour d’un fait. Enfin, le chapitre consacre sa dernière section aux corpus recueillis sur le web étant donné l’hétérogénéité textuelle qui caractérise ce support et qui oblige le chercheur à définir des règles de non-homogénéisation ou bien d’homogénéisation partielle ou totale.

Le chapitre III illustre le précédent. Cinq étapes de constitution et de préparation de corpus répondant à une problématique d’analyse du discours sont détaillées en trois scénarios : a) un corpus médiatique autour d’une forme langagière (expression, énoncé, mot-notion), b) un corpus sociopolitique autour d’un thème et c) un corpus politique de discours de campagne électorale (un genre). Pour commencer, il faut 1) définir l’objet d’étude et donc le corpus, puis 2) recueillir le corpus, par exemple dans des bases de données ou des plateformes dédiées, comme Europresse ou Factiva. Ensuite, il convient de 3) formater et nettoyer les données pour les adapter au format du texte reconnu par l’outil informatique (ex : UTF-8). Après, 4) on prépare les données, ce qui revient à prendre des décisions concernant la lemmatisation et l’annotation du corpus. La lemmatisation consiste à « transformer un texte en groupant sous une forme canonique : les substantifs (noms commun) et les adjectifs au masculin singulier ; les formes verbales à l’infinitif ; les formes élidées à la forme sans élision. Lemmatiser ou non un corpus est un choix qui dépend des hypothèses : un corpus lemmatisé facilite le traitement statistique en réduisant les formes graphiques, mais ne permet pas de rendre compte de certaines réalités : comme par exemple le fait que « quand la gauche parle de liberté (au singulier), la droite, elle, thématise sur les libertés (au pluriel) » (p. 82). L’annotation du corpus (morphosyntaxique ou grammaticale et sémantique ou pragmatique) implique une activité interprétative du chercheur consistant à ajouter des informations (linguistiques ou non) aux unités qui constituent le corpus pour le caractériser. Si au début la lexicométrie prônait la lemmatisation et une intervention minimale du chercheur, aujourd’hui de nouvelles pratiques apparaissent. Comme dans le cas de la lemmatisation, la décision d’annoter ou non le corpus dépendra des objectifs de la recherche. La cinquième étape correspond à la concaténation des fichiers, la structuration des données et le balisage ; autrement dit à l’organisation du corpus pour le charger dans le logiciel. La concaténation – imposée par de nombreux logiciels – consiste à rassembler les textes en un seul fichier. Une fois les textes réunis en corpus, on le divise en parties correspondant aux variables d’analyse : temps, locuteur, lieu de publication… C’est l’étape de la structuration. Enfin le balisage consiste à placer en amont de marqueurs textuels ayant un statut particulier que le logiciel peut reconnaître. Ces marqueurs sont ensuite utilisés pour structurer les données chargées dans le logiciel. Quoi qu’il en soit, pour bien préparer et formater son corpus, il est essentiel de lire la documentation du logiciel qui sera utilisé.

Constituer un corpus revient également à segmenter les données, autrement dit à savoir ce que l’on va compter et définir des règles rigoureuses de dépouillement pour trancher dans des cas douteux. C’est l’objet du chapitre IV qui, à travers deux exemples concrets (le poème de Baudelaire et un corpus des vœux des présidents de la Ve République), présente trois types d’unités de découpage : a) unités autour du mot (comme les formes graphiques ou les catégories morphosyntaxiques…) ; b) celles au-delà du mot (comme les segments répétés ou les cooccurrences…) et c) les unités paradigmatiques (comme les groupes de formes). Un tableau synthétique se trouve page 121. Toutes ces unités résultent des problématiques développées par les chercheurs en AD au cours du temps. Si à un moment on a privilégié les analyses autour des formes graphiques, l’observation des phénomènes de répétition et de figement a fait évoluer les problématiques autour de nouvelles perspectives de recherche comme la phraséologie ou la sloganisation, à propos desquelles les auteurs reviennent dans le chapitre VI.

Consécutivement, on peut choisir l’outil informatique approprié. Sachant que tous les logiciels ne permettent pas de répondre à toutes les problématiques, le chapitre V présente les principaux outils employés pour l’analyse de données textuelles (ADT), les approches qui leur sont associées et leurs principales fonctionnalités. Une place particulière est réservée à l’analyse factorielle des correspondances (AFC), méthode inductive nécessitant un certain nombre de précautions méthodologiques et que l’on utilise en lexicométrie pour identifier les faits saillants d’un corpus en termes de distribution du stock lexical. La présentation des outils informatiques s’appuie sur trois corpus exemples : le corpus de vœux présidentiels, le corpus Corpex (expérimental, volontairement éclectique et qui rassemble des tragédies classiques) et un corpus constitué d’un discours de l’ex-président des États-Unis, B. Obama, en anglais plus quatre traductions françaises de ce discours.

Les logiciels sont ainsi exposés en fonction des problématiques auxquelles ils permettent de répondre. Un tableau synthétique regroupant l’ensemble de logiciels est présenté en p. 160-161. On peut citer quelques exemples : Alceste, Astartex, Iramuteq ou Tropes se basent sur des méthodes statistiques reposant sur les cooccurrences et sont ainsi utiles pour identifier des thématiques. Lorsqu’il s’agit de dresser de typologies, les logiciels qui caractérisent des distances intertextuelles comme Hyperbase, Textobserver, Lexico ou Le Trameur sont à privilégier. Pour caractériser un texte d’un point de vue stylistique (richesse lexicale, originalité du vocabulaire, entre autres) Hyperbase ou Sphinx sont appropriés. Les auteurs précisent que les différences entre les logiciels sont tributaires du contexte historique et des recherches pour lesquelles ils ont été créés. Ainsi par exemple, des chercheurs inspirés par la psychanalyse se sont intéressés aux mots qui arrivaient ensemble dans les mêmes phrases (cooccurences), car ils étaient censés révéler des structures signifiantes. Dans cette logique, le logiciel Alceste a été conçu pour identifier des « mondes lexicaux » ou thématiques dominantes d’un texte. D’autres logiciels ont été conçus au sein d’approches divergeantes de l’AD, en ce qu’elles reposent sur une conception du discours postulant par exemple la transparence du discours. C’est le cas des logiciels partant de catégories préexistantes appelées « ontologies » ou « ontologies sémantiques » (Tropes, Cordial) et qui cherchent à restituer le « sens » d’un texte sous la forme de cartographies de champs sémantiques. Outre cette diversité d’outils disponibles, une précision est faite : ce n’est pas le logiciel qui fait automatiquement l’analyse, c’est le chercheur qui sélectionne un logiciel adapté à sa problématique de recherche et s’en sert pour y répondre.

Le dernier chapitre, « Problématiques d’analyse du discours et méthodes », est justement consacré à cinq problématiques communes en AD : a) comment identifier les thèmes d’un corpus, b) comment saisir l’évolution du sens de certains vocables en parallèle à, ou accompagnant des changements socio-historiques, c) comment observer le figement et la routinisation, d) comment décrire et caractériser les genres discursifs ou e) comment étudier la construction discursive d’un événement et la circulation des discours. Un tableau synthétique est également disponible en pages 201-202.

a) Afin de déterminer de quoi parle un corpus et comment, le chercheur peut procéder de manière déductive ou inductive. Dans le premier cas, il pourra utiliser des dictionnaires des formes ou des grilles ontologiques ; dans le second cas, le corpus est segmenté en fragments d’énoncés, appelés unités de contexte élémentaires. La méthode de la classification descendante que proposent des logiciels comme Alceste ou Iramuteq est utile pour ce type d’analyse. Une deuxième méthode inductive consiste à sélectionner le vocabulaire le plus fréquent du corpus, considéré comme le plus significatif (souvent les 200 ou 300 mots lexicaux les plus fréquents), puis à effecteur une AFC.

b) Lorsqu’on s’intéresse à l’analyse des évolutions sociales, le vocabulaire s’avère être un indice révélateur. En effet, le mot témoigne des évolutions socio-historiques et des prises de position parce qu’il participe à la configuration de la réalité sociale. On peut citer l’exemple de l’analyse d’un corpus constitué de motions votées lors de congrès de différentes centrales syndicales qui révèle un changement important dans l’emploi des formes travailleurs et salariés au cours du temps. D’autres travaux confirment que le sens ne se construit qu’en cotexte : les mots changent de sens selon les positions de ceux qui les emploient. Par exemple, une analyse des discours des candidats à la présidence en 2007 avait montré que travail et travaux ne partagent pas d’univers référentiels ou discursifs. Il faut recourir au cotexte afin de saisir les différences. D’ailleurs, pour étudier le sens, les linguistes opposent « un sens stabilisé et partagé (dit ‘‘en langue’’) à un sens plus variable, moins pérenne (dit ‘‘en discours’’) » (p. 182). C’est le sens « en discours » qui est lié aux mouvements socio-historiques ou à des enjeux idéologiques. Pour l’étudier, on peut corréler des différences cotextuelles à des différences d’emploi. Enfin, les auteurs déclarent que si certaines formes grammaticales (déterminants, prépositions dites asémantiques/incolores telles que de) ont longtemps été exclues de l’analyse lexicométrique, car considérées comme sémantiquement pauvres, certaines sont statistiquement pertinentes et ouvrent la voie à des interprétations intéressantes.

c) Le troisième type de problématique abordée dans le chapitre vient de l’observation d’associations lexicales récurrentes et – plus ou moins – figées. En fait, les sujets parlants oscillent entre deux pôles : « l’idiosyncrasie (la création d’une parole originale) vs la phraséologie (la reprise de ‘‘préfabriqués’’) » (p. 188). Pour étudier ces phénomènes, trois types d’unités sont présentées : i) les segments répétés (SR) (comme sécurité sociale, juge pour enfants), ii) les formules (ou expressions ad hoc, figées, qui circulent de manière fréquente et se retrouvent investies d’enjeux argumentatifs) et iii) les segments semi-figés (cas où le figement n’est pas complet pour constituer un SR, mais où des cadres syntaxiques avec des places vides sont « remplies » par différents items lexicaux : il est dans l’attente, dans l’attaque, dans le déni). L’étude de ces phénomènes d’associations lexicales, ou phraséologie, a mis en évidence que si dans certains cas, ce sont des enjeux idéologiques qui sont présents, dans d’autres cas, les discours à forte dominante phraséologique servent à créer, consolider ou amender une identité discursive. Dans d’autres cas, il s’agit d’anticiper certaines logiques discursives, notamment celles du discours journalistique afin de faciliter la reprise et la citation.

d) La quatrième problématique concerne le genre qui peut être utilisé pour rassembler des corpus homogènes et comparables. Dans le champ de l’ADT, le genre est encore peu pris en compte, mais une des premières approches consiste à caractériser un genre. L’exemple de l’éditorial est cité. Certains interrogent encore cette catégorie, mais en AD, on considère que le genre participe à la construction de l’interprétation.

e) Enfin, le chapitre consacre une section aux particularités du discours médiatique en raison de ses propriétés et des contraintes qui le façonnent. Une des caractéristiques du discours médiatique qui intéresse particulièrement l’AD est la pluralité des voix qui s’y expriment. Tout particulièrement en AD, le discours médiatique est utile pour analyser la construction discursive d’un événement. En effet, « l’événement, à la différence du fait, est toujours adressé : il survient pour quelqu’un qui va chercher à l’interpréter, à l’intégrer à son histoire. Au niveau d’une société, les médias remplissent cette fonction d’‘‘interprétants’’ […] » (p. 196).

En conclusion, l’utilité de ce manuel n’est pas à mettre en doute. Le fait de détailler les outils existants pour mener des analyses de données textuelles en suivant le fil conducteur de la démarche de la recherche scientifique est particulièrement appréciable. Si d’une part, le manuel peut devenir désuet dans le sens où les logiciels présentés peuvent changer leurs fonctionnalités, évoluer, voire cesser d’être mise à jour ; d’un autre côté, la démarche scientifique appliquée à l’AD sera toujours d’actualité.

Pour citer cet article :
Référence électronique
SERRANO Yeny, 2017, « Émilie NÉE (dir.), 2017, Méthodes et outils informatiques pour l’analyse du discours (Rennes : Presses Universitaires de Rennes) », ADAL : Analyse des discours de l’Amérique Latine [En ligne], mis en ligne le 3 janvier 2018, URL : http://www.adalassociation.org/documentation/98-recension/246-emilie-nee-dir-methodes-et-outils-informatiques-pour-l-analyse-du-discours