/ Veille sur les humanités numériques

Atelier Histoire et Informatique « Textométrie des sources historiques »

Elise Moisson-Leclerc et Corinne Manchio

à l’Ecole Française de Rome, 2-6 juin 2014

Lundi 2 juin 2014

Présentation de l’atelier par Jean-Philippe Genet et Francesco Stella.

L’atelier a été conçu pour nous présenter et nous aider à utiliser au mieux les techniques de la textométrie dans le cadre de travaux historiques et philologiques.
« Textométrie » est un terme utilisé surtout en France, en concurrence avec « lexicométrie ». Il est mis en avant notamment par Damon Mayaffre, dont le travail sur les discours d’hommes politiques français est l’un des monuments actuels de la « textométrie ». En italien on parle de « stilometria », en anglais de « stylometry ». On voit d’emblée que les notions ne se superposent pas forcément (la question linguistique notamment se pose différemment).

Les concordances ont été inventées dès le Moyen Âge, pour la Bible et le Corpus iuris civilis, et ont été remises au goût du jour au XIXe pour l’analyse de texte. En ce qui concerne l’attribution de textes anonymes, les recherches menées sur les documents fédéralistes des Etats-Unis (1778), publiées en 1994, ont été pionnières, puis celles sur les Comédies de Shakespeare, et enfin celles sur The coucou’s calling (signé Robert Galbraight, en réalité écrit par J.K. Rowling).

Ces recherches ont montré que le « style » propre à une personne repose en réalité en grande partie sur son emploi des mots vides (prépositions, adverbes, conjonctions, intercalaires, c’est-à-dire les function words).

Présentation de PALM = Plateforme d’Analyse Linguistique Médiévale (Jean-Philippe Genet, Monique Goullet, Mourad Aouini) :

J.-Ph. Genet :

Il s’agit d’un portail en ligne pensé pour gérer une bibliothèque numérique et la lemmatiser (dans certaines langues seulement pour l’instant : latin, français, moyen français, moyen anglais). J.-Ph. Genet évoque une démarche « raisonnable » pour aborder la textométrie dont le but est d’obtenir une visée globale du texte et qui considère le langage comme un système unitaire qui doit être interrogé dans son ensemble.

Le corpus utilisé par Genet est la base de données Meditext, qui comporte les traités politiques les plus importants pour le monde médiéval (Augustin, De civitate Dei, John of Salisbury, Policraticus, Giraldus Wallensis, Vincent de Beauvais, Thomas d’Aquin, De regno, Ptolémée de Lucques, De regimine principum, Gilles de Rome, De regimine principum,…).

Le logiciel de textométrie le plus puissant actuellement (en termes de capacité de calcul) est Lexico 3 : il permet de faire des fréquences, des calculs de spécificité mais on ne peut pas exporter le tableau des spécificités. L’analyse factorielle permet de faire ressortir les similarités et les contrastes entre le vocabulaire des unités du corpus. L’opposition est ainsi très nette entre le De regimine principum de Gilles de Rome et le De civitate dei : le thomisme aristotélicien serait ainsi très éloigné du Cicéron christianisé d’Augustin, sauf qu’en regardant de plus près on voit que ce sont surtout les mots-outils qui génèrent cette opposition. La rupture serait plutôt dans la syntaxe latine du XIIIe siècle plutôt que sur le lexique.

L’un des problèmes de Palm, et de Lexico3, est qu’ils distinguent entre le même mot avec ou sans majuscule, et ne gèrent pas les enclitiques comme « que ». Cela oblige donc à revoir le corpus…

À propos de l’AFC, Genet conseille les logiciels Hyperbase, Lexico3 (qui gère plus de trois millions d’occurrences), R, Analyse (site du Pireh), le Que sais-je ? du sociologue Philippe Sibois sur l’analyse factorielle, disponible en ligne, et rappelle que c’est une méthode d’exploration du corpus, qui permet de faire ressortir les contrastes entre les textes du corpus et qui est toujours suivie d’une analyse des contextes (le point de départ est statistique, mais le travail sémantique est fondamental ensuite).

PALM est conçu comme un outil pour la lemmatisation, pour gérer et fabriquer des corpus, et il est couplé à Meditext. Les textes de la bibliothèque ainsi créés peuvent être exportés sur TXM, Lexico3 et Hyperbase.

Monique Goullet (LAMOP) :

Ajoute quelques mots sur la lemmatisation.

Les textes contenus dans la base Palm comme Meditext ont été rassemblés par J.-Ph. Genet et C. Gauvard. Le projet ERC (2010-2014) a permis d’augmenter encore cette base, avec des textes d’intérêt politique en latin, français et anglais du Moyen Âge. Les formes de texte sont relativement homogènes malgré les différences entre les langues (sermons, traités, chroniques, actes, lettres).

Le choix du lemme est toujours arbitraire (l’infinitif du verbe, la première personne du présent ? le nominatif ou l’accusatif pour les noms ?). L’important est d’avoir un système constant. Le problème réside surtout dans les variations graphiques, qui peuvent aller jusqu’à plusieurs dizaines pour une même forme (40 variantes de corrogata – corvée), et dans les homographes qui correspondent à deux lemmes différents (ex : subiectus, subiectum). Ces phénomènes de variation sont particulièrement nombreux pour mots de la pratique qui subissent l’influence du vernaculaire et des échanges.

Mourad Aouini :

PALM a été conçu comme un outil d’annotation (pour régler ces problèmes de variantes notamment, mais aussi pour revoir des numérisations par exemple) et de transformation aux formats demandés pour les logiciels de textométrie, afin de construire les ressources qu’on exploitera ensuite ailleurs. Il prend la forme d’une plate-forme pour partager les données et annoter les textes.

Un corpus est bâti pour chaque langue, avec des dictionnaires, des possibilités d’annotation manuelle (tagger des noms de lieu, de personnes, etc). Un programme est intégré pour normaliser le texte (en discriminant par exemple entre u et v, etc., en segmentant les mots, ex : geminis-que) et le segmenter. On applique ensuite au texte des tagger probabilistes et les grammaires locales.

La chaîne de travail est la suivante : constitution d’un corpus → annotation → modifications manuelles → exportation.

Il est possible d’ajouter des textes dans PALM (hors Meditext), en les copiant-collant (on peut ajouter des balises de type

,

, ou par fichier. On peut aussi modifier les textes dans l’espace de travail.

Au moment de l’annotation, l’étiquetage est codé : si le mot est en violet, il n’y avait qu’une seule possibilité dans le dictionnaire, pas de problème ; si le mot est en jaune, il y a plusieurs possibilités ; en rouge, il n’existe pas dans le dictionnaire. Les mots en rouge peuvent être annotés et validés manuellement (ils deviennent alors blancs).
Il est possible de lancer des concordances pour voir le contexte avant de décider d’annoter un mot en bloc ou pas. On peut aussi modifier l’orthographe du mot si la saisie n’est pas bonne, le supprimer, ajouter un mot. Une fois le corpus construit dans l’espace de travail, on l’exporte (on choisit l’ordre des textes, etc.). On peut alors créer un XML.

Palm a donc plusieurs niveaux d’utilisation :

  • niveau d’accès. L’espace de travail est personnel. Pour partager avec les autres il faut cliquer sur « ajouter à la bibliothèque ».
  • Quand on rentre un nouveau texte on enrichit le taggeur aussi, et l’etiquetage automatique. Il s’agit d’un taggage de base, pour un travail qui se fait sur les lemmes (et n’a donc pas la finesse linguistique d’Hyperbase ou TXM). Au début du projet, le taggeur avait un taux de réussite de 50% ; aujourd’hui on est environ à 80%.
    Le gros problème du projet ERC, c’est qu’il repose sur un programme avec des post-doc, qui n’aura plus aucun financement après. Du point de vue scientifique, on a un problème aussi au niveau de la validation du texte au moment de l’ajout à la bibliothèque (les modifications ne sont pas dynamiques ; cela peut donc contaminer les dictionnaires). Du point de vue sémantique, il n’est pas dit aussi qu’il soit bon de distinguer les différentes acceptions d’un même mot, car c’est précisément le même mot qui est employé, dans un sens différent en fonction des contextes. C’est un élément digne d’être étudié en soi puisque l’ambiguïté des mots médiévaux est constitutive d’une façon de penser.

Laura Albiero :

Elle évoque l’intérêt pour les textes pratiques (sermons et discours du parlement anglais, chronique, poèmes politiques) qui, en tant que textes normatifs, contiennent un langage spécifique et technique. Elle revient sur la lemmatisation qui peut sembler arbitraire mais qui permet surtout de s’adapter aux besoins de l’utilisateur.

SHELINA Evgeniya, Les vocabulaires du pouvoir en Norvège médiévale.

La doctorante travaille sur un corpus de textes norvégiens du XIIIe siècle, en latin et en norrois (à partir de la base Brepols des textes latin, MGH, Aristoteles latinus, etc.), et plus spécifiquement sur la notion de pouvoir, dont la polysémie est forte, de même que la dimension performative. Les termes renvoyant à cette notion sont très nombreux : d’ailleurs, ces différents mots renvoient-ils à un seul concept, ou bien à plusieurs ? Combien d’unités sémantiques peut-on identifier ?

Il apparaît qu’il n’y a pas de stabilité statistique entre potestas, auctoritas, imperium, dominatio, dominium, ius, iurisdictio, regimen, mais visiblement, potentia prend de plus en plus de place par rapport à potestas et auctoritas. Cela est perceptible en particulier dans les traductions. Si l’on interroge le corpus pour savoir qui détient l’auctoritas, les termes archiepiscopi, abbati, episcopi (très majoritaire), regalis, regni, regis apparaissent, tandis que pour la potestas, c’est regis qui arrive en premier. Il semble donc que différents types de pouvoir aient bien été conceptualisés, et cela confirme l’importance des co-occurrences pour décrire la nature de ce pouvoir. Le pouvoir absolu serait entre les mais de Dieu, tandis que les autres disposeraient d’un pouvoir limité.

En norrois, regnum est toujours traduit par riki et vice versa, mais n’est jamais employé pour désigner le pouvoir des ecclésiastiques. On a un cas où riki est utilisé pour désigner le territoire dominé par un archevêque, qui est traduit en latin par provincie. Riki a un synonyme, veldi, mais le premier n’est employé que pour traiter de la Norvège territoriale, tandis que vald et veldi sont plus abstraits (le pouvoir en général).

Jean-Philippe Genet remarque qu’il faut distinguer le text mining du travail sur corpus. Le travail sur corpus requiert des critères spécifiques pour l’établissement de la base que l’on va interroger ; on tentera aussi de lisser les différences de volume entre les textes pour éviter au maximum que les chiffres soient faussés pour cette raison. Il conviendra selon lui de constituer deux corpus différents, pour les textes norvégiens issus de la monarchie guerrière et laïque et ceux issus de la monarchie instituée par la charte de Saint-Denis, créée en somme par l’Église. Francesco Stella conseille l’utilisation du Q square test pour voir si deux corpus sont comparables d’un point de vue statistique et si les résultats ne seront pas complètement le fruit du hasard.

DUBOURG, Ninon, Lettres papales de dispense au XIIe-XIVe (1404)

La doctorante travaille sur le handicap au Moyen-Âge à partir d’un corpus de 2000 lettres entrantes et sortantes des papautés de Rome et Avignon qui concernent des demandes de dispense de tout ou partie des obligations liées au statut ecclésiastique. Comment l’Église crée le statut de personne handicapée ? Cette étude se rattache à l’Histoire des minorités, courant qui a pris son essor dans les années 60, avant que n’apparaissent également les Disability studies dans les années 80.

La question du handicap dans l’exercice des missions spirituelles est issue de recommandations bibliques, qui deviennent peu à peu des interdictions (1140-90 Decretum Gratiani « corpore vero vitiati similiter a sacris offitiis prohibentur »). Des mesures sont prises pour aménager ces interdictions (1215 Canon 10 du concile de Latran : un homme valide peut remplacer un évêque infirme pour visiter son diocèse) mais selon Thomas (1266-73), le handicap est incompatible avec le ministère.
La textométrie peut être une ressource utile pour l’étude de ce corpus car les lettres sont suffisamment homogènes pour que leurs spécificités ressortent vite. Il s’agit notamment de voir s’il y a un lien entre la forme de la source et la typologie des destinataires. Il existe en effet différents degrés de handicap (sens, mutilations, déformations, maladies débilitantes, faiblesse, vieillesse) et il faut trancher entre celui qui est idoneus ou bien defectus parmi cet ensemble de gens désignés par une kyrielle de termes (infirmus, debilis, aegror, langueo, morbus, senectus, senio, caecus, mutus, surdus, mutilatio, percutio, laesiio, truncatio, amputatio…). La textométrie permet donc d’identifier les mots de l’inhabilité même si d’autres précautions terminologiques sont de mise : distinguer l’infirmité en elle-même de ses effets sur les individus, garder à l’esprit la distance sémantique qui nous sépare de certains mots, etc. Outre la question de l’aptitude à l’exercice du ministère, se pose en effet aussi le problème de la réaction des fidèles face au handicap, à une époque où les marques sur le corps étaient considérées comme le résultat de l’action de Dieu.

Jean-Philippe Genet conseille de distinguer entre ce qui est de l’ordre de la maladie et du handicap. Francesco Stella conseille d’étendre l’analyse aux verbes et expressions qui désignent l’empêchement. Un tournant ayant eu lieu selon lui entre le XIVe et le XVe siècle quant à la considération de la maladie et du handicap comme le reflet d’un péché, il conseille de différencier dans l’analyse entre les périodes.

ALLES-TORRENT Susanna, L’orizzonte digitale dei dizionari e corpora di latino medievale : il caso del Glossarium mediae Latinitatis Cataloniae.

Il s’agit d’un projet consistant à faire la version numérique d’un outil existant en version papier, qui concerne la langue catalane d’avant le XIIe siècle. La structure relativement fixe du dictionnaire donnait à penser que cette opération serait relativement facile, mais on constate que les auteurs des fascicules ont adopté différentes méthodes au fil du temps, que certaines informations grammaticales n’étaient pas présentes au début, etc. Concrètement, une équipe de boursiers produisent une édition XML-TEI du dictionnaire à partir d’un schéma relaxNG couplés à des instructions de marquage.

La rédaction du dictionnaire est toujours en cours, et se base sur un corpus en ligne, CODOLCAT, qui contient environ 40 types de métadonnées différentes. L’enjeu est donc aussi d’arriver à relier les deux types de production, par exemple faire une recherche par terme dans le corpus à partir du dictionnaire et vice versa.

Mardi 3 juin

Serge Heiden : Présentation de TXM.

Serge Heiden souligne l’importance de la taille et de la construction du corpus pour que les résultats statistiques soient parlants. L’analyse contrastive est composée de l’analyse des spécificités, de l’analyse factorielle et de classification, tandis que l’analyse des co-occurrences et des segments répétés est de l’ordre de l’analyse syntagmatique.

TXM est une plate-forme modulaire et open source capable de prendre en compte des données encodées aux formats standard (dont XML-TEI). Il contient des outils permettant de faire des listes de fréquences, des concordances, des graphiques de progression, des AFC, de la classification, des spécificités, co-ocurrences. Un outil d’alignement est en cours de développement, mais on ne peut pas à ce jour tagger des mots directement dans TXM. TXM fonctionne surtout avec Treetagger (parmi la quinzaine de logiciels de taggage qui existent). Il existe à ce jour une version logicielle et une version en ligne (portal).

[N.d.A : Mes notes sur cette présentation sont très succinctes car j’ai déjà assisté à plusieurs formations à TXM].

LAPIERRE Dominique, Marco Polo, le Devisement du monde.

La doctorante se propose d’étudier un corpus de 140 manuscrits du Devisement du monde, en 13 langues, rédigés au fil des siècles. L’angle d’étude adopté est celui de la diversité culturelle et religieuse (avec une dimension ethnographique). Différents outils sont employés pour interroger ces textes, dont Iramute, le logiciel Tropes (pour diagnostiquer le style du texte), Phylogenetics, Parsimony Tree, NeighbourNet Graph …. Un épisode, comme celui du miracle de la montagne est ainsi présent sous 36 formes différentes, que l’on peut rattacher à deux familles principales.

Monique Goullet conseille de chercher à localiser le niveau de réécriture de l’épisode (sémantique, littéral,…).

LECLERC, Élise, Dire la cité dans les livres de famille florentins (XIVe-XVe)

MANCHIO, Corinne, Correspondances de Machiavel

Mercredi 4 juin

Dominique LONGREE (Liège) Hyperbase e altri strumenti per esplorare le banche dati latine del LASLA

Hyperbase est un logiciel créé par Etienne Brunet (Nice), qui se présente sous la forme d’un DVD compatible uniquement avec les PC. Une édition Web, développée par Laurent Vanni, est en cours de développement. Le LASLA fournit les textes. À ce jour, Hyberbase contient environ 2 millions de mots latins classiques annotés, 300000 textes hagiographiques, avec pour chaque forme un lemme et un indice qui permet de distinguer les homographes. Toutes les références sont issues d’une analyse morphologique complète faite par un philologue manuellement avec code alphanumérique. Le logiciel propose de nombreuses fonctions dont la possibilité d’obtenir la fréquence d’un usage syntaxique spécifique (et ainsi mettre en évidence les usages d’une structure) et de comparer deux textes (option spécificité).

POLIDORO, Luca – Digitalizzazione dei Fondi della Basilica di Santa Maria Maggiore

L’intervenant fait partie du projet DiLib (Rome). Même s’il s’agit avant tout d’écrits de notaires et de chartes, ils ont choisi le modèle TEI plutôt que le CEI (Chartes encoding initiative), plus adapté aux textes allemands et anglais de ce type.

FIALON Sabine, Hagiographie africaine.

La doctorante étudie un corpus de textes hagiographiques latins produits entre le IIe siècle et la fin du Ve siècle sur le continent africain. Depuis le XVIe siècle, la notion d’africitas a été élaborée pour désigner les spécificités de ces textes, qui seraient marqués (par rapport au latin classique) par la redondance. Il s’agit de discuter cette position en interrogeant l’existence de cette spécificité linguistique et stylistique, voire culturelle.

Le corpus est composé de 27 passions et actes de martyrs, provenant des différentes provinces africaines. Ces textes sont assez homogènes lexicalement, mais l’on constate qu’ils sont assez proches des textes gaulois par exemple. Il reste encore une quinzaine de textes à lemmatiser et à traiter, mais il ressort que le contraste entre les actes (textes presque juridiques, liés au procès des martyrs, qui sont ensuite romancés pour être diffusés) et les passions (plus littéraires) est très fort.

JOY KNIGHT Kimberley, Old Norse Translations of Latin Saints’ Lives, 1300-1500

La doctorante travaille sur un corpus de textes hagiographiques et s’intéresse aux traductions du latin au norrois qui étaient initialement très fidèles et qui se sont progressivement éloignées de leurs sources. La vie des saints est transmise en fonction de l’environnement spirituel du lieu de réception et dans le but de construire une narration chrétienne propre.

Son approche est diachronique et insiste sur le contenu des textes (topoi et structuration des récits). De plus, elle pose le problème de l’intraduisibilité de certains termes (comme « exotique »).

Jeudi 5 juin

KESTEMONT Mike, Stylometry with R

Le chercheur est spécialisé dans l’analyse de style pour l’attribution de textes. On peut trouver sur sa page personnelle la plupart des informations présentées au séminaire : http://mikekestemont.github.io (dont le documentaire visionné). Son travail repose en grande partie sur l’utilisation de R.

VAN NIE Renske, 16th century mystical texts.

La recherche menée par la doctorante relève de la recherche d’attribution de textes. Elle s’intéresse à deux traités mystiques médiévaux en ancien néerlandais : 1) La perle évangélique (édité trois fois entre 1535 et 1542, sous des formes différentes, au niveau du contenu et de la structuration). Un jésuite a essayé d’en faire une édition critique mais est mort avant d’avoir fini. Ce fut un best-seller du Moyen Âge, énormément traduit. 2) Le temple de nos âmes (1543), pour lequel on dispose d’une édition critique et d’une édition publiée. Il a également été très diffusé. Il a été écrit par une auteur femme anonyme.

Sont également pris en compte deux manuscrits retrouvés qui proviennent de la même époque et de la même aire linguistique (un couvent du Nord-est des Pays-Bas), et contiennent 162 sermons ainsi qu’un extrait de la perle. Cependant, les deux textes présentent des difficultés différentes, et la terminologie mystique y est employée différemment. L’étude a pour but de mieux cerner leurs auteur(e)s et dates de composition.

L’étude, encore à faire, se base sur les n-grams (suites de caractères), et sera faite par comparaison avec des textes de contrôle de la même aire, même époque, même genre, même longueur.

STELLA Francesco, Lexicon : a new software program for comparing texts.

Logiciel encore en début de parcours, basé sur l’Archivio della Latinità italiana del Medioevo (ALIM), le Corpus rythmorum (musique médiévale) et la Poetria Nova (éd. Paolo Mastrandrea). C’est avant tout un logiciel de comparaison entre des textes, qui va notamment calculer l’indice de superposition entre un texte A et B (nombre de termes communs). Cela peut être utile dans des études d’attribution aussi (et cela prend en compte aussi les function-words).

Le mécanisme d’importation des textes est assez simple, et il est possible d’employer les caractères […] pour ôter de l’analyse les segments que l’on souhaite (par exemple l’apparat critique du texte). On peut également sélectionner la taille de la liste de mots sur lesquels on veut concentrer l’analyse.

Vendredi 6 juin

Matinée : Atelier LEXICON

Maurizio LANA, Metodi matematici per l’attribuzione di testi : il caso degli articoli di Gramsci.

Le chercheur appartient à un groupe composé aussi de Mirko degli Esposti, Emanuele Caglioti, Dario Benedetto (mathématiciens et phyisiciens). Ils participent à l’édition nationale (en cours) des Œuvres de Gramsci et en particulier à l’édition des articles de presse écrits par Gramsci. En effet, celui-ci a participé à divers journaux (Grido del Popolo, Avanti !, La Città Futura) sans forcément signer ses articles, pratique commune à l’époque.

L’étude menée part du principe qu’il existerait une structure sous-jacente dans tout texte. À partir des résultats les plus probants du concours initié par Patrick Juola en 2004 (cf. : http://evllabs.com/jgaap/w/index.php/), sur le thème de l’attribution d’autorialité, l’équipe a affiné sa méthode, basée sur des mesures de fréquence n-grams. Dans un premier temps, on leur a donné 50 textes de Gramsci, et 50 dont on savait par ailleurs qu’ils ne sont pas de lui, ce qui a permis de tester la méthode jusqu’à ce que le résultat soit cohérent avec ce qu’ils savaient. Ensuite, le comité national des Œuvres de Gramsci leur a fourni 40 textes pour une étude en aveugle (l’équipe ne savait pas ce qui était de Gramsci, mais le comité si). Cela a marché.

La méthode choisie provoque une légère déperdition de textes gramsciens (deux ne lui ont pas été attribués), mais aucune mauvaise attribution. L’une des explications possible est la taille, parfois réduite, des articles : en dessous de 300 mots, le résultat n’est pas très probant ; au-dessus de 500, c’est correct, au-dessus de 1000, c’est bien. Si le programme dit que c’est de lui, alors c’est de lui. En amont, le texte est préparé : les citations, nombres, noms propres sont éliminés. Aucune lemmatisation n’est faite en revanche car les auteurs ont des préférences pour certains temps. Étant donné que le discours d’un auteur peut évoluer beaucoup en fonction du contexte, du sujet, du public, du genre, de l’époque, etc. l’équipe a décidé de fonctionner par périodes, et ont demandé à des experts de Gramsci de définir des tranches pertinentes. Les tests effectués à l’aveugle au fil du temps ont toujours montré qu’ils avaient raison. Aujourd’hui, le projet est suspendu pour cause de manque d’argent.
Pour mener ce genre d’étude, il faut avoir une base de donnée de textes de l’auteur supposé, et aussi des échantillons d’autres auteurs probables pour comparer. Pour les tests de contrôle, il faut des textes de la même époque, du même genre, de la même langue, du même type d’auteurs, sans aucun problème d’attribution dans le corpus de contrôle bien sûr. Pour plus d’informations.