/ Veille sur les humanités numériques

Digital Humanities 2014 : quelques résumés jour 2

Samantha Saïdi

Quelques résumés des conférences des Digital Humanities 2014.

5 Design Rules for Visualizing Text Variant Graphs

http://dharchive.org/paper/DH2014/Paper-652.xml


Ce matin c’est l’outil TRAViz (Text Re-use Alignment Vizualisation) qui retient mon attention. C’est une librairie Javascript qui permet de générer des visualisations de variantes d’un même texte sous forme de graphes. Idéal pour un projet d’édition de textes parallèles.

Le design de cette librairie s’appuie sur 5 règles qui permettent d’obtenir des graphes beaucoup plus lisibles et intuitifs que les graphes comme ceux de Collatex par exemple.

  • règle # 1 taille de caractères d’un nœud textuel en fonction du nombre de texte qui l’utilisent
  • règle #2 retirer l’indication de direction (trait à la place de flèches) puisqu’on est dans du texte de gauche à droite
  • règle #3 retirer les bords autour des labels (des nœuds textuels)
  • règle #4 rassembler les lignes les plus fréquentes
  • règle #5 ajouter des sauts de ligne

Pour faire fonctionner nos données avec cette librairie il faut transformer nos données en JSON, comme on l’avait fait pour faire fonctionner la librairie Simile pour le Roman des Morand.

Outil à retenir pour notre prochaine édition numérique de textes parallèles.

Sequence, tree and graph at the tip of your Java Classes

http://dharchive.org/paper/DH2014/Paper-639.xml

Première fois que j’entends parler du langage d’annotation "par strate", qui semble résoudre les problèmes de chevauchement d’XML : LMNL - the layered markup and annotation language. Par contre l’outil présenté par Øyvind Eide, GeoModelText, ne fonctionne pas sur mon ordinateur. Son objectif d’être compatible avec différentes systèmes de représentation de texte :

  • linéaire,
  • hiérarchique (arbre xml),
  • et sous forme de graphes (rdf).

On importe du XML TEI, et on peut générer les 2 autres types de représentation.

Projet encore dans une phase exploratoire. Le problème qui sous-tend le développement de cette application et la thèse d’Øyvind Eide est le suivant : l’annotateur qui travaille dans un éditeur de code XML voit la représentation hiérarchique/arborescente du code. Le développeur d’application lui voit des objets DOM qui sont juste des objets. Et donc ces objets peuvent être liés entre eux (et donc être représentés sous forme de graphes), et il le sait car il est développeur d’application java. Par contre il ne sait pas comment donner cette structure à voir à l’annotateur qui reste coincé avec son arbre XML. Ou au lecteur qui reste coincé avec un texte linéaire.

Son objectif est donc de donner à voir cette triple structuration/représentation d’un même texte.

Towards an Archaelogoy of text Analysis Tools

http://dharchive.org/paper/DH2014/Paper-778.xml

Geoffrey Rockwell nous présente son projet d’archéologie des humanités numériques. Retour sur les inventeurs, outils et théories qui sont à l’origine des logiciels d’analyse textuelle :

  • Busa et les cartes perforées (Index Thomiscticus)
  • Glickman et l’importance des "données de sortie" (output) dans le projet PRORA
  • John Smith et l’invention d’un langage de commandes pour interagir avec ARRAS

Visualizing Homelessness

http://dharchive.org/paper/DH2014/Poster-516.xml

Ce projet c’est la collaboration d’une association communautaire qui vise à mettre un terme au sans-abrisme à Edmonton, Canada (l’association Homeward Trust) et d’une équipe de recherche, le Edmonton Pipelines research group de l’université d’Alberta, Canada (exemple d’une de leurs cartes interactives n’ayant rien à voir avec ce projet).

L’association Homeward Trust travaille depuis plusieurs années à la publication bi-annuelle d’un rapport faisant état de la population des sans-abris d’Edmonton (the "Homeless Count"). Des bénévoles parcourent la ville pour compter, interviewer les sans-abris : localisation, âge, origine, etc. Pour le rapport de 2012 ils ont entamé ce travail collaboratif avec l’équipe de recherche Edmond Pipelines.

On ne le voit pas sur le poster mais le diagramme en bâtons est interactif et réalisé avec la librairie javascript D3.js : l’utilisateur final peut sélectionner les critères, les croiser et il obtient la représentation correspondante. Le graphe en bas à droite du poster, lui, est un exemple de ce qui peut être obtenu grâce à des requêtes écrites dans l’outil à noe4j, un outil de base de données qui permet de produire des graphes (a Graph database). Pour utiliser noe4j : les cours en ligne sont gratuits après enregistrement et il existe une licence "personnelle" gratuite (qui semble assez complète, mais sans support).

Crowdsourcing annotation and the ’social edition’ : Ossian online

http://dharchive.org/paper/DH2014/Poster-210.xml

Un projet d’édition XML TEI des poèmes Ossian de James Macpherson’s. Ce projet me fait penser au projet présenté hier par Susan Schreibman (Letters 1916). Similitudes : projet irlandais, et projet utilisant le crowdsourcing pour l’annotation TEI XML. Différences : type de corpus et profondeur d’indexation. Là, l’indexation visée est beaucoup plus fine. On discute avec Justin Tonra. Je lui parle des outils utilisés par le projet Letters 1916, dont la Bentham toolbar qui ne sera pas suffisante pour leur niveau d’annotation TEI. Or, c’est justement lui qui a développé cette toolbar pour le projet Bentham et il réfléchit à un nouveau développement pour de l’annotation plus complexe.

Pour l’instant le projet Ossian Online, n’est pas encore en ligne, à part pour cette démonstration. (cf. exemples de pages pour l’édition). A suivre avec intérêt, notamment pour les développements qui vont être effectués pour la plateforme de crowdsourcing qui n’ont pas encore démarré.

Ah, et petit moment de détente sous la pluie : là, c’est Séverine Gedzelman, cachée sous son K-way !

... suite Jour 3

Tous les abstracts officiels des conférences sont en ligne sur le site du DH 2014 (en anglais).