/ Veille sur les humanités numériques

Digital Humanities 2014 : quelques résumés jour 3

Samantha Saïdi

Supporting "Distant Reading" for Web Archives

http://dharchive.org/paper/DH2014/Paper-886.xml

Présentation de Kari Kraus, du College of Information Studies, University of Maryland.
Partant du constat que les archives, et plus particulièrement les archives du web sont malgré leur pertinence culturelle des outils inutilisés, l’équipe d’Internet Archive, a décidé de changer d’échelle.

Or, changer d’échelle selon Kari Kraus, Jimmy Lin et R.L. Punzalan, nécessite des traitements en masse qui permettraient d’obtenir non pas de simples reproductions à l’identique des pages web mais également leur nettoyage, segmentation, tokénisation, etc. c’est à dire la possibilité d’archiver des données que l’on peut fouiller, analyser et visualiser.

Kari Kraus explique que dans les années 2000, Google a publié plusieurs articles sur la résolution de problèmes techniques concernant l’indexation, l’analyse et la recherche. Au lieu de continuer à investir dans du matériel très cher, comme des serveurs de plus en plus puissants ("scale up"), Google a décidé d’atteindre l’augmentation de puissance par la multiplication de serveurs et leur interconnexions ("scale out") grâce à son algorithme d’opérations analytiques à grande échelle : le MapReduce, et son système de fichiers en cluster, le GoogleFS.

Ces concepts ont été repris par Doug Cutting pour développer une suite d’outils équivalents à ceux de Google, mais en open source, le Apache Hadoop framework :

  • The Hadoop Distributed file system (HDFS) : système de fichiers distribué (équivalent java du GoogleFS) : permet de stocker d’énormes volumes de fichiers (les fichiers de 64 Mo sont enregistrés 3 fois au moins sous forme de chunks, dans des chunk server
  • Hadoop MapReduce : un patron d’architecture, permet des calculs parallèles, distribués de données volumineuses
  • HBase : HBase un système de gestion de base de données non-relationnelles distribué, écrit en Java, disposant d’un stockage structuré pour les grandes tables.

Parmi les plus gros utilisateurs d’Hadoop, on trouve Yahoo et Facebook.

Internet Archive est donc en train de développer une nouvelle plateforme pour un jour remplacer leur coûteuse Wayback Machine, outil phare d’Internet Archive jusqu’à maintenant pour l’archivage de pages web. La nouvelle plateforme s’appelle Warcbase et est développée avec HDFS, Hadoop MapReduce et HBase. Elle permettra de stocker, gérer, rechercher en plein-texte et analyser les archives du web.

NB : Pendant la présentation, parmi les chiffres indiqués pour illustrer l’inutilisation des archives du web, on trouvait les chiffres récoltés auprès des Archives nationales de France. Ceux-ci indiquaient 145 TB en 2010 avec, entre 30 et 50 utilisateurs ou connections, par mois entre 2010 et 2012. Ces chiffres sont étranges, et ne représentent pas, à mon avis, les chiffres des "archives du web", mais les chiffres de consultation d’archives numériques ou de catalogue numérique d’archives papier, ce qui n’est pas la même chose. Je pense qu’il y a eu une confusion sur le terme Web Archives au moment de la récolte de ces chiffres. Il n’existe pas en France de projet comparable à celui d’Internet Archive, c’est à dire une archive numérique du web accessible à tous. L’archivage du web effectué en France est partiel et consultable sur place à la BNF, (sélection de sites internet autour de grandes thématiques, pas d’exhaustivité) et aux Archives Nationales (sites institutionnels, type ministères etc.).

Canon Value and Artistic Culture : Critical Inquiry about the Processes of Assigning Value in the Digital Realm

http://dharchive.org/paper/DH2014/Paper-734.xml

Présentation de Nuria Rodríguez-Ortega qui est professeure d’histoire de l’art à l’université de Málaga et spécialiste en humanités numériques à l’université de Castilla La Mancha.

A travers la définition des termes d’hyper-canonisation, de dé-canonisation et d’inter-canonisation, Nuria Rodríguez-Ortega porte un regard intéressant sur les risques de perpétuation et de renforcement du pouvoir des institutions culturelles dominantes –souvent occidentales, post-coloniales, blanches, et mâles– quant à l’établissement des canons, à la définition critique et conceptuelle de l’art, et à l’assignation de valeur et de sens aux objets artistiques.

1- dé-canonisation /dé-hiérarchisation :
Avec l’arrivée des réseaux sociaux, ces institutions culturelles reconnues (musées, critiques d’art, le marché de l’art), ont vu leur hégémonie bousculée par l’appropriation du web 2.0 par le grand public pour créer, distribuer, échanger librement les objets artistiques (images, peintures, etc.) et le discours qui va avec : mémoire sociale, subjectivité et émotivité.

Cependant, on assiste désormais à 2 phénomènes :
2- hyper-canonisation : les outils aujourd’hui hégémoniques pour chercher, retrouver, échanger etc. les objets culturels (Google, Twitter, Facebook, Microsoft, Apple) sont développés dans un contexte culturel et économique occidental et anglophone. Les algorithmes qui classent et ordonnent les objets culturels sont donc définis par les mêmes sociétés dominantes qui définissaient jusque-là la valeur des objets d’art, entrainant de nouvelles formes de colonisation numérique et de monopole culturel.

3- inter-canonisation : aujourd’hui les institutions culturelles (musées, etc.), non seulement s’approprient les réseaux sociaux pour se faire connaitre, mais commencent également à se réapproprier le travail du grand public en le faisant participer à ses projets (exemple donné Your painting). N. Rodríguez-Ortegase demande :

  • jusqu’à quel point ces initiatives sont des stratégies marketing ?
  • jusqu’à quel point les institutions s’approprient ces logiques de participation et de partage pour les intégrer comme partie de leur discours institutionnel et de leurs canons ?
  • jusqu’à quel point assiste-t-on à une tentative de domestication et de contrôle des activités culturelles des "outsiders" en les ramenant dans un cadre et dans la norme ?
  • jusqu’à quel point les institutions culturelles sont vraiment prêtes à partager leur position de pouvoir ?
  • qui a le pouvoir d’assigner les valeurs aux objets culturels et aux images, etc.

N. Rodríguez-Ortegase conclut en proposant que dans une économie de l’abondance (qui s’oppose à l’économie de la rareté d’autrefois), la valeur de l’objet d’art se définisse désormais par l’utilisation et l’interaction qu’il provoque.

Il est intéressant d’étendre cette réflexion à l’utilisation du crowd-sourcing dans les projets d’humanités numériques et notre utilisation des réseaux sociaux dans les labos de SHS. On en reparle en séminaire du chantier transversal HN à la rentrée ?

The Chimeria Platform : User Empowerment through Expressing Social Group Membership Phenomena

http://dharchive.org/paper/DH2014/Paper-718.xml

Présentation par Lim Chong-U, de l’Imagination, Computation and Expression Lab, MIT.

La plateforme Chimeria, propose d’expérimenter et de réfléchir à des récits liés à l’appartenance à une catégorie sociale. Une inscription rapide, le choix de 3 artistes et la plateforme Chimeria vous propose des morceaux accompagnés de commentaires d’utilisateurs virtuels appartenant à différents groupes/genres musicaux. Par leurs commentaires (et les commentaires qu’on peut soit-même laisser pour suggérer des améliorations de la plateforme), les personnages virtuels nous font réagir/réfléchir à la catégorisation sociale, aux critères auxquels il faut correspondre pour être inclus ou exclus de tel ou tel groupe social.

L’objectif de l’équipe du Imagination, Computation and Expression Lab, est d’utiliser des théories de sociolinguistique (Polyani), de sciences cognitives (Lakoff), et de sociologie de la catégorisation (Bowker and Star), pour créer des modèles de catégorisation sociale plus nuancés que ceux utilisés dans les médias sociaux. Des modèles qui accepteraient des identités hybrides et évolutives dans le temps.