Module Analyse Quanti : Conférence HN « Les méthodes quantitatives en SHS » Loïc Bonneval

27 février 2015 : 00h00 - 6 février 2015 : 11h27

de 10h à 12h, en salle R 20 à l’ENS de Lyon (site Descartes)

Intervenant

Cette conférence introductive aux méthodes quantitatives en SHS a été organisée et animée par François Robert, membre du Chantier transversal Humanités Numériques du laboratoire Triangle.

La conférence, orientée humanités numériques et socio/sce po, avait pour objectif de vous faire (re)découvrir les méthodes quantitatives appliquées aux SHS grâce à un retour réflexif sur leur utilisation.

Compte-Rendu et Ressources

Loïc Bonneval : « Les méthodes quantitatives en SHS »

Introduction de la séance par François Robert (Triangle) : l’objectif de la conférence est une sensibilisation des enseignants/chercheurs et doctorants des laboratoires participants aux Ateliers Pratiques Numériques (CMW / EVS / HiSoMA / Triangle) aux Humanités Numériques, à partir de retours d’expérience disciplinaires ou thématiques. Ce matin c’est l’analyse quantitative de données qui fera l’objet de la conférence de Loïc Bonneval. Cette conférence introduit une série de 2 ateliers de sensibilisation aux statistiques animés par Julien Barnier : le 5 mars et le 31 mars 2015 sur le test du Khi2 et l’utilisation de R.

François Robert rappelle que la prochaine série d’ateliers sera organisée à partir d’avril, avec pour thématique la cartographie. Et qu’au fil des ateliers on adaptera le propos pour que les conférences et les ateliers soient profitables à tous les participants.

Tour de table : 17 personnes (9 chercheurs et doctorants, 8 ingénieurs)

Présentation

Loïc Bonneval est sociologue maître de conférences en sociologie urbaine à Université Lumière Lyon 2 et membre du Centre Max Weber. Dans le cadre de son travail, il utilise des méthodes quantitatives, même s’il ne se présente pas comme un quantitativiste.

D’autre part, en tant qu’enseignant/chercheur, il encadre des étudiants en MIASHS (Mathématiques informatique statistiques appliquées aux sciences humaines et sociales), avec des spécialités variées (psychologie, sociologie, etc.) et enseigne toute une série de méthodes statistiques. Il présente des exemples issus de ses propres recherches et de ses enseignements pour expliquer les décalages entre les possibilités de traitements aujourd’hui offertes en statistiques et les réticences à s’approprier ces outils.

Le point de départ de la présentation est le constat récurrent d’un certain décalage entre les possibilités qui existent dans le domaine des traitements statistiques et les réticences des chercheurs à s’approprier ces outils.
Il faut donc revenir sur ces freins avant de proposer quelques réflexions sur l’utilisation des statistiques en SHS.

Dans un premier temps, il faut revenir sur ces réticences à l’utilisation des statistiques

Les réticences sont de plusieurs ordres :

du côté de la formation (« peur des maths », manque d’appétence pour les statistiques)
d’un point de vue plus épistémologique, elles peuvent renvoyer à l’histoire des disciplines (critique par exemple de l’école labroussienne en histoire), à des conceptions des sciences sociales qui privilégient les approches compréhensives contre le déterminisme, ou des démarches plus inductives par rapport à celles qui font la part belle à la modélisation.
il faut aussi noter une évolution très techniciste de certains usages statistiques, notamment en économétrie. Cette évolution peut décourager car, outre la compétence mathématique requise, son utilisation suppose des jeux de données extrêmement complètes et bien mises en forme.

Il est important de discuter ces raisons « épistémologiques » car elles ne sont pas totalement convaincantes. En particulier, il faut récuser un certain nombre d’oppositions :

celle entre quantitatif et qualitatif : d’une part il y a une complémentarité entre les deux approches. D’autre part, on peut avoir des préoccupations « quanti » sur du matériau quantitatif (effet d’une variable sur une autre) et « quali » sur des données chiffrées (interrogation sur la signification d’une variable, la pertinence d’une catégorie). La distinction se fait sur des types de raisonnements (inductif, explicatif, typologique…)
la critique du réductionnisme statistique (idée que les catégories utilisées simplifient outrageusement la réalité) : certes, s’appuyer sur des variables c’est opérer une simplification (la nationalité ce n’est pas l’appartenance ethnique, les chiffres de la délinquance mesurent l’activité de la police et pas la délinquance en elle-même, etc…) mais c’est aussi être conscient de cette simplification, ne pas se contenter d’invalider les résultats et s’interroger sur ce qui a été mesuré par les variables utilisées. On s’habitue ainsi à raisonner sur des indicateurs
Même lorsque l’objectif reste la critique du chiffre et des catégories, il est nécessaire d’avoir un peu de culture statistique. Exemple du débat sur la réforme de la taxe foncière. Une des propositions vise à asseoir cette taxe sur les prix de vente des logements (entre autres pour limiter la spéculation immobilière). Cela suppose de pouvoir donner une évaluation du prix de marché pour les biens qui ne sont pas vendus une année donnée (qui représentent l’écrasante majorité). Cette estimation repose sur des modèles économiques (dits modèles hédoniques de prix) et sur une méthode économétrique. Appréhender ce débat suppose d’avoir quelques connaissances sur le fonctionnement de cette méthode.

Les réticences à l’encontre de l’utilisation des statistiques ne les invalident pas mais sont à considérer plutôt comme des précautions méthodologiques à adopter.

Par ailleurs, il faut rappeler les apports de ces méthodes

Le principal enjeu est celui de l’objectivation, qui consiste à rendre visible des régularités, des processus ou des liens entre des phénomènes qui n’apparaissent pas autrement. On le voit dans de nombreux résultats classiques en sociologie sur le choix du conjoint, le partage des tâches domestiques, ou encore le choix du prénom : à chaque fois on observe des régularités, qui ne sont pas forcément à analyser comme des déterminismes mais qui ne ressortent pas dans le discours tenu par les acteurs.
Exemple de la recherche Immolyon menée avec François Robert en histoire immobilière. La littérature historique et les archives « textuelles » font ressortir une grande dureté des rapports de location au tournant du XIXe et du XXe siècle (facilité à expulser les locataires, etc.). À partir d’une source différente (registres de comptes d’immeubles) on s’est aperçu de la fréquence des arriérés de loyers ce qui donne à voir une certaine marge de négociation, une certaine souplesse de gestion, qui ne serait pas apparue autrement. Les données quantitatives complètent aussi celles issues d’autres sources : ainsi on peut comprendre pourquoi les critiques contre le contrôle des loyers par les propriétaires sont plus virulentes autour de la loi de 1948 que dans l’entre-deux-guerres en observant que c’est au lendemain de la 2e Guerre Mondiale que le niveau des loyers (et donc le revenu des propriétaires) est le plus bas.

Il faudrait également souligner les enjeux liés à la représentativité et, plus largement, à ce que permettent ces méthodes en termes de contextualisation (terme souvent plus adapté que celui de représentativité).

En définitive, pour qui se pose la question de l’utilisation des données statistiques, il convient d’être pragmatique. L’enjeu se situe du côté du type d’investissement (potentiellement important) qu’il faut envisager, et, pour ainsi dire, du calcul coût/avantage pour une recherche. L’acquisition d’une forme de culture statistique (par des formations, ateliers, etc.), qui repose plus sur la familiarisation avec un certain type de raisonnement que sur des compétences mathématiques, doit permettre ce calcul.

Quelques éléments sur la pratique statistique en SHS

Ce « coût » d’accès aux statistiques est en partie réduit par les nombreuses ressources actuellement disponibles. Mais il y a aussi des points auxquels il faut être attentif avant d’investir cette dimension quantitative (a-t-on assez de données, sont-elles adaptées, etc.). Je me contenterai ici de quelques remarques sur les données et les outils

a) données

l’accès aux données s’est globalement facilité (centre Quételet, portail Insee et CASD, portail statistique publique, revue Sociologie qui met en ligne, parfois, les données utilisées par les auteurs…). C’est peut-être dans ce sens-là que l’on peut parler d’un contexte d’Humanités Numériques
il faut tout de même noter que le mouvement de l’open data est parfois paradoxal : il est contrarié pour les données sensibles (cf. séminaire sur les données sensibles (« Quand les données deviennent sensibles : pourquoi ? Pour qui ? », séance de séminaire organisée le 26 février 2015 dans le cadre de l’IMU) et la transparence se fait parfois au prix d’un appauvrissement des données rendues publiques.
A noter également, l’apport potentiellement très riche de données existantes mais imparfaitement mises en forme : les activités sociales laissent de plus en plus de traces enregistrées qui peuvent servir de base à des recherches (exemple des données de gestion utilisées dans le cadre de mémoires d’étudiants : impayés de loyers, dossiers de demandes de relogement des personnes âgées dans des offices HLM)

b) outils

de la même façon que pour les données, l’accès aux outils est facilité. L’accès aux logiciels est (souvent mais pas toujours) plus aisé : développement de l’open source (le logiciel R, qGIS pour la cartographie, Pajek pour les réseaux, etc.), de sites dédiés aux statistiques en sciences sociales (P. Cibois, C. Lemercier, P. Mercklé…). Les logiciels de statistiques sont devenus plus « conviviaux » (exemple de Modalisa) et il y a de plus en plus de tutoriels et de « communautés » pour les utilisateurs.
L’appropriation de ces outils pose question : ce n’est pas seulement une affaire de technique mais il faut aussi appréhender le type d’analyse qu’ils permettent. Sans faire un passage en revue général, notons :
- d’abord le fait que l’on ne se passe pas de l’interprétation : au-delà de la lecture statistique des résultats, il s’agit de construire une démonstration en multipliant les traitements (accumulation d’indices), en les confrontant à d’autres résultats connus dans d’autres contextes et en les reformulant dans le vocabulaire des SHS.
- sur le plan « technique » le principe de base est le lien, l’association entre les modalités de plusieurs variables. Il ne s’agit pas seulement de la corrélation parce que l’on a souvent affaire à des variables nominales, mais aussi de dépendance entre variables. Elle peut être mesurée par différents tests ou indicateurs d’écart à l’indépendance entre deux variables : Khi-deux, V de Cramer, PEM

On retrouve ce principe dans les analyses multivariées mais avec deux logiques différentes :

l’analyse factorielle (méthode qui calcule les proximités et distances entre plusieurs variables et les représente sur un plan où se détacheront, par exemple, les cadres diplômés, bien payés, propriétaires, etc. des ouvriers, peu diplômés, moins payés, etc.) : la représentation sur un plan factoriel permet de voir comment se combinent différentes dimensions. Son succès dans les SHS, en sociologie tout particulièrement, est notamment dû à sa capacité à représenter l’espace social. Ainsi, le schéma de Bourdieu représentant l’espace social dans La distinction fait fortement penser à un plan factoriel… mais n’en est pas un. L’analyse factorielle est souvent dite « descriptive », et peut aussi être utilisée pour défricher un grand nombre de données ou encore pour construire des classifications (utile pour des typologies).
l’autre grande logique renvoie aux méthodes de régression qui visent un raisonnement « toutes choses égales par ailleurs » : il s’agit d’isoler l’effet propre d’une variable (par exemple, pour mesurer les différences de salaires entre hommes et femme, il ne suffit pas de comparer le salaire moyen mais il faut pouvoir comparer « à qualification égale » ou « à poste équivalent »). Ces méthodes sont très dominantes dans de nombreux domaines, en économie notamment, mais suscitent des réticences assez récurrentes en SHS (du moins en France) car les situations observées ne sont jamais « toutes choses égales par ailleurs ».

En conclusion, retour sur l’idée qu’il faut bien appréhender l’investissement que demande l’utilisation de ces méthodes, mais aussi leur apport, et que l’appui non seulement sur des formations mais sur l’expérience des chercheurs, ingénieurs, doctorants, etc. est nécessaire pour appréhender les implications de ces choix méthodologiques.

Discussion
François Robert revient sur la question de l’investissement coût/avantage que tout doctorant ou chercheur se pose avant de commencer une recherche. Il prend comme exemple 3 recherches en SHS (une en sciences-po, deux en histoire), qui ont toutes intégré la prosopographie, pour discuter les méthodes utilisées et voir ce qu’une analyse plus statistique aurait pu apporter.

1) Bruno Dumons, Gilles Pollet, Pierre-Yves Saunier, Les élites municipales sous la III° République. Des villes du Sud-Est de la France, Paris, CNRS Editions, 1997.

Le chiffre n’est pas absent mais il est là pour donner un cadre (nombre d’habitants, budget, personnel municipal, …). Aucune analyse issue de calcul, aucune mise en corrélation de variables (chaque variable est commentée), il ne pense pas qu’aujourd’hui on ferait le même type de recherche : l’analyse prosopograhiques des élites municipales s’opérerait à l’aide d’une base de données relationnelle doublée d’une analyse de réseaux, etc. Ce qui ne veut pas dire que les résultats auraient été différents.

2) Hervé Joly, Diriger une grande entreprise au XXe siècle. L’élite industrielle française, PU François Rabelais, Tours, 2013, 425 p.

Analyse d’un corpus de 193 dirigeants et de 21 entreprises sans avoir recours à l’analyse factorielle qui aurait permis de typologiser davantage cette population. C’est ici un choix méthodologique assumé car, par la suite, H. Joly, dans un article collectif avec François-Xavier Dudouet, Éric Grémont et Antoine Vion, étudiera « L’espace social des dirigeants du CAC 40 » (Revue française de socio-économie 2014/1, n° 13 p. 23-48) en s’appuyant sur une analyse factorielle (ACM). Elle lui permettra de mettre en évidence les différents groupes de dirigeants (838 personnes). Il passe d’une statistique descriptive à une analyse géométrique des données. La lecture des espaces factoriels n’est pas aussi aisée que le commentaire le laisse paraître.

3) Danièle Fraboulet, Les organisations patronales de la métallurgie : acteurs, stratégies et pratiques durant le premier Xxe siècle, Dossier pour l’habilitation à diriger des recherches, Université Paris VIII, 2004, p. 100 et suiv.

Contrairement aux deux autres études précitées, elle utilise une AFM, dont sa réalisation a été externalisée, pour typologiser la cinquantaine de membres du bureau de l’UIMM (Union des industries métallurgiques et minières). L’espace factoriel l’aide au moins à caractériser les deux groupes les plus opposés même si la faiblesse des effectifs, dans chacun des autres groupes (3) caractérisés, fragilise l’interprétation des données.

Ces propos introduisent toute une série de questions des participants autour de l’idée de "dés-appréhender" les outils et méthodes numériques.

l’inégalité disciplinaire face à l’appropriation d’outils et méthodes numériques
- des formations initiales en SHS qui n’intègrent pas assez les outils et méthodes numériques (interv. G. Klotz)
- des disciplines qui ne bénéficient pas tou.te.s d’outils avancés. S. Marculescu-Badilita (IHPC) donne l’exemple du Thesaurus linguae graecae, A Digital Library of Greek literature, outil développé suite à un énorme financement par l’Unvisersity of California pour toute la communauté scientifique de sa discipline.
le coût de l’investissement personnel et de la formation par rapport au gain apporté à la recherche : à évaluer par chacun selon son projet de recherche. Il est plus facile d’investir du temps sur de la formation à des outils et méthodes numériques quand on travaille sur son propre terrain de recherche : intérêt accru qui fait tomber les barrières cognitives (interv. C. Manchio, C. Boulland), d’où l’importance d’un accompagnement suivi sur la durée (interv. J. Barnier).
les chercheurs et enseignants chercheurs viennent assister à ces conférences et ateliers HN en tant que chercheurs, mais devraient aussi y assister en tant qu’enseignants pour être en capacité de transmettre/ orienter à leur tour à leurs étudiants (interv. A. Healy).
Les qualitativistes et les quantitativistes (sce po/socio) doivent apprendre à dialoguer et mettre en place des ateliers d’échanges, car l’effort de compréhension mutuelle est valable de part et d’autre. Par exemple un qualitativiste ne travaille pas de manière "intuitive" comme il a pu être dit pendant la séance, mais utilise lui aussi, une approche méthodique et des opérations de (re)codage sur ses corpus (interv. A. Healy).
Les HN : il n’existe pas une essence des HN. Au contraire les HN touchent des domaines et disciplines très variées (E. Morlock - F. Robert). De la même manière les ingénieurs ont des métiers variés, d’où l’importance d’avoir des lieux de collaboration et des réseaux inter-labo pour faire circuler les savoirs (S. Saïdi).

Pour tenter de répondre à certaines de ces questions, les ateliers ont 3 objectifs principaux :

- proposer des ateliers de sensibilisation autour d’outils numériques utilisés dans différentes disciplines des SHS (socio, sce po, histoire, paléo, géo, économie, philo, etc.)
- permettre à leurs participants de se poser les bonnes questions pour choisir des outils et des méthodes numériques appropriés à leur projet de recherche
- permettre à leurs participants de se rencontrer et pourquoi pas de créer par la suite des groupes de travail thématique ou disciplinaire selon leur propre besoin

Compléments d’information

Nombreux sites web didactiques pour aider à s’approprier l’analyse de données :

Laboratoire junior Nhumérisme : http://dhlyon.hypotheses.org/
Site QUANTI : http://quanti.hypotheses.org/a-propos/
Site Quanti IHMC (Méthodes quantitatives pour historiens) : http://www.quanti.ihmc.ens.fr/ (site animé par Claire Lemercier et Claire Zalc) qui propose des liens permettant de consulter en ligne bon nombre des articles cités dans la bibliographie ;
- des conseils pour le choix des logiciels adaptés et quelques tutoriels sur certaines de leurs fonctions ;
- des pistes pour trouver des lieux de formation méthodologiques (séminaires, stages...).
Des sites de logiciels en ligne : ex. site Analyse de l’université Paris 1 (http://analyse.univ-paris1.fr/) qui permet toute une série de calculs de base en ligne : [À partir d’un tableau de comptage variable par variable (tableau de contingence) : Description des variables, Analyses factorielles des correspondances (AFC) / Analyse en correspondances multiples, Analyse ne correspondances principales / Classements hiérarchiques, Utiliser directement R].

Bibliographie et ressources

Livres

Méthodes quantitatives pour les sciences sociales – 4 livres en ligne sur le site de la revue Sciences humaines, collection dirigée par Alain Degenne et Michel Forsé.

Philippe Cibois (Professeur à l’Université de Versailles - Saint Quentin) présente ce qui est sans doute l’outil de base lorsque l’on cherche à tirer les leçons du croisement entre des variables nominales : l’analyse des écarts entre ce que l’on observe et ce qu’il faudrait s’attendre à trouver s’il y avait indépendance entre ces variables.
Les écarts à l’indépendance. Techniques simples pour analyser des données d’enquête.

Alain Degenne (Directeur de Recherche au CNRS) propose une introduction à l’analyse des données longitudinales constituées par des informations répétées dans le temps lorsque l’on suit un ensemble d’individus pendant une certaine période.
Introduction à l’analyse des données longitudinales

Jean-Paul Grémy (Professeur honoraire à l’Université de Paris V) rassemble dans son livre les rudiments de ce qu’il faut savoir lorsque l’on se lance dans la lecture de tableaux statistiques.
Introduction à la lecture des tableaux statistiques

Pierre Vergès (Directeur de Recherche au CNRS) et Boumedienne Bouriche ( Maître de Conférences à l’IUT de Gap ) introduisent aux méthodes du regroupement selon le critère de la similitude, notamment grâce à des techniques faisant usage de graphes.
L’analyse des données par les graphes de similitude

CIBOIS Philippe, Les méthodes d’analyse d’enquêtes, PUF« Que sais-je », Paris, en 2007. Réédité dans Bibliothèque idéale des sciences sociales : http://books.openedition.org/enseditions/1443
CHANVRIL-LIGNEEL Flora, Le Hay Viviane Méthodes statistiques pour les sciences sociales, Paris, 2014, 288 p.
DESROSIERES Alain, La politique des grands nombres, Paris, La Découverte, 1993.
GUAY Jean-Herman, Statistiques en sciences humaines avec R., Presses de l’Université de Laval, Laval, 2014. 2e édition.
HOWELL David C., Méthodes statistiques en sciences humaines, Paris, 2008.
LEBARON Frédéric, L’enquête quantitative en sciences sociales, Paris, Dunod, 2006.
LEMERCIER Claire et ZALC Claire, Méthodes quantitatives pour l’historien, Paris, La Découverte, coll. Repères, 2008.
MARTIN Olivier, L’analyse de données quantitatives, Paris, Armand Colin, 2012.
PAILLÉ Pierre, Alex Mucchielli, L’analyse qualitative en sciences humaines et sociales, Armand Colin, coll. U, Paris, 2012.
ROSENTAL Claude et FREMONTIER-MURPHY Camille, Introduction aux méthodes quantitatives en sciences humaines et sociales, Paris, Dunod, 2001.

Quelques articles :

Revue d’histoire des Sciences humaines, 2001/1, n° 6. Dossier : Mathématiques et sciences sociales au XXème siècle (Lien vers le dossier). Le numéro contient cinq articles qui traitent de l’utilisation de méthodes mathématiques ou, plus généralement, quantitatives dans les sciences sociales, pour la période 1930-1980.

Ateliers pratiques numériques en SHS - ED 483 (2014-2017)

Imprimer