MSHS501 et MSHS601 : Enquête et sondage

De Wiki du LAMA (UMR 5127)
Aller à la navigation Aller à la recherche

Introduction

Qu'est-ce qu'une enquête dans le cadre de ce cours ? Dans quels cas faire une enquête. Il faut faire attention à la surcharge du mot enquête en français (ici on va parler des "surveys" et des "polls" de la langue anglaise).

Définition: pour ce cours, on définit enquête et sondage par les caractéristiques suivantes :

  • démarche scientifique et rigoureuse,
  • recherche de réponses à une ou plusieurs questions déterminées,
  • interrogation d'un échantillon choisi parmi une population bien définie.

Attention, l'enquête n'est pas toujours la bonne manière de répondre à une question.

Il existe deux types d'enquêtes :

  • l'enquête qualitative (en générale par entretien),
  • l'enquête quantitative ou statistique (principal objet de ce cours) dont les sondages font partie.

Plan général du cours en trois parties :

  1. conception d'une enquête.
  2. mise en oeuvre et contribution des outils informatiques modernes.
  3. considérations statistiques avancées.

Voici les feuilles de TD :

Voici le sujet d'examen de janvier 2009 et son corrigé: sujet et corrigé

Modalités d'une enquête

  1. Choisir d'enquêter ou non.
  2. Construire l'enquête :
    • Préciser les objectifs, c'est-à-dire les questions auxquelles l'enquête devra répondre, ou les hypothèses qu'elle devra confirmer ou invalider. Il faut distinguer l'objectif général (qui donne son unité à l'enquête et les objectifs particuliers. Attention aux cahiers des charges "tout fait".
    • Définir le "plan d'observation" : préciser la population et l'échantillon (taille et structure) et les contraintes matérielles.
    • Modalité de l'enquête.
    • Décider du caractère qualitatif ou quantitatif.
    • Préparation et test du questionnaire ou des entretiens.
    • Entretien préparatoire.
  3. Recueil de l'information. Après cette étape on ne peut plus revenir en arrière.
  4. Dépouillement et analyse des données.
  5. Rédaction du rapport final.

Contexte et problématique d'une enquête

Première question : l'enquête est-elle la bonne méthode ? Confrontation avec les autres méthodes : étude documentaire, observation directe (engagée ou non), expérimentation.

3 TYPES D'ENQUETES

  • Enquête transversale: question sur l'ensemble d'une population à un instant donné
  • Comparaison de groupe: dans la question initiale il y a déjà la définition de groupe
  • Etude longitudinale: temps, comment la population évolue


Plan de réalisation d'une enquête

Objectifs et cahier des charges

Le cahier des charges de départ va d'une unique question vague à un questionnaire tout fait (il faut alors revenir en arrière).

Il faut donc déterminer la question générale de départ et la transformer en questions de recherches spécifiques sous forme d'hypothèses ou de quantités (exemple de la croyance au paranormal).

  • Les hypothèses et les quantités à mesurer doivent être définies de manière objective et non ambiguë. Elles doivent être respectivement vérifiables et mesurables (exemple du bonheur).
  • L'hypothèse doit être plausible et remise en question.
  • Attention : vérifier une hypothèse n'est pas demander aux gens ce qu'ils en pensent.

Pour formuler les hypothèses, il faut rechercher des indicateurs et les multiplier. Exemple : "Il y a une relation négative entre les croyances religieuses et les croyances au paranormal".

Pour cela, on fait une pré-enquête avec une recherche documentaire, la réalisation d'entretien (avec des informateurs priviligiés ou auprès de la population sujet de l'enquête). On repère ainsi les bons indicateurs et le vocabulaire de la population. On s'arrête lorsque l'on tourne en rond.

Population parente -- échantillon -- modalités du sondage

Population parente : le sujet de l'enquête (individu, famille, entreprise). Il faut bien définir les critères d'inclusion.

Plan d'observation :

  • Enquête transversale
  • Comparaison de groupes :
    • Quasi expérimentation : on prend une population, on la divise aléatoirement en 2 echantillons et on en soumet un à un cas et l'autre non.
    • Vraie expérimentation : on selectionne 2 échantilons en fonstion du fait qu'ils aient subis ou non l'evenement cas témoin : on compare les groupes en fonction de plusieurs critères.
  • Enquête longitudinale :
    • série chronologique : variable aléatoire dépendant du temps.
    • étude de cohorte : choix d'une sous population que l'on échantillone à intervalle régulier (exemple les personnes nées en 1945). Pb la population diminue
    • interview répété ou panel  : comme la cohorte, mais l'échantillon n'évolue pas (ou peu).
    • on interroge les gens sur leur passé. Très peu fiable. Dans certains cas, on parle de "cas témoin".

Sondage : il faut choisir un échantillon (faire un sondage). Problème de la taille et du choix. C'est l'un des problèmes majeurs, on y consacrera le chapitre 3.

Distinction entre facteurs et indicateurs

Est ce que indicateurs et facteurs signifient la même chose ?

Presque. la seule différence est que le facteur a un lien de cause à effet (c'est une cause), alors que l'indicateur lui n'en a pas.

Exemple de facteurs : sexe, age, CSP, religion...

De quoi parlons-nous quand nous utilisons le terme indicateur ?

Les statistiques ne permettent pas d'établir un lien de cause à effet, donc du point de vue du questionnaire et de l'analyse des résultats, on ne peut pas faire de différence. Ceci dit si on suspecte un lien de cause à effet autant utiliser le vocabulaire le plus approprié.

Le seul moyen d'établir un lien de cause à effet est une expérience (on enlève la cause présumée et on regarde si l'effet disparaît). Attention, ici on ne parle pas de condition nécessaire, la cause augmente la probabilité de l'effet, mais ce n'est pas une implication à 100%. Donc, pour établir un lien de cause à effet (par exemple en physique), on utilise à la fois l'expérience et des statistiques sur les résultats.

Le questionnaire

Il s'agit de préparer l'instrument d'observation. Etape délicate, là aussi le chapitre 4 y est consacré.

Recueil des données

C'est une phase sans retour en arrière possible. C'est aussi cette phase qui concentre la majeur partie du coût de l'enquête (sauf en cas de collecte par internet et dans une moindre mesure par courrier).

Cette étape est très délicate ... on en parlera aussi au chapitre 4, la qualité des données et donc de l'enquête en dépend.

Le chapitre 5 aura pour but de comprendre les outils informatiques de saisie.

Traitement et analyse des résultats

C'est là et dans le choix de l'échantillon qu'il faut vraiment faire preuve de rigueur scientifique. cf chapitre 6.

Le rapport

Comme tout rapport, il commence par une page de titres et une introduction comportant les motivations, le plan et un résumé des résultats (ou pas). Attention, la plupart de vos lecteur s'arrêteront là ...

La suite du rapport peut (doit ?) suivre le plan de réalisation de l'enquête et donc présenter les objectifs et la méthode de l'enquête. Vous devez prouver votre rigueur scientifique. Ensuite, vous donnez les résultats bruts (à plat) et enfin les analyses statistiques qui justifient vos conclusions.

La conclusion (qui peut-être incluse dans l'introduction) résume vos résultats, vos échecs et vos éventuelles recommandation si l'étude avait pour motivation une aide à la décision.

Attention : ce qui compte dans un rapport scientifique, c'est sa cohérence et sa rigueur. Il faut éviter les répétitions et la dispersion. Il faut rechercher la densité et la cohésion.

Les modalités d'un sondage

Population et méthode de collecte

La population

Que les critères d'inclusions aient l'air de s'imposer d'eux mêmes ou non, il faut absolument prendre soin de les définir par écrit. Il faut, face à un individu, savoir s'il fait partie ou non de la population étudiée. Pas de place ici pour le libre arbitre des enquêteurs.

Type de collecte

Le type de collecte (enquête avec un sondeur, questionnaire auto administré, etc ...), influe sur le choix de l'échantillon et aussi sur l'analyse des données.

- questionnaire administré ( face à face, au téléphone, par internet )

- questionnaire auto administré ( papier, internet )

- entretien (les questions sont pour le sondeur)

Les problèmes d'échantillonnages

La population et l'échantillonnage

L'échantillon doit couvrir toute la population (être représentatif, sinon on a une généralisation abusive). C'est là le principal problème. (attention à : echantillon original biaisé, auto selection, echantillonnage par quotas...)

La taille de l'échantillon

Il faut simuler des sondages et s'assurer que la taille de l'échantillon sera suffisante dans la plupart des cas. Dans certains cas, on peut calculer une taille d'échantillon, dans d'autres cas, seule la simulation permet de conclure. Attention, la méthode d'échantillonage permet (et sert souvent) à réduire la taille de l'échantillon sans dégrader la qualité des résultats.

Les différents types classiques d'échantillonnages

Les échantillons aléatoires

1. Tirages aléatoires simples  : il s'applique pour l'enquête transversale ou encore longitudinale, il consiste à prendre, au hasard "n" individus dans le liste d'une population.

2. Échantillon systématique : on prend la liste d'une population et on prend un individu tous les "n". On peut choisir le premier au hasard (obsolète ?).

3. Échantillon avec probabilité inégale : ( ex : si on veut connaître le pourcentage de femmes dans une entreprise, on prend alors des entreprises au hasard mais pas avec une probabilité uniforme, avec par exemple une probabilité proportionelle à la taille).

4. Échantillon stratifié : on découpe la population en fonction des critères que l'on a déja identifié,on obtient alors des strates et on prend ensuite un échantillon pour chaque strates

5. Échantillon par grappes : on découpe la population en grappe, on choisit aléatoirement un échantillon dans certaines grappes prises au hasard (différence avec le précédent : on prends des individus dans toutes les strates).

6. Échantillon à plusieurs degrés : on découpe la population en groupe, en sous groupe, en "sous-sous" groupe ... d degrés. Chaque étage peut être par strate ou par grappe.

7. Échantillon à plusieurs phases : on prend un échantillon qui contient des individus éventuellement externe à la population que l'on veut observer et on fait notre questionnaire en 2 parties: si l'individu fait parti de la population que l'on veut observer alors on continue le questionnaire.

Les échantillons empiriques

  1. Méthode des quotas : il faut disposer de stat de la population avant l'enquête, on choisit des critères et on essaie d'avoir le bon pourcentage pour chaque critères.
  2. Échantillon par choix raisonné : on sélectionne un échantillon que l'on considère représentatif
  3. Échantillon "aléatoire reconstitué" : on fait se déplacer l'enquêteur au hasard dans la ville et il interroge des personnes au hasard.
  4. Échantillon de commodité ou volontaire : on prend les personnes que l'on a sous la main.

Correction du biais de non réponses

On peut essayer de sonder un échantillon parmi les non-réponses pour déterminer si la non-réponse est indépendante ou non des variables aléatoires qui nous intéresse. Si ce n'est pas le cas, on peut corriger le sondage.

Dans tous les cas, il faut dire comment on tient compte des non réponses.

Les questionnaires

Généralités

Un instrument de mesure qui cherche à être précis et fiable et qui prend en compte l'enquêté.

Chaque question doit avoir un (et un seul) objectif précis et bien déterminé. Les questions doivent être construite avec le plus grand soin pour éviter toutes erreurs...

Il faut aussi s'assurer (autant que possible) que l'enquêté acceptera d'aller jusqu'au bout du questionnaire et répondra avec sincérité.

Questions ouvertes ou fermées

Les deux types de questions ne sont pas équivalentes. Il n'y a pas trop de problème pour l'âge, mais c'est plus difficile pour des concepts comme l'inflation (13% contre 21%).

  • La question ouverte donne une grande liberté (impossible pour des sujets très généraux genre

"que pensez-vous de la paix dans le monde ?"). Réponses riches et diversifiées, mais parfois dur à grouper en classe et donc à analyser. Repose trop sur la mémoire de l'enquêté (risque d'oublis d'une possibilité pour certains et pas pour d'autres).

  • La question fermée (à choix multiples ou à choix unique) est plus facile à analyser, mais peut induire des biais (risque de désirabilité sociale, réponses peu réfléchies) mais il faut faire attention à ne pas être exhaustif.

En général, on élabore des questions fermées à partir de questions ouvertes posées lors d'une pré-enquête.

Précaution : exhaustivité et exclusion mutuelle. L'item "autre" doit être évité sauf pour des cas exceptionnels.

Type de questions

Questions de comportements (Que font-ils ?)

Problème des comportements génants : rendre la question acceptable, utiliser des procédures spécifiques (urne, isoloir, question indirecte ).

Attention aux problèmes de mémoire : proposer des listes, des questions sur un passé récent.

Questions d'opinion (Que pensent-ils ?)

On utilise des échelles unidimensionnelles (à deux ou plusieurs degrés), des mises en situation ou des classements.

Position intermédiaire : veut-on connaître les indécis ou forcer à prendre partie.

Sans opinion : attention, la formulation de la question peut beaucoup faire varier la proportion de sans opinion. L'absence de cette possibilité peut forcer l'enquêté à répondre au hasard.

Attention on veut bien demander ce que pense l'interogé et pas ce que pense l'interoogé sur l'opinion des autres personnes.

Questions d'intentions (Que vont-ils faire ?)

L'enquêté est peu engagé par sa réponse d'où une surestimation globale de l'action (surestimation des intentions d'achats par exemple).

Questions de connaissances (Que savent-ils ?)

L'enquêté risque de ne pas oser la non-réponse. Il faut utiliser des formulations plus acceptables : "Sauriez-vous par hasard...". Introduire des questions faciles et éventuellement des fausses réponses (auteur ou livre inexistant)

Renseignements signalétiques (Qui sont-ils ?)

  • Recoupement possible avec des données existantes (par exemple en utilisant les catégories socio-professionnelles de l'INSEE)
  • Souvent des variables importantes dans les hypothèses de l'enquête.

Questions indirectes

  • Mise en situation
  • Association de mots (liste ouverte ou fermée)
  • Phrases à compléter
  • Bulle de BD à compléter

Qualités des questions

  • Neutralité : tendance à l'acquiescement, ...,question chargée (pas toujours un défaut) (= question biaisée : "etes vous en faveur de l'assassinat d'un bébé dans le ventre de sa mère?)
  • Être compris : niveau, intérêt (filtrage), vocabulaire (bon sens, sens multiple, confusion, ambiguité, non familier, vague, interpretation contradictoire), question complexe
  • Économie globale du questionnaire : ordre, transition, effet de halo, taille, présentation, frontiere nette des reponses (je ne peux pas associer une modalité à une autre, pas de chevauchement)
  • Experience personnelle, diverse des individus.
  • Effet de l'ordre des questions : effet de rapport, effet de fatigue , effet de deliberation (une modalité peut être avantagée si elle est enoncée en premier ou si elle est enoncée en dernier)
  • Les possibilités de réponses : eviter de proposer plus de 5 modalités (ex: choix entre 0 et 10 ), choix d'integrer une reponse mediane ou non.

Analyse statistique du questionnaire

Types des variables aléatoires

  • classification discrète / continue
  • classification qualitative / quantitative
  • énumérative / ordinale / numérique


numérique: classification de type quantitative.La somme et /ou la différence ont un sens.La moyenne aussi.VA sont dans (R,+).

ordinale: La somme et la différence n'ont pas de sens mais l'ordre a un sens. Exemple:

  1- Très satisfait
  2- Satisfait
  3- ...
  6- Pas du tout satisfait

La moyenne n'a ici pas de sens.Mais la médiane garde du sens(écart interquartile).

énumérative: C'est tout le reste! Exemples: couleur,goût,partis politiques,opinions politiques... On peut juste se poser des questions sur la distribution elle-même.

Remarque: toutes les variables de Bernouilli peuvent être considérées comme des variable numériques. Le choix de deux valeurs ne changent rien aux résultats, c'est à partir de trois valeurs possibles que la distinction est importante.

Type d'analyse: - comparaison de paramètre - comparaison entre des lois de deux variables aléatoires - comparaison entre de la loi d'une variable aléatoire et d'un loi fixe (test de normalité). Souvent pour vérifier la validité d'un autre test. - ACP (analyse en composante principale): avec N variables aléatoires, permet de trouver un ou plusieurs "axes" (mais moins que N) qui classifient bien la population.

Techniques informatiques modernes de collecte

Les techniques d'acquisition sont

  • HTML (et CSS) pour présenter le formulaire sur le web (coté client).
  • Javascript pour faire un questionnaire dynamique ou tester la validité des réponses sans envoyer le questionnaire au serveur.
  • SQL pour ajouter les données du questionnaire (coté serveur).
  • PHP pour fabriquer la ou les requêtes SQL à partir de la réponse au questionnaire (coté serveur).

Traitement et analyse statistique des données

Programme de TD et TP du second semestre

Questionnaire étudiants au format open office Questionnaire étudiants au format word au 27 avril

Pour info les vieux fichiers :

Questionnaire étudiants au format open office Questionnaire étudiants au format word au 21 avril

Questionnaire étudiants au format open office Questionnaire étudiants au format word au 20 avril

Semaine 5 : préparation du questionnaire pour le projet

Semaine 7 en salle machine : étude des estimateurs de la moyenne, de la variance et de la médiane.

Semaine 9 : découverte et application d'un test

Semaine 11 : feuille de TD sur le cours

TP 1 (2H, semaine 6 ou après) : mise en place du questionnaire en php+mysql et des tests.

TP 2 (2H) : faire l'enquête sur le campus.

TP 3 (2H) : on verra ...

resume service

Sujets Retenus pour l'enquête par sondage

Les étudiants et les réseaux sociaux

L'astrologie : une influence sur les comportements