Exprimer la dispersion, la confiance dans les données

Un petit post « Pense-pête » ! Il m’arrive souvent de devoir expliquer à des étudiants comment rendre compte de leurs données, et notamment que la moyenne c’est bien mais que c’est loin d’être suffisant. Il faut en effet systématiquement (du moins en recherche) associer à cette moyenne un indice de dispersion.

Il y a en substance deux façons d’exprimer cette dispersion : la variation dans les données mesurées(par ex. entre des temps de réaction) ou la précision dans avec laquelle on estime une moyenne.

Selon ce que l’on veut montrer (mais aussi en général si on veut un peu « tricher »…), on va utiliser tel ou tel indice. Concrètement:

  • L’écart type (ET) (ou déviation standard) quantifie la variation parmi les valeurs (e.g. nos temps de réaction). Il est exprimé dans les mêmes unités que les données. Si la condition de normalité des données est respectée, on peut interpréter l’ET de la manière suivante: dans une population donnée à peu près 2/3 des observations se trouvent dans un intervalle allant de la moyenne +- un ET
  • L’erreur standard (parfois Erreur standard de la moyenne, ESM) quantifie la précision de la moyenne (donc pas la variation dans les données). L’idée est que, si on extrait beaucoup d’échantillons de taille n et que l’on fait des moyennes des ces échantillons à chaque fois, ces moyennes ne seront pas forcément identiques. Aussi, l’ESM quantifie cette variabilité dans ces moyennes (en calculant l’écart type de l’ensemble des moyennes). L’ESM est toujours plus petit que l’écart type car il s’agit du rapport par ET (s) divisé par la racine carré de la taille de l’échantillon (n) – s/racine(n). Donc plus la taille de l’échantillon est grand, plus l’ESM est petit. L’ESM est souvent utilisé car il est plus petit que l’ET, mais il ne faut pas le considérer comme une mesure de la variabilité. Si le propos est de comparer les moyennes de plusieurs groupes, la meilleures approche reste d’utiliser les intervalle de confiance.
  • L’intervalle de confiance (IC) d’une moyenne (à préconiser lorsque l’on fait une analyse type test de Student ou ANOVA). Il s’agit d’être confiant à XX%, en général 95% mais il est aussi fréquent d’utiliser 90%, que l’intervalle ainsi calculer inclut la moyenne de la population. Pour calculer l’IC quatre valeur sont nécessaires: la moyenne de l’échantillon, l’ET, la taille de l’échantillon et le degré de confiance (en général 95%, si on prend 99% alors l’IC sera plus large, et plus si étroit si le degré de confiance est de 90% par ex). Et surtout, pour interpréter un IC d’une moyenne il faut accepter les hypothèses suivantes :
    1. Les données proviennent d’un échantillon aléatoire (ou représentatif). Dans les études cliniques on ne peut pas sélectionner aléatoirement des patients à partir de l’entièreté de la population de patients similaires (mais ils sont sélectionnés car ils étaient là au bon moment par ex.). Ce type d’échantillon est appelé un échantillon de convenance plutôt qu’un échantillon aléatoire (et on suppose que l’échantillon de convenance représente la population de façon adéquate).
    2. Les observations sont indépendantes. L’IC est valide seulement si tous les sujets ont été sélectionnés indépendamment des autres dans la même population. En d’autres termes, la sélection de l’un n’influence pas la probabilité de sélection de l’autre.
    3. Les données sont correctes, c’est-à-dire que les mesures ont été correctement faites.
    4. Il s’agit d’une évaluation d’un événement auquel on s’intéresse réellement. Par ex. si on veut connaître la température du corporelle de base d’une population, nous ne pouvons avoir accès qu’à la température sous la langue. Donc il peut y avoir une distinction entre ce qui est mesuré et ce que l’on veut réellement savoir (donc exit le thermomètre pour estimer des temps de réaction)
    5. la distribution de la variable dans la population est Gaussienne (c’est Normale quoi). Enfin, du moins, approximativement.

    Attention, l’IC ne donne pas d’information quant à la dispersion des valeurs. L’IC donne une information sur la précision avec laquelle on a estimé la moyenne de la population (donc plus l’échantillon est grand, plus l’IC est étroit).

En résumé le plus simple est de retenir comme indices l’écart type (ET) et l’intervalle de confiance (IC) à 95%. Et dans un graphique le type de barres d’erreur que l’on va mettre va dépendre de ce que l’on veut montrer:

    • Pour exprimer la variation entre les valeurs, il faut utiliser la moyenne avec l’ET
    • Pour exprimer la précision avec laquelle on a déterminé la moyenne, il faut utiliser l’intervalle de confiance de préférence à 95% (il s’agit de la meilleure approche notamment quand on fait une ANOVA ou un t-test, car ce qui importe dans ces tests est la différence entre les moyennes).

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *