Tests par permutation : de la “Lady Tasting Tea Experiment” de Fisher à la détection de synchronisation en neuroscience

Actualités scientifiques

Les permutations aléatoires pour les tests statistiques ouvrent la possibilité de très belles applications et ce, depuis que Fisher, il y a presqu'un siècle, a voulu savoir si la Lady pouvait ou non déterminer lequel du lait ou du thé avait été versé en premier dans la tasse.

R.A. Fisher (1890-1962) est l’un des pères fondateurs de la statistique moderne ainsi qu’un biologiste de renom qui a contribué à la théorie moderne de l’évolution. Au début du siècle dernier, il a introduit les tests par permutation1   en s’inspirant d’une situation qu’il avait effectivement vécue.

Deux notions fondamentales ont été développées par Fisher. Tout d’abord, il définit la notion d’hypothèse nulle, une hypothèse « qui n’est jamais prouvée ou établie, mais qu’il sera possible de désapprouver au cours de l’expérience ». Par ailleurs, il propose l’utilisation de permutations aléatoires dans l’expérience elle-même, au niveau du recueil des données, le choix de ces permutations étant lié à l’hypothèse nulle.

Prenons comme hypothèse nulle que la Lady ne sait pas faire la différence. Sous cette hypothèse, les tasses sont échangeables et donc la probabilité de telle ou telle réponse est invariante par permutation des tasses. On procèdera alors à une série d’expériences et, si les observations s’avèrent trop éloignées de ce qui est prédit sous l’hypothèse nulle, on la « désapprouvera ». En effet, de façon plus quantitative, en permutant les tasses avant de les présenter à la Lady, il est possible de calculer la distribution de la statistique de test (ici le nombre de bonnes réponses) sous l’hypothèse nulle. On se fixe alors un seuil noté α et pris entre 0 et 1 (typiquement 5%), et si les réponses faites par la Lady apparaissent avec une probabilité plus faible que ce seuil d’être formulées sous l’hypothèse nulle, on dit alors que le test rejette l’hypothèse nulle au niveau α.

Hoeffding2 , dans les années 50, va beaucoup plus loin dans l’utilisation des permutations aléatoires, et plus généralement des groupes finis, pour la construction de tests statistiques. Contrairement à Fisher, il permute les données a posteriori, et non pendant l’expérience au moment du recueil des données. Hoeffding remarque que sous certaines hypothèses nulles, la loi de certaines statistiques de test est invariante par l’action de groupe fini (par exemple celui des permutations, qui est son exemple favori). Ceci lui permet de tirer aléatoirement un élément du groupe et le faire agir sur l’observation. La réalisation de cette manipulation devrait conduire à une observation artificielle de même loi que l’observation initiale, si celle-ci est bien sous l’hypothèse nulle. Et c’est ce qu’on va chercher à vérifier : on va regarder si l’observation initiale est « pathologique » par rapport à la distribution artificielle créée, et si c’est le cas, on rejettera l’hypothèse nulle. Très concrètement, le tirage aléatoire des éléments du groupe est fait en considérant une loi uniforme sur les éléments du groupe. Mathématiquement, cette distribution aléatoire (car elle dépend de l’observation initiale) se calcule aisément puisque seul un groupe fini agit et elle permet ainsi de construire des tests rejetant l’hypothèse nulle au niveau prescrit α.

Par la suite, de nombreux chercheurs se sont intéressés aux permutations aléatoires, comme cas particulier de techniques similaires que l’on appelle ré-échantillonnage et qui consiste à rajouter un aléa supplémentaire une fois les observations obtenues (typiquement en re-tirant avec ou sans remise dans l’échantillon initial). En particulier dans la lignée du bootstrap d’Efron3 , des travaux ont visé à étudier la distribution aléatoire artificielle créée par ré-échantillonnage (également appelée distribution bootstrap) conditionnellement à l’observation initiale pour justifier mathématiquement l’utilisation de telles techniques.

L’exemple majeur qui a inspiré [5] est celui des tests d’indépendance de Romano4 . Dans ce problème, on observe un échantillon $X_n=((X_1^1,X_1^2 ),\cdots,(X_n^1,X_n^2 ))$ de n couples indépendants et identiquement distribués de variables aléatoires $X_n=((X_1^1,X_1^2 ),\cdots,(X_n^1,X_n^2 ))$ et l’on veut savoir si ces couples sont constitués de deux variables indépendantes. C’est l’hypothèse nulle d’indépendance : sous cette hypothèse, les deux variables constituant ces couples sont indépendantes. Il faut donc voir ce qu’on peut déduire sous cette hypothèse nulle et confronter ces déductions à la réalité. On peut en particulier faire agir une permutation σ et regarder $X_n^\sigma=((X_1^1,X_{\sigma(1)}^2 ),\cdots,(X_n^1,X_{\sigma(n)}^2 )),$ où l’on n’a permuté que les deuxièmes coordonnées dans les couples, ce qui laisse effectivement la loi de l’échantillon invariante si l’hypothèse nulle d’indépendance est vérifiée. On peut ensuite considérer que σ est pris aléatoirement et de manière uniforme parmi les permutations. Romano a montré que lorsque les variables sont des vecteurs en dimension finie et que la statistique de test, $T(X_n )$, est d’une certaine forme, alors la loi de $T(X_n^\sigma)$ sachant $X_n$ tend bien vers la distribution asymptotique de $T(X_n)$ quand $n$ tend vers l’infini, si $X_n$ vérifie l’hypothèse nulle. Cela veut dire que la loi conditionnelle de $T(X_n^\sigma)$, où seule $\sigma$ varie, permet, à observation $X_n$ fixée, de recréer sous certaines conditions la loi de la variable que l’on n’a observée qu’une seule fois. C’est toute la magie du ré-échantillonnage par permutation et plus généralement des approches de bootstrap. En particulier, pour certaines de ces approches, il est assez facile de montrer un phénomène analogue même si $X_n$ ne satisfait pas l’hypothèse nulle : on peut recréer la loi que l’on aimerait connaître à partir d’une observation qui ne suit même pas cette distribution. Cette propriété fine d’approximation de la distribution de la statistique, $T(X_n )$, sous l’hypothèse nulle par la distribution bootstrap, restait, à notre connaissance, non démontrée dans le cas des permutations aléatoires, lorsque $X_n$ ne satisfait pas l’hypothèse nulle, jusqu’au travail récent5 . Le problème principal de ces méthodes est que la distribution bootstrap, si elle peut être facilement écrite, est en pratique très difficilement calculable dès que le nombre d’observations est grand. Le groupe des permutations est certes fini mais de cardinal n! : il n’est donc pas raisonnable de vouloir l’énumérer entièrement dès que n est plus grand qu’une petite dizaine. Depuis la fin des années 80 et l’avènement d’ordinateurs de puissance de calcul raisonnable, il est apparu évident que la distribution bootstrap pouvait être facilement approchée par la méthode de Monte-Carlo. Le paradigme bootstrap a donc largement dépassé le cadre de la statistique mathématique pour s’appliquer à des données de plus en plus complexes, car la puissance de calcul le permettait. Il a été en particulier utilisé en neuroscience pour faire de la détection de synchronisation. En effet, les phénomènes de synchronisation entre neurones sont de plus en plus souvent considérés comme un élément du « code neuronal », qui expliquerait comment les informations extérieures et les décisions (entre autres) sont encodées dans l’activité neuronale. Mais pour avoir ce type d’étude neurobiologique, encore faut-il pouvoir détecter ce phénomène. Les travaux de la physicienne S. Grün à la fin des années 90 ont transformé cette question en un problème de tests multiples d’indépendance sur des trains de spikes. Ces spikes rendent compte des activités neuronales enregistrées et on peut les modéliser d’un point de vue mathématique par des processus ponctuels. C’est avec G. Pipa et S. Grün au début des années 20006 que commence l’utilisation du bootstrap pour générer des « surrogate data », c’est-à-dire des données de substitution, qui ne sont rien d’autre que les réalisations Monte-Carlo de la distribution bootstrap. En regardant à quel point l’observation initiale est en accord avec ces données artificielles ou de substitution, on peut alors décider de la dépendance (et donc de la synchronisation) ou non des activités neuronales. C’est dans ce contexte que travaillent Mélisande Albert (IMT), Yann Bouret (LPMC), Magalie Fromont (IRMAR) et Patricia Reynaud-Bouret (LJAD). Dans [5], les auteurs justifient mathématiquement la convergence des distributions bootstrap, en particulier dans le cas des permutations aléatoires, pour des variables de type processus ponctuels qui ne sont pas forcément en dimension finie, et cela, que les données vérifient l’hypothèse nulle ou non. Le code en C++ a été parallélisé et interfacé avec le logiciel R pour une utilisation pratique facilitée et il est disponible en ligne. Ils ont également mis en lumière le problème du recentrage des statistiques de test, qui est non seulement une hypothèse nécessaire aux preuves de convergence mais qui fait qu’en pratique, la plupart des « surrogate data methods », utilisées en neuroscience et basées sur le bootstrap, sont biaisées7 . Enfin, une étude approfondie par simulation et sur vraies données a montré que le test d’indépendance par permutation est le plus fiable de tous les tests étudiés : son niveau est garanti même à taille d’échantillon réduite et, parmi les tests ayant cette propriété, il est le plus puissant. Les permutations aléatoires pour les tests statistiques sont donc toujours d’actualité et nous réservent encore de très belles applications et ce, depuis que Fisher, il y a presqu’un siècle, a voulu savoir si la Lady pouvait ou non déterminer lequel du lait ou du thé avait été versé en premier dans la tasse. Pour la petite histoire, il paraît que l’expérience fut concluante et qu’elle en était effectivement capable.

Image removed.
© Clotilde Fermanian-Kammerer

 

  • 1R.A. Fisher. The design of experiments. Edinburgh & London : Oliver & Boyd (1935).
  • 2W. Hoeffding. The large sample power of tests based on permutation of the observations. The Annals of Mathematical Statistics, 23(2):169-192 (1952).
  • 3B. Efron. Bootstrap methods : another look at the jackknife. The Annals of Statistics. 7(1):1-26 (1979).
  • 4J.P. Romano. Bootstrap and randomization tests of some nonparametric hypotheses. The Annals of Statistics 17(1):141-159 (1989).
  • 5M. Albert, Y. Bouret, M. Fromont, P. Reynaud-Bouret. Bootstrap and permutation tests of independence for point processes, Annals of Statistics, 43(6), 2537-2564 (2015).
  • 6G. Pipa and S. Grün. Non-parametric significance estimation of joint-spike events by shuffling and resampling Neurocomputing, 52:31-37 (2003).
  • 7M. Albert, Y. Bouret, M. Fromont, P. Reynaud-Bouret. Surrogate data methods based on a shuffling of the trials for synchrony detection : the centering issue à paraître dans Neural Computation (2016).

Contact

Mélisande Albert est maître de conférences à l'INSA de Toulouse. Elle est membre de l'institut de mathématiques de Toulouse (IMT - CNRS, INSA Toulouse, Universités Toulouse Capitole, Toulouse Jean Jaurès & Toulouse Paul Sabatier).

Yann Bouret est chargé de recherches au CNRS. Il est membre du laboratoire physique de la matière condensée (CNRS, Université de Nice-Sophia Antipolis)

Magalie Fromont est professeur à l'université Rennes 2. Elle est membre de l'institut de recherche mathématique de Rennes (IRMAR - CNRS, ENS Rennes, INSA Rennes, Université Haute Bretagne & Université Rennes 1).

Patricia Reynaud-Bouret est professeur à l'université Nice Sophia Antipolis. Elle est membre du laboratoire J. A. Dieudonné (LJAD - CNRS & Université Nice Sophia Antipolis).