Je suis Data Scientist mais je vais bien. #2

 

Petit jeu :

Vous tirez 9 fois à pile ou face avec une pièce non truquée. Et vous tombez 9 fois sur pile. Si vous deviez parier sur le 10ème tirage, vous choisiriez pile ou face ?

Souvent les gens répondent face, pensant qu’ils ont plus de chance de l’emporter. Pourtant la vérité c’est qu’au 10ème tirage, comme au premier la probabilité que la pièce retombe sur face est toujours de 1/2.

Dit autrement, tout ce qui se passe avant le 10ème tirage n’a aucune influence sur lui. Il n’y a ni corrélation ni causalité entre ces 10 tirages indépendants.

Et bien l’une des tâches d’un Data Scientist consiste justement à trouver des corrélations et des liens de cause à effet dans les données qu’il étudie. Afin de « prédire » l’avenir. Pourtant il y a une grande différence entre corrélation et causalité.

La différence entre corrélation et causalité ?

La corrélation suggère une association entre deux variables. La causalité montre qu’une variable affecte directement un changement dans l’autre. Bien que la corrélation puisse impliquer une causalité, c’est différent d’une relation de cause à effet. Par exemple, si une étude révèle une corrélation positive entre le bonheur et le fait d’être sans enfant, cela ne signifie pas que les enfants causent du malheur.

Exemples de corrélation

Les tests statistiques mesurent la probabilité que la corrélation soit due au hasard ou à une association non aléatoire. Savoir qu’une relation statistiquement significative existe entre des variables est utile à bien des égards. Par exemple, les chercheurs en marketing examinent les corrélations entre les efforts publicitaires et les ventes, etc. Les corrélations peuvent également être négatives, par exemple le temps de trajet vers une destination augmente lorsque la vitesse de la voiture diminue !

Exemples de causalité

Si le vent fait tomber un arbre, c’est une question de cause à effet. D’autres relations de cause à effet sont plus complexes. Par exemple, lorsque les scientifiques voient des résultats prometteurs dans l’administration d’un nouveau médicament lors d’essais sur l’homme, ils doivent être certains que c’est le médicament qui provoque le changement et non d’autres facteurs, comme une modification du régime alimentaire ou du mode de vie des participants. Les preuves doivent être irréfutables pour déclarer la causalité. Des preuves insuffisantes peuvent conduire à de fausses affirmations de remèdes et à des croyances erronées sur les causes.

Je profiterai de ce Blog pour vous communiquer au fur et à mesure mes découvertes de corrélations et de causalité dans l’exploration de toutes nos données.