Je suis Data Scientist mais je vais bien. #2

 

Petit jeu :

Vous tirez 9 fois à pile ou face avec une pièce non truquée. Et vous tombez 9 fois sur pile. Si vous deviez parier sur le 10ème tirage, vous choisiriez pile ou face ?

Souvent les gens répondent face, pensant qu’ils ont plus de chance de l’emporter. Pourtant la vérité c’est qu’au 10ème tirage, comme au premier la probabilité que la pièce retombe sur face est toujours de 1/2.

Dit autrement, tout ce qui se passe avant le 10ème tirage n’a aucune influence sur lui. Il n’y a ni corrélation ni causalité entre ces 10 tirages indépendants.

Et bien l’une des tâches d’un Data Scientist consiste justement à trouver des corrélations et des liens de cause à effet dans les données qu’il étudie. Afin de « prédire » l’avenir. Pourtant il y a une grande différence entre corrélation et causalité.

La différence entre corrélation et causalité ?

La corrélation suggère une association entre deux variables. La causalité montre qu’une variable affecte directement un changement dans l’autre. Bien que la corrélation puisse impliquer une causalité, c’est différent d’une relation de cause à effet. Par exemple, si une étude révèle une corrélation positive entre le bonheur et le fait d’être sans enfant, cela ne signifie pas que les enfants causent du malheur.

Exemples de corrélation

Les tests statistiques mesurent la probabilité que la corrélation soit due au hasard ou à une association non aléatoire. Savoir qu’une relation statistiquement significative existe entre des variables est utile à bien des égards. Par exemple, les chercheurs en marketing examinent les corrélations entre les efforts publicitaires et les ventes, etc. Les corrélations peuvent également être négatives, par exemple le temps de trajet vers une destination augmente lorsque la vitesse de la voiture diminue !

Exemples de causalité

Si le vent fait tomber un arbre, c’est une question de cause à effet. D’autres relations de cause à effet sont plus complexes. Par exemple, lorsque les scientifiques voient des résultats prometteurs dans l’administration d’un nouveau médicament lors d’essais sur l’homme, ils doivent être certains que c’est le médicament qui provoque le changement et non d’autres facteurs, comme une modification du régime alimentaire ou du mode de vie des participants. Les preuves doivent être irréfutables pour déclarer la causalité. Des preuves insuffisantes peuvent conduire à de fausses affirmations de remèdes et à des croyances erronées sur les causes.

Je profiterai de ce Blog pour vous communiquer au fur et à mesure mes découvertes de corrélations et de causalité dans l’exploration de toutes nos données.

 

Ca y est, vous êtes branchés.

 

Nous vous l’annoncions la semaine dernière : toutes les données d’Autolink concernant l’activité des vendeurs sont désormais automatiquement déversées dans notre entrepôt de données.

Désormais nous avons la possibilité d’automatiser n’importe quel reporting les concernant en quelques clics grace à notre outil de data visualisation. Un exemple de ce qu’il est possible de réaliser en quelques secondes est téléchargeable sur ce lien :

Exemple reporting automatisé

 

La prochaine étape : absorber les données de tous vos DMS pour récupérer les données de ventes, de facturation, de stocks, de CA, de marge, etc…

Inutile de vous expliquer ce que cela permettra de gagner comme temps en reporting !

 

 

La première fondation vers un reporting automatisé !

 

Dans le cadre de l’émergence du métier Data Scientist au sein du groupe et pour évoluer vers des projets qui intègrent davantage l’automatisation du reporting, une première étape est primordiale qui consiste à créer un entrepôt de données.

Mais c’est quoi un entrepôt de données ?

Un entrepôt de données (Data Warehouse en anglais) est un ensemble d’informations regroupant une partie ou l’intégralité des données fonctionnelles du groupe. Il est utilisé d’un côté pour collecter, structurer et stocker des informations provenant de sources différentes (Autolink, DMS, parts de marchés, notes qualités, etc…) et de l’autre coté il permet de fiabiliser l’analyse et ainsi améliorer les opérations et la prise de décisions via des outils de reporting.

Notre groupe doit bénéficier de cette technologie pour centraliser la donnée d’une manière sécurisée et lui permettre de fournir un ensemble de données servant de référence unique.

Pour la première étape, l’équipe DATA a fait le choix d’exploiter la source de données Auto-Link. L’entrepôt de données regroupe désormais tous les rapports vendeur, les propositions commerciales, les rendez-vous d’essais, les objectifs, les jours travaillés, les absences, etc… Le reporting interactif arrivera très vite sur vos PC !

Prochaines étapes : les DMS, afin de vous restituer toutes les données sur les ventes, les livraisons, les chiffres d’affaires mais également les premières analyses croisées : impact du nombre de rapports vendeurs par jour travaillé sur le volume des ventes, taux de réalisation des objectifs par segment modèle, etc….

Découvrez ci-dessous un exemple de schémas de traitement de la donnée :

 

Je suis DATA SCIENTIST mais je vais bien.

J’ai rencontré de nombreuses personnes dans le Groupe Tressol Chabrier qui ont paru surprises lorsque je leur disais mon métier : Data scientist. La première des questions était : qu’est-ce que c’est au juste ? Je vais essayer d’y répondre.

Un Data Scientist est un expert de la gestion et de l’analyse  de données massives (« BIG DATA »). Il détermine, à partir de sources de données multiples et dispersées, des indicateurs permettant la mise en place d’une stratégie répondant à une problématique.

 

Un data scientist chez Microsoft, ça fait quoi de ses journées ?

 

La science des données est le domaine d’étude qui combine les compétences en programmation, la connaissance des mathématiques et des statistiques afin d’extraire des données l’intelligence nécessaire à l’amélioration de nos résultats concrets.

Depuis ses débuts, le Groupe Tressol Chabrier a accumulé des quantités importantes de données sociales, humaines, financières, etc. Cependant, le monde des nouvelles technologies « Big Data » reste encore peu exploré. De divers projets internes ont permis d’enclencher une transition vers le numérique de ces données pour agir, au mieux, vers une fidélisation des clients de l’enceinte du groupe Tressol Chabrier en augmentant le nombre de canaux d’accès et en s’appuyant sur les médias sociaux et l’internet comme outil de recherche et de communication. Au-delà  de la numérisation des données, se pose la question de nouveaux systèmes intelligents de segmentation d’individus, d’aide à la décision et à la prédiction :

  • Marketing : Analyse des clients et de la concurrence, marketing social et sentiment, optimiser les incitations à la vente, déceler les groupes de clients/prospects homogènes de plus en plus fins vers la personnalisation de tous nos messages, etc…
  • Ventes aux clients : Tendances des ventes, analyses des transactions, prédiction des achats, des passages APV, du renouvellement des véhicules. Détection des facteurs expliquant les performances commerciales.
  • Indicateurs de suivis : Reporting centralisé et personnalisé, analyse des performances, soutien chiffré au management et au pilotage, etc…

Ce sont là quelques exemples des nombreuses applications de la science des données. Le champs est vaste et les outils permettent d’avancer vite. Et c’est avec beaucoup d’enthousiasme que je vais attaquer toutes ces missions pôur le Groupe Tressol Chabrier, c’est-à-dire pour vous.

 

Soufiane Saddouk