Des formations et des retours d'expérience animés par des experts

L’essentiel pour comprendre la Data Science

Comment mieux valoriser vos données à l’aide d’algorithmes d’Intelligence Artificielle

REF S017

Introduction

La Data Science est une discipline qui a pour objectifs d’analyser des données afin d’en extraire la connaissance dont on ne soupçonne pas l’existence. Tout cela dans le but d’améliorer la performance opérationnelle des entreprises et d’aider au développement de nouveaux services.

Concrètement, les Data Scientists visualisent et analysent les données pour créer des algorithmes permettant de comprendre le passé et tenter de prédire le futur proche. Ces algorithmes, dits de Machine Learning, sont pour la plupart bien connus (régression, classification, clustering, réseaux de neurones, etc) mais demandent à être adaptés au contexte des entreprises et aux problématiques qu’ils cherchent à résoudre.

L’objectif de ce séminaire est donc de vous donner les clés pour :

  • Comprendre la Data Science et les opportunités pour les entreprises
  • Organiser et composer les équipes pour mieux valoriser les données
  • Bien positionner la Data Science dans la chaîne de traitement des données
  • Concevoir l’Architecture
  • Choisir les composants techniques

Définition et applications

Autrefois réservée aux « pure players » de l’internet, pionniers du Big Data, la Data Science est maintenant à la portée de toutes les entreprises ayant pris le virage du Big Data.

Les données sont le carburant des algorithmes. Sans elles, les analyses prédictives et prescriptives sont impossibles. Nous vous présenterons :

  • Une définition simple de la Data Science
  • Comment la « Data Science » peut vous aider à optimiser vos processus Métiers ?
  • Des exemples concrets d’application

Organisation et méthodes

La Data Science permet d’extraire de l’information des données, cependant ce processus n’est pas toujours aisé. De nombreuses problématiques sont soulevées quand les entreprises cherchent à exploiter leurs données via des algorithmes de Machine Learning.

Les problématiques sont nombreuses, nous vous proposons d’apporter des réponses aux questions suivantes :

  • Quelles sont les compétences nécessaires à intégrer dans les équipes ?
  • Comment structurer les équipes ?
  • Quelles sont les méthodes à disposition et les cas d’usage associés ?
  • Comment et quand configurer les paramètres des algorithmes ?

La Data Science dans la chaîne de traitement des données

Les données récoltées dans la plateforme Data sont la source des projets de Data Science. Ces données massives doivent être exploitées le plus rapidement et le plus facilement possible pour assurer le succès des projets. Des solutions technologiques sont donc à mettre en place pour :

  • Expérimenter sur les données : préparation et analyse
  • Assurer la qualité et le catalogage des données
  • Industrialiser les travaux des Data Scientists

Ce chapitre vous permettra de comprendre les fonctionnalités à ajouter à votre plateforme Data existante (Data Lake, Data Hub ou autre) afin de faciliter la valorisation de vos données grâce au Machine Learning.

Solutions technologiques

Les technologies associées à la Data Science n’ont pas toutes la même maturité. Rarement pensées pour la montée en charge ou l’industrialisation, il n’est pas aisé de faire le choix des technologies adéquates à votre contexte.

Nous vous proposons d’y voir plus clair en comparant les technologies les plus utilisées par les Data Scientists mais aussi par les ingénieurs qui traitent les données. Concrètement, ce chapitre vous permettra de répondre aux questions suivantes :

  • Faut-il utiliser les mêmes technologies pour les Data Scientists (qui conçoivent) et les Data Engineers (qui mettent en oeuvre les algorithmes en production) ?
  • Quels sont les outils qui facilitent l’industrialisation de la Data Science de l’expérimentation à la mise en production ?

Solutions pour la Data Science :

  • Apache Zeppelin
  • Jupyter
  • Les écosystème Python et R (NumPy, Pandas, Scikit-Learn, etc…)

Solutions d’industrialisation :

  • Apache Spark MLlib et ML
  • TensorFlow
  • Keras

Plateformes clés en main :

  • Dataiku
  • DataRobot
  • RapidMiner
  • H2O