Des formations et des retours d'expérience animés par des experts

L’entreprise « Data Driven » pour plus de flexibilité et de réactivité

Comment prendre le virage du « Data Driven » et construire sa plateforme Data dans le Cloud ou On-premise

REF S015

Introduction

« Le futur appartient aux entreprises Data Driven » : c’est une affirmation que l’on peut lire et entendre fréquemment. Cependant, il n’est pas immédiat d’établir la relation entre « Data Driven » et amélioration de la performance de l’entreprise et il est encore plus complexe de s’y retrouver parmi les solutions permettant d’entrer dans la démarche.

Ce séminaire a pour objectif de vous apporter une vision claire des enjeux, des opportunités et de la mise en place d’une démarche et d’une plateforme « Data Driven ».
 À la suite de ce séminaire, vous pourrez :

  • Comprendre la démarche « Data Driven »
  • Construire et faire évoluer votre plateforme en fonction de sa maturité
  • Concevoir l’Architecture et choisir les composants techniques
  • Avoir une vision d’ensemble des offres Data des principaux fournisseurs Cloud

Devenir « Data Driven »

Devenir « Data Driven » consiste à positionner les données au cœur de chaque décision dans le but de :

  • Améliorer la flexibilité de l’entreprise
  • Obtenir un avantage concurrentiel
  • Accroître sa réactivité face aux besoins des clients

Trois axes principaux doivent être développés pour réussir votre projet :

  • Définir sa stratégie
  • Valoriser ses données
  • Mettre en place une organisation adéquate

Définir sa stratégie

Aujourd’hui, beaucoup d’entreprises ont pris le virage du « Data Driven » et sont capables d’utiliser les données pour améliorer leurs performances. Au travers d’exemples, nous verrons pourquoi il est nécessaire de mettre en place une stratégie et une culture d’entreprise permettant d’identifier les cas d’usage à forte valeur ajoutée.

Nous aborderons donc les thèmes suivants dans ce chapitre :

  • Définir ses objectifs court et moyen termes
  • Promouvoir la culture Data
  • Identifier les enjeux stratégiques techniques

Les conteneurs et leurs limites

Nous vous présenterons les principaux conteneurs du marché et l’Architecture sous-jacente associée, en environnement Linux (LibContainer) et Windows (Hyper-V).

Il est important de rappeler ce que sont les conteneurs (du point de vue IT), leurs forces et leurs limites :

  • Les principes Docker
  • Les fonctionnalités des conteneurs
  • Les avantages et les inconvénients

Nous mettrons en évidence qu’à eux seuls, ils ne peuvent répondre aux besoins et exigences de « scalabilité », de « self-service », de sécurité etc… dans des approches d’automatisation.

 

Valoriser ses données

Le cycle de traitement des données, qui va de l’identification des sources de données à l’extraction de connaissances, est connu. Cependant, un grand nombre d’entreprises n’arrive pas à tirer toute la valeur de leurs données. Dans ce chapitre, nous aborderons les thèmes suivants :

  • La mise à profit de ses données à travers des processus d’exploitation des données
  • La gestion de la qualité et de la fiabilité des données
  • La nécessité de casser les silos qui empêchent les croisements des données

Organisation des équipes

Pour mener à bien votre projet Data, il est essentiel de mettre en place un environnement Agile et collaboratif afin de favoriser l’expérimentation, l’accès simple et rapide aux données. Nous traiterons les questions suivantes :

  • Quelle organisation mettre en place ?
  • Quelles compétences sont nécessaires dans les équipes Data ?

La plateforme Data

Concepts

Construire une plateforme pour stocker et valoriser les données, c’est le défi qui est aujourd’hui lancé aux DSI. Data réservoir, Data Lake, Data Warehouse, Data Hub : autant de plateformes qu’il est possible de mettre en place mais une question demeure : laquelle choisir ?

Nous préférons parler de plateforme Data. C’est une plateforme évolutive qui permet de répondre aux besoins de chaque entreprise en fonction de la maturité de leur démarche. Une plateforme Data moderne doit prendre en compte les objectifs suivants :

  • Répondre aux enjeux de scalabilité portés par le Big Data
  • Permettre l’analyse de données par des équipes d’Analystes et de Data Scientists
  • Être accessible aux utilisateurs finaux et permettre le travail collaboratif
  • Être positionné au cœur du SI afin d’exposer la connaissance extraite des données

Ce chapitre vous permettra d’aborder les thèmes suivants :

  • Les fonctionnalités nécessaires d’une plateforme Data
  • La mise en place d’une plateforme Data en fonction de sa maturité
  • La place de la plateforme Data dans le SI et les rôles qui y prennent part

Enjeux techniques et solutions

Les enjeux techniques liés à la scalabilité mais aussi aux myriades de solutions disponibles peuvent compliquer la sélection des briques technologiques. Pour chaque fonctionnalité de la plateforme Data, nous présenterons les solutions les plus pertinentes à mettre en place en fonction de votre stratégie SI (liste non exhaustive) :

Solutions Open Source :

  • Big Data : Hadoop, Spark, Hive, HBase, Impala, etc…
  • NoSQL : Cassandra, MongoDB, Redis
  • Data Streaming : Kafka, Flink, Kafka Stream

Solutions Cloud :

  • Amazon (EMR, Kinesis, Red Shift, etc…)
  • Google Cloud (Storage, Pub Sub, BigQuery, Data Prep, etc…)
  • Azure (Azure Data Lake, HD Insight, Data Bricks, Event Hub, etc…)

Solutions Commerciales:

  • Horton Works
  • Cloudera
  • MapR

L’objectif est de donner une vision synthétique. Nous mettrons en évidence les usages, forces et faiblesses des solutions, vous permettant ainsi d’avoir un premier avis sur les solutions qui seraient pertinentes dans votre contexte.

Créer sa plateforme de données dans le Cloud

Dans ce chapitre, nous passerons en revue les différentes solutions disponibles dans le Cloud. Pour chacune d’entre elle nous détaillerons ses fonctionnalités, ses avantages et ses inconvénients. Des démonstrations agrémenteront les principes évoqués pour donner une vision opérationnelle de la plateforme Data depuis l’ingestion jusqu’à la visualisation des données en passant par le Machine Learning.