Revivez #BigDataBx #1 la journée Journée #BigData = Smart Business

#BigDataBx c’était le 28/05/2014

Journée « #BigData = Smart Business » organisée par Excelerate Systems, Cloudera en partenariat avec la CCI de Bordeaux.

Le Big Data c’est bien plus qu’une technologie à la mode : C’est une révolution qui transforme l’entreprise et les modèles économiques.

Storify de la Journée #BigDataBx du 28/05/2014

Storify de la Journée #BigDataBx du 28/05/2014 http://bit.ly/1oSkwRo

 

Publicités

#BigDataBx – Retour sur l’atelier #DataMarketing = #Intelligence #marketing

Atelier DataMarketing

Dans le cadre la Journée « BigDatataBx = Smart Business » organisée le 28 mai 2014 dans les locaux de la CCI de Bordeaux, par Excelerate Systems, Cloudera et Pôle Numérique de la CCI de Bordeaux.
L’atelier 3 – DataMarketing = Intelligence marketing / Big Data appliqué au Marketing a été animé par Bruno Saintorens de la CCI Bordeaux et Amar Lakel Professeur / Chercheur du laboratoire MICA de l’Université Bordeaux Montaigne.

 

 

#Panorama de l’écosystème #BigData à mai 2014 – #BigDataBx

Panorama du Big Data v 3.0 - Matt Turck (FirstMark)

Panorama du Big Data mai 2014 par Matt Turck et Sutian Dong  (FirstMark) – http://mattturck.com/

Quelques réflexions sur ce schéma et sur le marché du Big Data en général avec le regard d’un « Capital-Risqueur » (VC) :

Il commence à y avoir foule
Matt Turck le reconnait avec son panorama de l’écosystème Big Data il a clairement atteint la limite du nombre de sociétés pouvant être indiquées sur une seule page et il n’est pas certain qu’il ait représenté tous les acteurs les plus importants.

Le Big Data a attiré de nombreux entrepreneurs, les capital-risqueurs ont investi dans les startups prometteuses et par conséquent, le marché commence à devenir saturé. Certaines domaines commencent à être mûrs pour la consolidation ou l’acquisition par des grands acteurs de l’informatique (cf BlueKai par Oracle, Cloudant par IBM, Karmasphere par FICO, …) ou du web (Twitter a racheté Lucky Sort et les spécialistes de l’analyse des médias sociaux BlueFin Labs et GNIP; Salesforce.com a racheté Prior Knowledge). Même s’il y aura toujours de la place pour de nouvelles startups, il semble que beaucoup des premiers entrants ont mis la barre très haut pour leurs challengers – ce qui ne veut pas dire que l’argent des capital-risqueurs va s’arrêter de couler.

Le marché est encore jeune
Dans l’ensemble, nous sommes encore dans les premières périodes de ce marché.  Au cours des deux dernières années, certaines entreprises prometteuses ont échoué (par exemple : Drawn to Scale), un certain nombre ont eu une fin prématurée (telles : Precog, Prior Knowledge, Lucky Sort, Rapleaf, Nodeable, Karmasphere, etc), une poignée ont eu des résultats plus significatifs (Infochimps, Causata, StreamBase, ParAccel, Aspera, etc). Pendant ce temps, certaines entreprises se sont nettement démarquées et ont réalisé des levées de fonds spectaculaires tels MongoDB (+230M $), Palantir (presque 900 millions $) ou Cloudera (1 Milliard $; dont 740 millions $ auprès de Intel). Cependant, dans l’ensemble (hormis les sociétés Splunk ou Tableau Software), nous en sommes encore au début de la courbe du succès. Dans de nombreux secteurs, les startups et les grandes entreprises sont au coude à coude et aucun véritable leader n’a encore émergé .

Au battage médiatique succède la réalité
Après quelques années d’incroyable couverture médiatique du Big Data, les années qui viennent vont être importantes par de nombreuses sociétés vont passer de l’expérimentation à la mise en production. Si cela va se traduire par  l’augmentation rapide des revenus pour certains fournisseurs Big Data, ces déploiements vont aussi permettre de vérifier si le Big Data tient vraiment ses promesses.

Quoiqu’il en soit, la nécessité des technologies Big Data ne va pas cesse de se faire sentir, car le déluge des données va continuer de s’accélérer (4,4 Zettabytes en 2013 et 44 Zettabytes projetés en 2020), alimenté en partie par l’Internet des choses (objets & périphériques connectés + M2M).

Infrastructure
Hadoop semble avoir consolidé sa position comme la pierre angulaire de tout l’écosystème, mais il y a encore un certain nombre de distributions concurrentes – ce qui va probablement la faire évoluer. Spark, un autre framework open source qui s’appuie sur HDFS (le système de fichiers distribués Hadoop), fait actuellement beaucoup parler de lui, parce qu’elle promet de combler les faiblesses d’Hadoop, notamment en vitesse des traitements interactifs et avec de bonnes API (interfaces de programmation). Les premiers retours d’expérience semblent confirmer ses promesses. Parmi les évolution, certains thèmes sont dans tous les esprits (tels que les traitements en mémoire ou en temps réel); d’autres apparaissent comme par exemple une nouvelle génération d’outils de transformation de données (cf Trifacta, Paxata et DataTamer) .

Une autre question est de savoir si les données des entreprises vont vraiment partir dans le cloud (public ou privé) et si oui, dans quels délais. Beaucoup disent que les sociétés Fortune 500 conserveront chez elles leurs données (et leurs logiciels de traitement associés) pour les années à venir. Une génération de startups « Hadoop dans le cloud » (Qubole, Mortar, Joyent, Skytap …) font valoir que tôt ou tard toutes les données vont migrer vers le cloud. Elles viennent s’ajouter à des acteurs du Cloud Computing qui élargissent leur offre, comme Amazon Web Services AWS avec Elastic MapReduce Service, Microsoft avec Windows Azure HDInsight (support de Apache Hadoop et Hortonworks Data Platform (HDP), ou OVH avec Cloudera Hadoop (CDH3) + MongoDB, qui proposent aussi des traitements en ligne Big Data.

Logiciels d’analyse
Ce segment de l’écosystème Big Data a été particulièrement actif en termes de création de startups et d’investissement des capital-risqueurs. Depuis les interfaces de type feuille de calcul en passant par l’animation de chronologies et les visualisations 3D, de nombreuses start-up offrent toutes sortes d’outils d’analyse et de types d’interfaces. Comme chaque client a ses propres préférences, il y a probablement de la place pour un certain nombre de fournisseurs. Les stratégies de mise sur le marché diffèrent aussi : certaines startups se concentrent sur la vente d’outils pour les « Data Scientists » (Scientifiques des données), groupe encore restreint mais dont le nombre et les moyens budgétaires sont en croissance. D’autres adoptent la démarche inverse et proposent des solutions automatisées qui ciblent directement les utilisateurs professionnels et contournent les spécialistes des données .

Applications
Comme prévu, lentement mais sûrement l’action s’est déplacée vers la couche application du Big Data. Le schéma proposé ci-dessus met en évidence un certain nombre d’acteurs (la liste n’est pas exhaustive) qui exploitent des outils et des techniques Big Data. Certains offrent des applications horizontales – par exemple, d’application de Big Data Marketing (marketing prédictif notamment), outils de CRM ou de solutions de détection de fraudes. D’autres utilisent le Big Data dans des applications verticales spécifiques. La finance et les technologies publicitaires (notamment retargeting cf Criteo ou Pretargeting cf Ezakus) ont été les premières à adopter le Big Data, bien des années avant qu’on ne l’appelle comme ça. Peu à peu les usages du Big Data se répandent dans d’autres secteurs d’activité comme l’industrie pétrolière, l’aéronautique (tels les motoristes pour la maintenance prédictive), la santé ou les biotechnologies (génomique en particulier) ou l’éducation. Ce n’est que le début.

[Inspiré et traduction partielle de l’article de Matt Turk]

5V du #BigData = intégrer les données dans le #business #plan des entreprises – #BigDataBx

Big Data - 28 mai 2014 - Bordeaux - 5V - Volume

Big Data - 28 mai 2014 - Bordeaux - 5V - Variete

Big Data - 28 mai 2014 - Bordeaux - 5V - Velocite

  • Vélocité : C’est une référence au rythme effréné auquel d’énormes volumes sont générés. Mais aussi aux capacités de traitement en parallèle de l’architecture Big Data qui offre des vitesses d’exécution sans commune mesure avec les délais des traitements par lots (batch) traditionnels ou de la Business Intelligence « classique ». Elle ouvre la possibilité d’intégrer des flux (streaming) de données et de générer des résultats ou datavisualisations en (quasi) temps réel. 

Big Data - 28 mai 2014 - Bordeaux - 5V - Veracite

  • Véracité : la précision et la valeur des données collectées sont des éléments clés. Les traitements futurs sont-ils sensibles ou tolérants à la qualité variable et à la incomplétude des jeux de données ou nécessitent-ils une qualification et / ou enrichissement ? Les très gros volumes de données et la multiplicité ou l’hétérogénéité des sources ne font qu’amplifier la nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement, croisement, enrichissement des données pour lever  l’incertitude et la nature imprévisible des données introduites dans les modèles mais aussi pour respecter le cadre légal pour créer la confiance et garantir la sécurité et l’intégrité des données.

Big Data - 28 mai 2014 - Bordeaux - 5V - Valeur

Comme le conseille Bill Schmarzo :

« Les entreprises n’ont pas besoin d’une stratégie Big Data pour exploiter l’univers numérique; ce dont elles ont besoin c’est d’un business plan qui intègre les données et les capacités offertes par le Big Data et l’univers numérique ».

 Pour en savoir plus sur le Big Data :

Illustrations : marsmet545 thiery44thomashawktheilrpurplesherbet

 

#Données : la nécessité d’un contrat de confiance – #BigDataBx

Dans son n°3372 le magazine L’Usine Nouvelle détournait un slogan publicitaire bien connu et titrait sur « Data : le contrat de confiance« .

Son dossier mettait en évidence l’énorme potentiel du marché des données personnelles mais pointait en même temps la nécessité d’une éthique dans la collecte et  l’exploitation des données personnelles pour ne pas briser la confiance des internautes et tomber (notamment) dans les excès du reciblage publicitaire (retargeting) récemment dénoncés par Le Monde .

Pour en savoir plus sur ces problématiques

 

 

Déluge #BigData : une charge de gestion des données multipliée par 5 pour les informaticiens – #BigDataBx

BIG DATA déluge - NOE - bigdata bx - 28 mai 2014 CCI bordeaux

Dans son étude parue en avril 2014, IDC estimait la charge du Système d’Information à 230 Go de données par informaticien en 2013 et extrapole un chiffre de 1231 Go par informaticien en 2020 avec l’explosion du volume des données produites par les entreprises et les consommateurs. Cette multiplication par plus de 5 des volumes à gérer nécessitera une montée en compétence mais aussi un déploiement de nouveaux outils et infrastructures de stockage et traitement des données tels que les architectures Hadoop.

Moins de 1% des entreprises ont déployé des solutions qui exploitent le potentiel du Big Data et des usages de l’analyse des données.

Les données Big Data tendent à être non structurées (documents, fichiers texte, …), sont diversement formatées, de précisions et de valeurs incertaines ou imprévisibles et exigent souvent un traitement en temps réel. C’est pourquoi pour tirer le meilleur de l’approche Big Data, les entreprises doivent troquer la rigidité des entrepôts de données (datawarehouses) actuels pour la flexibilité des « lacs de données » (« Data Lakes ») ou « Data Hub ».

infographic-digital-universe-2014-stockage

Etude IDC pour EMC Digital Universe – 2014

Source : EMC France (Infographie, PDF) avril 2014

Pour en savoir plus sur l’optimisation des entrepôts de données :

Pour en savoir plus sur le Big Data :

Vous souhaitez vous aussi communiquer avec des infographies / Datavisualisation ?

2013 – 2020 : le volume de données de l’Univers Digital multiplié par 10 – #BigDataBx

Selon une étude IDC pour EMC (Infographie, PDF) parue en avril 2014, le volume de données produites dans ce qu’ils appellent l’Univers Digital devrait être multiplié par 10 entre 2013 (4,4 Zettabytes) et 2020 avec (44 Zettabytes).

44 Zettabytes = 44 000 milliards de gigaoctets = 44 000 000 000 000 000 000 000 octets !!

Pour donner une représentation intelligible de ces nombres astronomiques :

  •   En 2013 ce serait l’équivalent de la capacité de stockage cumulée d’une pile de tablettes (Apple iPad Air 0,29” d’épaisseur et 128 Go de stockage) qui couvrirait les 2/3 de la distance Terre – Lune
  •   En 2020 se serait l’équivalent de 6,6 piles de tablettes couvrant la distance Terre – Lune
infographic-digital-universe-2014-expansion

Source : Etude IDC pour EMC – Digital Universe 2014

Avec l’explosion du nombre d’objets connectés à Internet (IoT), les données produites par les systèmes embarqués devraient compter pour 21% en 2020 contre 8% en 2014.

Autre enjeu celui de la sécurité des données produites. Selon IDC, 43% devraient être sécurisées (données financières, médicales, information sur les comptes clients, données personnelles …) mais 52% de celles-ci ne sont pas protégées.

En 2013 le volume de 4,4 Zettabytes se répartissait en :

  • 1,5 Zettabytes générées par les entreprises
  • 2,9 Zettabytes générées par les consommateurs soit les 2/3; mais 85% des données créées par les consommateurs étaient de la responsabilité des entreprises.

Entre 2013 et 2020 nous allons aussi changer de paradigme digital. En 2013, 60 % des données numériques sont issues des marchés matures, notamment les Etats-Unis, l’Europe et le Japon, mais le rapport devrait s’inverser d’ici à 2017, où les pays émergents deviendront les principaux producteurs de données : Chine, Brésil, Inde, Russie et Mexique; et générerons 60% des données en 2020.

Face à ce déluge de données, IDC estime qu’il est vain d’essayer de toutes les analyser et recommande de se focaliser sur les 1,5% du volume qui concentre le maximum de richesse de contenus.

Au final IDC estime que cette explosion du volume des données à gérer par les services informatique des entreprises devrait multiplier par 5 la charge par informaticien.

IDC - EMC : Infographie de l'Univers Digital 2014

IDC / EMC : Infographie de l’Univers Digital 2014

Source : EMC France

 Pour en savoir plus sur le Big Data :

Vous souhaitez vous aussi communiquer avec des infographies / Datavisualisation ?