Qu'est-ce que le Big Data ? | ENSAE-ENSAI Formation Continue

Le terme Big Data, apparu à la fin des années 1990, caractérise des ensembles de données dont le volume, la variété, et la vélocité imposent de mettre en œuvre des méthodes d’analyses particulières et par voie de conséquence d’avoir recours à des technologies de traitement spécifiques. Dans ce contexte, on parle également de données massives. Elles sont au cœur de la transformation digitale des organisations.

Le Big Data au regard des 3V

Une minute sur internet en 2021 - Statista

Ces dix dernières années, le volume de données numériques riches en informations signifiantes a fortement augmenté du fait de l’explosion des flux d’informations et des NTIC (Nouvelles Technologies d’Information et de Communication). L’infographie de Statista¹ ci-dessus met en lumière la masse colossale d’informations générées en 1 minute d’activité sur internet. En 2017, IBM estimait déjà que 90% des données mondiales avaient été créées durant les deux dernières années. Or, comme le prévoit une étude conjointe d’IDC, Seagate et Statista datant de mars 2021², ce volume devrait continuer de croître de manière exponentielle avec une multiplication par près de trois du volume de données numériques créées ou répliquées entre 2020 et 2025.

De plus, leur variété n’a jamais été aussi importante. Les données structurées, prédéfinies et formatées, sont largement exploitées depuis l’avènement des bases de données relationnelles et même, au préalable, depuis l’existence des systèmes de gestion de fichiers. Les formats peuvent être divers, des chaînes de caractères, des nombres, des dates, des codes-barres, etc. Les données semi ou non structurées, stockées en « brut » sans format prédéfini, sont de plus en plus fréquemment exploitées. On y trouve notamment des images, des rapports, des mails, des blogs, des tweets, etc.

Enfin, la vitesse est un paramètre incontournable. Aussi bien du côté émission, avec des objets connectés ou des capteurs intelligents capables de produire de la donnée en continu, que du côté traitement et intégration en temps réel dans des schémas de données jusqu’alors généralement approvisionnés en différé.

Les autres V

À ces 3V qui caractérisent le Big Data depuis un rapport de recherche de META Group datant de 2001³, sont parfois ajoutées d’autres V comme la valeur, la véracité, la visualisation ou la variabilité.

En effet, cette mine d’informations possède une très forte valeur ajoutée pour qui sait l’exploiter. Les données sont devenues un actif à part entière des entreprises comme le sont le capital humain, financier ou les actifs physiques et tangibles.

Ces données doivent être valorisées pour concourir à la stratégie de développement des sociétés et à leur différenciation vis-à-vis de leurs concurrents. Selon la Commission européenne, la valeur de l’économie des données, qui mesure l’incidence globale du marché des données sur l’économie dans son ensemble, a dépassé le seuil des 400 milliards d’euros en 2019 pour l’UE27 plus le Royaume-Uni, avec une croissance de 7,6 % par rapport à l’année précédente. Le Big Data touche aujourd’hui presque la totalité des secteurs économiques ; pour rester compétitif, l’analyse de données massives est devenue une nécessité. Selon IBM, dans la vente de détail, 62 % des commerçants déclarent que l’utilisation de techniques de Big Data leur donne un sérieux avantage compétitif. Pour Forbes, 64 % des directeurs de chaîne logistique déclarent que le Big Data est une vraie technologie disruptive. En la matière, les changements de comportement soudains des consommateurs en raison, par exemple, de la pandémie de Covid-19 ou de l’inflation a renforcé le besoin, pour les entreprises, de parfaitement maîtriser l’utilisation des données à leur disposition. Les gains apportés par le Big Data ne se limitent pas au secteur marchand et à l’accroissement de la compétitivité. Ils touchent aussi le secteur non marchand par le biais de la qualité, la productivité et la prédictibilité. Le développement d’outils d’analyse et de modélisation dédiés ouvre aussi de larges perspectives dans les domaines de la recherche en général, de la santé, des réseaux intelligents ou de l’écologie.

Cette valeur est étroitement liée à la fiabilité des données collectées, autrement dit à leur véracité. Cela recouvre, entre autres, l’intégrité des données, leur sécurité, leur conformité réglementaire et leur actualisation (généralement mieux vaut privilégier les données récentes). Ainsi, mettre en place un processus de fiabilisation de données, à même de garantir leur qualité, est un préalable indispensable à leur bonne exploitation sans quoi les analyses qui en découleront seront faussées et impacteront négativement la prise de décision.

Bien entendu, pour permettre à des managers qui ne sont pas des spécialistes de la donnée de prendre des décisions éclairées, il convient de rendre les informations accessibles sous une forme facilement appréhendable, bien structurée et dynamique. Pour ce faire, les techniques de visualisation visent à résumer de manière graphique des données statistiques qualitatives, mais surtout quantitatives, et à mettre en lumière les liens qui les unissent.

Par nature, l’environnement Big Data est mouvant : la variabilité englobe une facette technique, les modèles prédictifs devant être constamment mis à jour, mais également humaine, les professionnels de la donnée devant continuellement s’informer des nouvelles avancées techniques et technologiques et être capables de les appréhender rapidement.

Importance de la puissance de calcul : les solutions techniques

Pour mener à bien, sur de gros volumes, des analyses et modélisations mathématiques de données complexes à l’appui d’outils tels que le Machine Learning et le Deep Learning, une puissance de calcul non négligeable est nécessaire. Mais, les solutions techniques se multiplient. En effet, avec le développement du Cloud, et celui de nombreuses plateformes open-source, il existe désormais des possibilités considérables de traitement et de stockage de données à un coût raisonnable. Auparavant, il fallait investir dans des serveurs physiques de puissance très importante qui se révélaient donc très onéreux. Infrastructure logicielle de stockage et traitement de grands volumes de données comme Hadoop, traitement temps réel à l’instar de Spark, stockage de données hétérogènes avec les bases de données NoSQL, entrepôt de données avec Hive, etc. Toutes ces solutions participent au traitement, le plus rapide possible, de grandes quantités de données hétérogènes au service de la performance des organisations.

Les métiers du Big Data

Dans cet écosystème, cohabitent trois métiers principaux :

le Data analyst hybride des traitements statistiques avec les finalités métier,
le Data scientist convertit les données massives en enseignements exploitables pour guider la prise de décision des managers,
le Data engineer définit, met en place et maintient les outils et infrastructures nécessaires à l’analyse des données.

Se former

Quand bien même le tissu actuel de formations initiales est relativement bien réparti sur le territoire national, ces programmes ne forment pas suffisamment d’étudiants pour répondre à la demande croissante des entreprises. Nombre d’entre elles éprouvent le besoin de reconvertir des chargés d’études en Data analysts ou des ingénieurs expérimentés en mathématiques appliquées ou en informatique en Data scientists. Pour répondre au plus près à cette demande d’évolution professionnelle, l’Ensae-Ensai Formation continue (Cepe) crée en 2015 le Certificat Data Analyst et le Certificat Data Scientist.

¹ https://fr.statista.com/infographie/25402/nombre-de-donnees-generees-sur-internet-par-minute/
² https://fr.statista.com/infographie/17800/big-data-evolution-volume-donnees-numeriques-genere-dans-le-monde/
³ Doug Laney, 3D Data Management: Controlling DataVolume, Velocity, and Variety, Gartner, file No.949. 6 February 2001, http://blogs.gartner.com/douglaney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf