BIG DATA ET QUALIFICATION DES DONNÉES : PAR OÙ COMMENCER?

Cabinet de conseil

Le volume des données non structurées est en très forte croissance. Et 80% des données circulant sur le Web sont des données non structurées. Mais le SI des entreprises en a aussi son lot. Alors comment s’organiser pour tirer son épingle du jeu ? Comment s’en servir ?
D’une étude à l’autre, les chiffres sur la volumétrie du Big data sont très dispersés, dans des proportions étonnantes. Mais, peu importe, tout le monde s’accorde à dire que les volumes sont… incommensurables. Retenons déjà qu’ils ne se mesurent déjà plus en exa-octets mais en zetta-octets (centaines de milliers de milliards de milliards d’octets, ou milliers de milliards de tera-octets, ou milliards d’exa-octets !…) Pour le Gartner, la somme des « données collectées dans le monde » en 2015 devrait s’élever à 7,9 zetta-octets. Selon IDC, en 2011, le volume des données produites dans le monde atteignait 1,8 zetta-octets et devrait être multiplié par 20 pour atteindre 35 zetta-octets en 2020. Rapprochons ceci de deux autres chiffres : en 2016, le trafic Internet annuel devrait véhiculer 1,3 zettaoctets données et 80 % de ces données seront des données non structurées. Plus discutable, cette assertion venue dont ne sait où : « 90% des données récoltées depuis le début de l’humanité l’ont été au cours des 2 années écoulées, 2013 et 2014 ». Ah? Peut-être, mais de quelles « données » s’agit-il ? D’aucuns se contenteront de retenir que, tous formats confondus, la progression du volume des données collectées est, bien plus qu’exponentielle, elle est asymptotique – c’est-à-dire tendant vers l’infini et… approximative ! Plus sérieusement… pour en faire quoi ? La vraie question est de savoir de quoi sont constituées ces données, comment les ranger et à quoi pourraient-elles servir dans le monde de l’entreprise. D’un sondage auprès de 100 responsables d’infrastructure IT en France (source : Crip), il ressortait en 2014 que 74% des répondants estiment que le premier intérêt du Big data c’est d’apporter des informations aux services marketing dans leur organisation. Le deuxième intérêt (à hauteur de 65%) c’est l’intelligence économique et la troisième utilisation cible serait la sécurité (42%) devant la géolocalisation (24%) et la recherche et les sciences (23%). Et s’agit-il de données internes ou externes ? Eh bien, surprise : pour 53% ce sont d’abord des données internes, issues du SI de leur organisation. Le problème est de savoir par quel bout commencer, avec quelle stratégie et tactiques, et quels outils. Une enquête Ernst & Young auprès de « plus de 150 entreprises françaises » (plutôt grandes et moyennes), en 2014 a confirmé que la collecte des data reste limitée aux canaux traditionnels. Et 45% des entreprises collectent des « données texte non structurées ». Or, le célèbre groupe d’audit observe que l’analyse des data, et notamment celles non- structurées, reste le « maillon faible ». L’enquête constate, entre autres conclusions, que 45 % des entreprises en France reconnaissent que leurs données clients sont « insuffisamment analysées / exploitées ». Question de maturité dans l’exploitation des données Les données hyper-volumineuses (nombreuses sources d’historiques, bases de corrélations, etc.) commencent à être collectées, stockées. Mais elles ne sont pas traitées en un temps raisonnable, et encore moins en temps réel ou quasi temps réel. « Le problème n’est plus tant de [les] collecter mais de sélectionner, dans le flux continu de data, celles que l’on va conserver (a posteriori) », résume la synthèse de l’enquête, qui voit une issue : « Bien souvent, une combinaison de méthodes statistiques classiques (statistiques descriptives, segmentation, scoring, etc.) et de solutions de calcul doit permettre de résoudre ces difficultés ». Autre affirmation rassurante : « Les formes de statistiques descriptives auxquelles on aboutit aujourd’hui sont plus pures qu’à l’époque où l’on ne disposait que d’échantillons de données qu’il fallait extrapoler (du fait des coûts de récolte, de stockage et de traitement) ». En clair : la quantité de données disponibles et leur traitement ne sont aujourd’hui plus une limite. D’où cet argument souvent répété à propos du Big data : il devient possible de travailler sur des données totalement sinon plus exhaustives, et non plus sur des échantillons ou panels avec leurs approximations ou marges d’erreur.

 

L’analyse au fil de l’eau Dans ce contexte, une perspective récente et intéressante est la possibilité de mener des analyses Big Data au fil de l’eau, ce qui doit permettre d’étayer des décisions métiers, pratiquement en temps réel, en prenant de court tous ses concurrents. Chez Big Blue, par exemple, il existe une nouvelle plateforme de traitement (InfoSphereStreams), qui permet d’analyser très vites d’énormes volumes de data pour les traduire en informations exploitables. Certains parlent aussi d’analyse de signaux faibles (chez Oracle, HP…) permettant de décrypter des situations de marchés, des tendances d’achat, etc. Tout un ensemble d’outils sont désormais disponibles, comme des accélérateurs de traitement des bases, des accélérateurs d’applications pour l’analyse de données d’événements, dont les télécoms, des données sociales, de géolocalisation; ou encore des outils d’exploration (dans Streams : Data Explorer, MQ, MQTT, JMS…), des moteurs d’analyse statistique (comme SPSS) – les résultats étant édités de façon immédiatement lisible (cf. graphiques d’instance, visu 3 D), avec des fonctions comme ‘glisser-déposer’, etc. Des projet pilote existent, dont beaucoup sont relativement accessibles. Trouver les bons profils et consolider l’infra Il restera à trouver les bonnes personnes, les bons profils (les fameux data-scientists ou super-statisticiens…) pour utiliser cette profusion d’outils très prometteurs. Et côté infrastructure, il n’y aura plus qu’à… Par exemple, consolider des architectures en ‘clusters’ et y associer de la connectivité à très haut débit (Infiniband, Giga-Ethernet) et miser sur le Cloud pour obtenir les meilleurs prix et la meilleure agilité. Bref, pas de quoi s’ennuyer. Mais puisque tout le monde commence à être convaincu qu’il faut s’y coller (cf. marketing, intelligence économique…), autant s’organiser pour en faire un vrai levier business et doubler ses concurrents.

 

MediExperts – Cabinet de conseil en management des entreprises basé à Casablanca. 

https://mediexperts.ma/