BlogBases de donnéesDes montagnes de données : Grandes, petites et larges

Des montagnes de données : Grandes, petites et larges

Linode

23 mars 2023

Des montagnes de données : Grandes, petites et larges

Si vous travaillez dans l'industrie technologique (et probablement même si vous n'y travaillez pas), vous avez beaucoup entendu parler de l'IA. Je ne parle pas seulement de l'IA de type "Skynet prend le contrôle de la terre", issue de la science-fiction, que nous avons tous appréciée au fil des ans, mais de l'application pratique de l'intelligence artificielle et de l'apprentissage automatique dans notre vie de tous les jours.

Les big data sont l'élément vital et la base de l'IA/ML. Des données énormes. Des quantités massives de données. Ou est-ce le cas ? Le Big Data a été le moteur de l'IA/ML d'aujourd'hui, et bien que nous ayons toujours besoin d'un volume important, ces dernières années, les organisations ont commencé à passer du Big Data au Small and Wide.

Comparons les deux.

Des tas de données

Les Big Data peuvent être divisées en deux catégories.

La première consiste à rassembler et à organiser un vaste ensemble de données, un concept simple qui peut s'avérer difficile à mettre en œuvre. Ce processus nécessite un volume important de données non structurées qui se remplissent rapidement. L'infrastructure dorsale nécessaire pour accueillir ce flux de données est gourmande en ressources et implique une bande passante réseau, un espace de stockage et une puissance de traitement pour prendre en charge les déploiements massifs de bases de données. Et elle est coûteuse.

La seconde méthode est plus délicate. Une fois que l'on dispose d'un amas massif de données, il faut en extraire des informations et de la valeur. Les technologies ont évolué pour s'adapter à la taille des big data, mais il y a eu moins de progrès pour déterminer ce qui peut être tiré de ces montagnes d'informations.

C'est à ce moment-là qu'il est temps de devenir plus intelligent. Même dans des environnements où l'espace de stockage est infini et où le déploiement NoSQL est parfait, toutes les données du monde ne signifieront rien si vous ne disposez pas des modèles adéquats.

Il y a là aussi une opportunité à saisir. Les entreprises trouvent des cas d'utilisation où il est plus pratique de disposer de moins de données provenant de plus de sources et tirent de meilleures conclusions et corrélations à partir d'ensembles de données.

Petits et grands

Avec une approche à la fois restreinte et étendue, vous examinez une plus grande variété de sources, vous recherchez des corrélations et vous ne vous contentez pas d'augmenter la quantité de données brutes. Cette approche plus tactique nécessite moins de données et donc moins de ressources informatiques. La variété est le mot d'ordre, et une approche à la fois restreinte et étendue signifie que l'on recherche divers formats de données, structurés ou non, et que l'on trouve des liens entre eux.

Selon un rapport de Gartner datant de 2021: "Les domaines potentiels dans lesquels les petites et grandes données peuvent être utilisées sont la prévision de la demande dans le commerce de détail, l'intelligence comportementale et émotionnelle en temps réel dans le service à la clientèle appliquée à l'hyperpersonnalisation, et l'amélioration de l'expérience client."

Le potentiel est énorme, mais à quoi cela ressemble-t-il dans la pratique ? Des ensembles massifs de données peuvent devenir rapidement difficiles à manier ou obsolètes. À l'ère de l'information, les tendances et les comportements humains peuvent changer en un clin d'œil, sous l'effet des mutations culturelles et économiques. Il y a de la place pour des modèles plus agiles utilisant des ensembles de données plus petits qui peuvent s'adapter dynamiquement à ces changements.

Un rapport de la Harvard Business Review explique que "bon nombre des ensembles de données les plus précieux dans les organisations sont assez petits : pensez kilooctets ou mégaoctets plutôt qu'exaoctets. Parce que ces données n'ont pas le volume et la vitesse des big data, elles sont souvent négligées, languissant dans des PC et des bases de données fonctionnelles et sans lien avec les initiatives d'innovation informatique à l'échelle de l'entreprise".

Le rapport décrit une expérience menée avec des codeurs médicaux qui a mis en évidence les facteurs humains dans la formation de l'IA avec de petites données. Je recommande la lecture de cette étude, mais la conclusion finale est qu'en plus des petites données, la prise en compte de l'élément humain peut améliorer les modèles et donner aux organisations un avantage concurrentiel dans la course à l'armement en matière de big data.

En d'autres termes, nous parlons d'une combinaison gagnante de petites données, de données étendues et de données intelligentes.

Tirer des conclusions

Que signifie tout cela ? De nombreux volumes pourraient être écrits, et l'ont déjà été, sur ce sujet, mais jetons un coup d'œil rapide et holistique pour en tirer un message. J'aime que mon PC soit suffisamment puissant pour servir de source de chaleur à mon bureau à domicile, mais il arrive un moment où le "plus" a une limite. Un logiciel peut être mal optimisé et fonctionner de manière épouvantable, même avec la station de travail la plus haut de gamme.

Dans de nombreux cas, l'affectation de ressources supplémentaires à un problème n'est pas pratique et ne tient pas compte des véritables enjeux. Le plus souvent, il y a une grande possibilité d'amélioration, et c'est quelque chose que nous commençons à voir avec le big data aujourd'hui. Il existe encore des cas d'utilisation où un volume important de données est vraiment nécessaire, mais il est également important de concevoir des modèles pour obtenir la meilleure utilisation des données et pas seulement des méthodes pour avoir le plus de données possible.