L'observabilité ne consiste plus seulement à détecter les erreurs ou à vérifier si un serveur est opérationnel. Dans les systèmes distribués modernes, il s'agit de comprendre le comportement de dizaines, voire de milliers de services, qui fonctionnent tous dans des environnements différents et génèrent des quantités massives de données.
Ce niveau de complexité est précisément la raison pour laquelle le choix du bon outil d'observabilité est si important. Une mauvaise décision ne fait pas que vous ralentir. Elle peut épuiser votre budget, avoir un impact sur vos performances à l'échelle et vous enfermer dans un système qui n'est plus adapté lorsque votre produit décolle.
Tout bon architecte vous dira que l'intégration d'une grande observabilité dans un produit nécessite une facilité d'intégration, des performances élevées (même à grande échelle) et un système qui la maintient indépendante de l'application elle-même. Changer d'outil d'observabilité par la suite est pénible et coûteux. Il est préférable d'éviter l'enfermement dans un fournisseur dès le début et de choisir quelque chose qui peut évoluer avec vous.
Le problème de la mise à l'échelle de l'étape 3
Mais c'est plus facile à dire qu'à faire. La plupart des équipes ne pensent aux besoins d'observabilité à long terme que lorsqu'il est trop tard. D'après ce que nous ont dit nos clients chez Akamai, le vrai problème commence dès les premiers stades de la croissance d'une entreprise, lorsque les équipes choisissent des outils qui semblent faciles à utiliser aujourd'hui, mais qui s'avèrent coûteux et rigides par la suite.
Étape 1 - Source ouverte
C'est là que vous vous concentrez sur la rapidité et le faible coût. Vous devez valider votre idée et faire fonctionner quelque chose. Les outils open source comme ELK Stack brillent ici : ils sont flexibles, bon marché (au moins au début) et parfaits pour créer un MVP.
Étape 2 - Boîte noire
Maintenant que le produit se développe, vous devez maintenir votre système opérationnel et stable. L'observabilité devient critique, et de nombreuses équipes choisissent par défaut des outils faciles à gérer, comme Snowflake, qui sont rapides et faciles à utiliser. Malheureusement, ces outils sont également très coûteux, en particulier lorsque l'utilisation augmente.
Étape 3 - Évolutivité
Au fur et à mesure que le trafic et les volumes de données augmentent, les décisions prises à l'étape 2 en matière d'outils commencent à se retourner contre eux. L'étape 3 est celle où les factures d'observabilité des solutions "boîte noire" deviennent prohibitives. Les entreprises se retrouvent coincées entre deux mauvaises options. Continuer à payer des coûts exorbitants pour conserver l'outil pratique de la boîte noire, ou le remplacer par quelque chose de moins cher, ce qui prend du temps, introduit des risques et retarde souvent le travail sur le produit de base.
Nous pensons que le problème de l'étape 3 provient en fait de l'étape 2, lorsque les entreprises prennent la mauvaise décision de passer à une solution "boîte noire". Et s'il existait une solution que les entreprises pourraient adopter à partir de l'open source et qui durerait toute la durée de vie de leur produit ?
La meilleure solution en matière d'observabilité
La vraie question devrait donc être de savoir quelle solution est capable de servir au mieux une entreprise à long terme. Chez Akamai, nous avons entendu de nombreux clients qui ont connu le problème de l'étape 3, conséquence de la transition vers une solution de boîte noire à l'étape 2. En réponse, nous nous sommes associés à Hydrolix pour proposer une solution qui se situe à mi-chemin entre ces deux options : TrafficPeak. TrafficPeak est une solution cloud-native avec une mise à l'échelle automatique et une observabilité du trafic intégrée. Tout en restant simple d'utilisation et en offrant aux utilisateurs un degré de contrôle significatif, elle est conçue pour les environnements à haut volume tels que les microservices, les CDN ou les réseaux périphériques. TrafficPeak offre le contrôle de l'open source avec la simplicité du SaaS, mais sans les chocs de coûts des outils blackbox.
Voyons comment ELK stack (open source), Snowflake (blackbox) et TrafficPeak (scalable) se positionnent en termes de complexité d'installation et d'infrastructure, de performance à l'échelle, de gestion des coûts, de personnalisation, de sécurité et de maintenance.
Tête-à-tête : ELK Stack vs. Snowflake vs. TrafficPeak
1. Complexité de l'installation et de l'infrastructure
La pile ELK offre aux équipes un haut degré de contrôle, mais elle s'accompagne d'une grande complexité opérationnelle. Construire un pipeline ELK complet (Elasticsearch, Logstash, Beats ou Agents et Kibana) nécessite une configuration réfléchie, une gestion des dépendances et une connaissance approfondie de la façon dont chaque composant s'intègre. La mise à l'échelle au cours de l'étape 3 introduit d'autres défis, tels que la gestion du sharding, de l'indexation et de la disponibilité entre les nœuds. Pour les organisations qui évoluent rapidement, ces exigences en matière d'infrastructure peuvent devenir un goulot d'étranglement.
Snowflake, en revanche, est entièrement géré et natif dans le nuage. Il fait abstraction de l'infrastructure, ce qui permet aux équipes de se concentrer sur les données plutôt que sur les serveurs. Cependant, les cas d'utilisation de l'observabilité nécessitent la construction de pipelines d'ingestion qui alimentent Snowflake en logs et en métriques, généralement via Snowpipe, Kafka ou des frameworks ETL. Si la configuration initiale peut sembler simple, l'effort d'ingénierie pour rendre les données d'observabilité interrogeables et exploitables dans un modèle d'entrepôt de données introduit de la latence et de la complexité. Il s'agit d'un outil puissant, mais qui n'est pas conçu pour la visibilité des opérations en temps réel.
TrafficPeak a été conçu dans un souci de simplicité de déploiement. En tant que solution cloud-native, elle s'intègre de manière transparente dans les environnements Kubernetes et peut être déployée en tant que SaaS ou plateforme conteneurisée. Il n'est pas nécessaire de mettre en place des systèmes de file d'attente complexes ou des couches d'ingestion personnalisées. La collecte, le traitement et la visualisation des données sont intégrés dans le même pipeline. Il est conçu pour être opérationnel en quelques heures, et non en quelques semaines, ce qui le rend accessible aux équipes ne disposant pas de ressources dédiées aux opérations ou à l'ingénierie des données.
2. Ingestion de données et performances à grande échelle
Dans ELK, l'ingestion à haut débit et à grande échelle nécessite une architecture soignée. Il est courant d'introduire Kafka ou d'autres systèmes de mise en file d'attente pour gérer les rafales, et les pipelines d'ingestion doivent être réglés de manière à éviter les chutes de journaux ou les échecs de mise à jour de l'index. Elasticsearch lui-même peut devenir un goulot d'étranglement en cas de forte charge s'il n'est pas partagé et dimensionné correctement. Ces problèmes peuvent être résolus, mais cela demande du temps, des compétences et une attention constante.
Snowflake excelle en matière d'échelle, ce qui est l'un de ses principaux atouts. Il peut ingérer et traiter des pétaoctets de données, et sa séparation du stockage et du calcul permet une mise à l'échelle flexible. Mais l'ingestion n'est pas instantanée. Les pipelines d'observabilité impliquent souvent une mise en mémoire tampon, un chargement par lots ou des transformations avant que les données ne soient disponibles pour les requêtes. Snowflake est donc moins adapté à l'alerte ou au débogage en temps réel, où une latence inférieure à la minute est essentielle.
TrafficPeak a été conçu pour les environnements à haut volume et en temps réel. Il est doté de pipelines d'ingestion à mise à l'échelle automatique et de mécanismes intégrés de mise en mémoire tampon et de délestage, ce qui lui permet de s'adapter dynamiquement aux changements de trafic. Qu'il s'agisse d'une flotte de microservices, d'un CDN mondial ou d'un flux de données provenant d'appareils périphériques, TrafficPeak est conçu pour gérer des charges de travail à haut débit et obtenir rapidement des informations.
3. Gestion des coûts
Si ELK est rentable au départ, en particulier pour les équipes qui essaient d'éviter les factures SaaS, le coût total de possession peut rapidement grimper en flèche. Les coûts d'infrastructure augmentent au fur et à mesure que vous évoluez horizontalement, en particulier lorsque les journaux, les mesures et les traces sont tous centralisés dans Elasticsearch. La maintenance, le réglage et la réponse aux incidents peuvent prendre un temps précieux aux ingénieurs. Ce qui commence comme une pile gratuite devient souvent un centre de coûts caché.
Snowflake pose un autre type de défi en matière de coûts. Bien que son modèle de paiement à l'utilisation permette un contrôle précis du calcul et du stockage, les données d'observabilité sont notoirement volumineuses et irrégulières. Les coûts d'interrogation peuvent augmenter rapidement, en particulier lorsque les données sont conservées à long terme ou interrogées fréquemment. En l'absence d'une gouvernance et d'une optimisation strictes, les coûts peuvent augmenter de manière inattendue, en particulier lorsque les données d'observabilité sont mélangées à des charges de travail analytiques.
TrafficPeak a été conçu dès le départ dans un souci de rentabilité. Son modèle de tarification tient compte de l'utilisation et est conçu pour éviter les coûts excessifs. Des fonctionnalités telles que la compression des données, la rétention par paliers et l'échantillonnage intelligent permettent de contrôler le volume et les dépenses, tandis que la mise à l'échelle automatique garantit que vous ne payez que pour les ressources que vous utilisez réellement. TrafficPeak vous donne une visibilité sur la santé et les coûts du système avant que l'un ou l'autre ne devienne un problème.
4. Personnalisation et extensibilité
L'un des principaux atouts d'ELK est sa flexibilité. Vous pouvez construire des pipelines personnalisés, appliquer des filtres, définir des schémas et créer des tableaux de bord hautement personnalisés pour des cas d'utilisation spécifiques. Cela en fait un outil puissant, mais aussi complexe. La personnalisation nécessite une compréhension des requêtes Lucene, de la syntaxe des pipelines et du mappage des index. Pour les équipes qui ont besoin d'un contrôle fin, il n'y a pas d'équivalent. Pour les autres, il peut devenir un fardeau de maintenance.
Snowflake est basé sur des schémas et construit autour de SQL, ce qui le rend très extensible pour les analystes de données et les équipes qui veulent joindre l'observabilité aux données d'entreprise. Cependant, il n'est pas conçu avec un support natif pour l'analyse des journaux, l'assemblage des traces ou les alertes. Cela limite son utilisation dans les flux de travail d'observabilité en direct. Il est souvent nécessaire d'ajouter des outils supplémentaires pour obtenir des tableaux de bord ou des vues opérationnelles.
TrafficPeak adopte une approche de personnalisation "juste assez". Il est livré avec des tableaux de bord et des flux de travail prêts à l'emploi, mais fournit également des API, des outils d'étiquetage et de filtrage pour les équipes qui souhaitent adapter les informations à leur environnement. Il est conçu pour minimiser le temps de retour sur investissement tout en offrant une extensibilité là où cela compte, comme l'enrichissement des journaux, le marquage et la corrélation des données.
5. Sécurité et conformité
ELK Stack offre une sécurité, mais pas clé en main. Le contrôle d'accès basé sur les rôles (RBAC), TLS et l'enregistrement des audits peuvent être mis en œuvre par le biais de plugins ou de la configuration, mais ils nécessitent une maintenance continue. Pour les industries réglementées, la mise en conformité totale d'un déploiement ELK exige diligence et discipline.
Snowflake offre d'emblée une sécurité de niveau entreprise, y compris le RBAC, la sécurité au niveau des lignes, le cryptage au repos et en transit, et la prise en charge de diverses normes de conformité. Il est bien adapté aux équipes qui doivent répondre à des exigences strictes et qui souhaitent que ces fonctionnalités soient gérées par un fournisseur.
TrafficPeak a intégré la sécurité dès le départ. Des fonctions telles que le RBAC, l'audit et les contrôles de résidence des données sont intégrées à la plateforme plutôt que d'être ajoutées. Que vous soyez dans la finance, la santé ou le gouvernement, TrafficPeak vous permet de répondre facilement aux exigences de conformité modernes sans avoir à bricoler des outils disparates.
6. Maintenance et soutien
ELK est entièrement autogéré, sauf si vous payez pour Elastic Cloud ou un fournisseur tiers. Cela signifie que votre équipe est responsable de la mise à l'échelle, des correctifs, de l'optimisation des performances et du dépannage. Pour de nombreuses équipes, cette charge devient insoutenable pour les équipes ne disposant pas d'une expertise approfondie en matière d'infrastructure, en particulier au fur et à mesure que l'environnement se développe.
Snowflake, étant entièrement géré, supprime entièrement le fardeau de la maintenance. Il gère les mises à jour, les correctifs et la mise à l'échelle en coulisses. Mais comme le support de l'observabilité n'est pas son principal cas d'utilisation, les tickets de support peuvent être acheminés à travers des flux de travail qui ne sont pas optimisés pour le débogage de systèmes vivants.
TrafficPeak offre une observabilité gérée par le fournisseur avec un support en temps réel et des accords de niveau de service optionnels. Il est conçu pour minimiser la charge opérationnelle tout en donnant accès à des ingénieurs qui comprennent les problèmes spécifiques à l'observabilité. Le résultat est une plateforme qui vous aide à livrer et à évoluer sans vous soucier constamment de votre pile de télémétrie.
Quelle est donc la meilleure solution ?
En gardant à l'esprit toutes ces forces et faiblesses, pour une entreprise en phase initiale de croissance, lorsque la flexibilité et les faibles coûts sont importants, nous sommes d'accord pour dire que le statu quo d'une solution open source est la meilleure option. Lorsqu'il s'agit d'une entreprise en phase 1, d'environnements on-prem ou hybrides, ou d'équipes qui ont une grande expérience de l'infrastructure, ELK Stack est une excellente option.
Mais pour la plupart des entreprises au cours de l'étape 2, au lieu d'opter immédiatement pour une solution de type boîte noire comme Snowflake pour faire face à la complexité soudaine des tâches quotidiennes d'observabilité, nous pensons que le choix d'une solution à la fois facile, ajustable et évolutive fera preuve d'une plus grande longévité.
Nous avons conçu TrafficPeak exactement pour cette situation, et nous aimerions savoir si nous avons réussi à résoudre le problème de l'étape 3.
Pour voir TrafficPeak en action, consultez notre étude de cas de la Navy Federal Credit Union!

Commentaires