Zum Inhalt springen
BlogBerechnenWarum Observabilitäts-Tools in der Skala versagen

Warum Observabilitäts-Tools in der Regel im großen Maßstab scheitern

Warum_Wahrnehmbarkeits-Tools_in_der_Skala_zu_versagen_neigen

Bei der Beobachtbarkeit geht es nicht mehr nur darum, Fehler zu erkennen oder zu prüfen, ob ein Server in Betrieb ist. In modernen verteilten Systemen geht es darum, das Verhalten von Dutzenden, wenn nicht Tausenden von Diensten zu verstehen, die alle in unterschiedlichen Umgebungen laufen und riesige Datenmengen erzeugen.

Diese Komplexität ist genau der Grund, warum die Wahl des richtigen Beobachtungswerkzeugs so wichtig ist. Eine falsche Entscheidung bremst Sie nicht nur aus. Sie kann Ihr Budget aufzehren, Ihre Leistung im großen Maßstab beeinträchtigen und Sie an ein System binden, das nicht mehr passt, sobald Ihr Produkt in Fahrt kommt.

Jeder gute Architekt wird Ihnen sagen, dass die Integration von Beobachtungsfunktionen in ein Produkt ein einfaches Onboarding, eine hohe Leistung (auch bei Skalierung) und ein System erfordert, das die Beobachtungsfunktionen unabhängig von der Anwendung selbst hält. Ein späterer Wechsel der Observability-Tools ist mühsam und teuer. Am besten vermeiden Sie von Anfang an die Bindung an einen bestimmten Anbieter und wählen etwas, das mit Ihnen wachsen kann.

Das Skalierungsproblem der Stufe 3

Aber das ist leichter gesagt als getan. Die meisten Teams machen sich erst dann Gedanken über die langfristigen Anforderungen an die Beobachtbarkeit, wenn es zu spät ist. Nach dem, was wir von unseren Kunden hier bei Akamai gehört haben, beginnt das eigentliche Problem in den frühen Phasen des Unternehmenswachstums, wenn Teams Tools auswählen, die sich jetzt einfach anfühlen, aber später teuer und starr werden.

Stufe 1 - Open Source 

Hier geht es um Schnelligkeit und niedrige Kosten. Sie müssen Ihre Idee validieren und etwas zum Laufen bringen. Open-Source-Tools wie der ELK Stack bieten sich hier an: Sie sind flexibel, billig (zumindest am Anfang) und eignen sich hervorragend, um ein MVP zu erstellen.

Stufe 2 - Blackbox

Jetzt, wo das Produkt wächst, müssen Sie Ihr System aufrechterhalten und stabil halten. Die Beobachtbarkeit wird entscheidend, und viele Teams greifen auf einfach zu verwaltende Blackbox-Tools wie Snowflake zurück, die schnell und einfach zu bedienen sind. Leider sind sie auch sehr teuer, vor allem, wenn die Nutzung zunimmt.

Stufe 3 - Skalierbar

Wenn der Datenverkehr und das Datenvolumen zunehmen, werden die in Phase 2 getroffenen Tooling-Entscheidungen nach hinten losgehen. In Phase 3 werden die Rechnungen für die Beobachtbarkeit von Blackbox-Lösungen unerschwinglich teuer. Unternehmen stehen dann vor der Wahl zwischen zwei schlechten Optionen. Entweder sie zahlen weiterhin exorbitante Kosten für das bequeme Blackbox-Tool, oder sie ersetzen es durch etwas Billigeres, was Zeit kostet, Risiken mit sich bringt und oft die Arbeit am Kernprodukt verzögert.

Wir sind der Meinung, dass dieses Problem der Stufe 3 eigentlich in Stufe 2 entsteht, wenn Unternehmen die falsche Entscheidung treffen, auf eine Blackbox-Lösung umzusteigen. Was wäre, wenn es stattdessen eine Lösung gäbe, auf die Unternehmen von Open Source umsteigen könnten und die die gesamte Lebensdauer ihres Produkts überdauern würde?

Die beste Lösung für die Beobachtbarkeit

Die eigentliche Frage sollte also lauten, welche Lösung einem Unternehmen langfristig am besten dienen kann. Hier bei Akamai haben wir von vielen Kunden gehört, die das Problem der Stufe 3 erlebt haben, die Folge des Übergangs zu einer Blackbox-Lösung in Stufe 2. Deshalb haben wir in Zusammenarbeit mit Hydrolix eine Lösung entwickelt, die zwischen diesen beiden Optionen liegt: TrafficPeak. TrafficPeak ist eine Cloud-native Lösung mit automatischer Skalierung und integrierter Verkehrsbeobachtung. Die Lösung ist einfach zu bedienen und bietet den Benutzern ein hohes Maß an Kontrolle. Sie ist für Umgebungen mit hohem Datenaufkommen wie Microservices, CDNs oder Edge-Netzwerke konzipiert. TrafficPeak bietet die Kontrolle von Open Source mit der Einfachheit von SaaS, aber ohne die Kostenschocks von Blackbox-Tools.

Untersuchen wir, wie sich ELK Stack (Open Source), Snowflake (Blackbox) und TrafficPeak (skalierbar) in Bezug auf die Komplexität der Einrichtung und Infrastruktur, die Leistung bei Skalierung, das Kostenmanagement, die Anpassung, die Sicherheit und die Wartung schlagen. 

Kopf-an-Kopf-Rennen: ELK Stack vs. Snowflake vs. TrafficPeak

1. Einrichtung und Komplexität der Infrastruktur

ELK Stack bietet Teams ein hohes Maß an Kontrolle, ist jedoch mit einer erheblichen betrieblichen Komplexität verbunden. Der Aufbau einer kompletten ELK-Pipeline (Elasticsearch, Logstash, Beats oder Agents und Kibana) erfordert eine durchdachte Konfiguration, ein Abhängigkeitsmanagement und ein tiefes Verständnis dafür, wie die einzelnen Komponenten zusammenpassen. Die Skalierung in Phase 3 bringt weitere Herausforderungen mit sich, wie z. B. die Verwaltung von Sharding, Indizierung und Verfügbarkeit über mehrere Knoten hinweg. Für schnelllebige Unternehmen können diese Infrastrukturanforderungen zu einem Engpass werden.

Snowflake hingegen ist vollständig verwaltet und Cloud-nativ. Es abstrahiert die Infrastruktur, sodass sich die Teams auf die Daten und nicht auf die Server konzentrieren können. Für Observability-Anwendungsfälle müssen jedoch Ingestion-Pipelines erstellt werden, die Protokolle und Metriken in Snowflake einspeisen, in der Regel über Snowpipe, Kafka oder ETL-Frameworks. Die anfängliche Einrichtung mag zwar einfach erscheinen, aber der technische Aufwand, um Observability-Daten in einem Data Warehouse-Modell abfragbar und verwertbar zu machen, führt zu Latenzzeiten und Komplexität. Es ist zwar leistungsfähig, aber nicht für Echtzeit-Betriebstransparenz ausgelegt.

Bei der Entwicklung von TrafficPeak stand die Einfachheit der Bereitstellung im Vordergrund. Als Cloud-native Lösung lässt es sich nahtlos in Kubernetes-Umgebungen integrieren und kann als SaaS oder containerisierte Plattform bereitgestellt werden. Es sind keine komplexen Warteschlangensysteme oder benutzerdefinierte Ingestion-Schichten erforderlich. Die Datenerfassung, -verarbeitung und -visualisierung sind in dieselbe Pipeline integriert. Die Lösung ist so konzipiert, dass sie innerhalb von Stunden und nicht erst nach Wochen einsatzbereit ist, sodass sie auch von Teams genutzt werden kann, die über keine eigenen Betriebs- oder Datenentwicklungsressourcen verfügen.

2. Datenerfassung und Leistung im großen Maßstab

In ELK erfordert die Ingestion mit hohem Durchsatz eine sorgfältige Architektur. Es ist üblich, Kafka oder andere Warteschlangensysteme einzuführen, um Bursts zu bewältigen, und die Ingestion-Pipelines müssen so abgestimmt werden, dass keine Logs verloren gehen oder Index-Updates fehlschlagen. Elasticsearch selbst kann bei hoher Last zu einem Engpass werden, wenn es nicht in Shards aufgeteilt und richtig dimensioniert ist. Diese Probleme können behoben werden, aber das erfordert Zeit, Können und ständige Aufmerksamkeit.

Snowflake zeichnet sich durch seine Skalierbarkeit aus, was eine seiner Hauptstärken ist. Es kann Daten im Petabyte-Bereich aufnehmen und verarbeiten, und die Trennung von Speicher und Rechenleistung ermöglicht eine flexible Skalierung. Die Datenaufnahme erfolgt jedoch nicht sofort. Observability-Pipelines beinhalten oft Pufferung, Batch-Laden oder Transformationen, bevor die Daten für Abfragen zur Verfügung stehen. Daher eignet sich Snowflake weniger für Echtzeit-Warnungen oder Debugging, bei denen eine Latenzzeit von weniger als einer Minute entscheidend ist.

TrafficPeak wurde für Umgebungen mit hohem Datenaufkommen und in Echtzeit entwickelt. Es verfügt über automatisch skalierende Ingestion-Pipelines und integrierte Pufferungs- und Lastabwurfmechanismen, die eine dynamische Anpassung an Änderungen im Datenverkehr ermöglichen. Ganz gleich, ob Sie eine Flotte von Microservices, ein globales CDN oder das Streaming von Daten von Edge-Geräten betreiben, TrafficPeak ist darauf ausgelegt, Workloads mit hohem Durchsatz zu verarbeiten und schnell Erkenntnisse zu gewinnen.

3. Kostenmanagement

Während ELK anfangs kostengünstig ist, insbesondere für Teams, die SaaS-Rechnungen vermeiden wollen, können die Gesamtbetriebskosten schnell in die Höhe schnellen. Die Infrastrukturkosten steigen bei horizontaler Skalierung, insbesondere wenn Protokolle, Metriken und Traces in Elasticsearch zentralisiert werden. Wartung, Tuning und Reaktion auf Vorfälle können wertvolle technische Zeit in Anspruch nehmen. Was als kostenloser Stack beginnt, wird oft zu einer versteckten Kostenstelle.

Snowflake stellt eine andere Art von Kostenherausforderung dar. Während das Pay-per-Use-Modell eine genaue Kontrolle über die Rechen- und Speicherleistung ermöglicht, sind Observability-Daten bekanntermaßen sehr umfangreich und schwankend. Die Abfragekosten können schnell ansteigen, vor allem, wenn die Daten langfristig gespeichert oder häufig abgefragt werden. Ohne strenge Kontrolle und Optimierung können die Kosten unerwartet eskalieren, insbesondere wenn Observabilitätsdaten mit Analyse-Workloads vermischt werden.

TrafficPeak wurde von Grund auf im Hinblick auf Kosteneffizienz entwickelt. Sein Preismodell ist nutzungsabhängig und darauf ausgelegt, ausufernde Kosten zu vermeiden. Funktionen wie Datenkomprimierung, abgestufte Speicherung und intelligentes Sampling helfen bei der Kontrolle des Volumens und der Ausgaben, während die automatische Skalierung sicherstellt, dass Sie nur für die Ressourcen zahlen, die Sie tatsächlich nutzen. TrafficPeak verschafft Ihnen einen Überblick über den Systemzustand und die Systemkosten, bevor beides zu einem Problem wird.

4. Anpassbarkeit und Erweiterbarkeit

Eine der größten Stärken von ELK ist seine Flexibilität. Sie können benutzerdefinierte Pipelines erstellen, Filter anwenden, Schemata definieren und hochgradig maßgeschneiderte Dashboards für bestimmte Anwendungsfälle erstellen. Das macht es leistungsstark, aber auch komplex. Die Anpassung erfordert ein Verständnis der Lucene-Abfragen, der Pipeline-Syntax und der Indexzuordnung. Für Teams, die eine fein abgestufte Kontrolle benötigen, ist es unübertroffen. Für andere kann es zu einer Wartungslast werden.

Snowflake ist schemaorientiert und basiert auf SQL, was es für Datenanalysten und Teams, die Beobachtbarkeit mit Geschäftsdaten verbinden möchten, äußerst erweiterbar macht. Snowflake bietet jedoch keine systemeigene Unterstützung für Log-Parsing, Trace Stitching oder Alerting. Dies schränkt die Verwendung in Live-Observability-Workflows ein. Um Dashboards oder operative Ansichten zu erhalten, müssen Sie oft zusätzliche Tools aufsetzen.

TrafficPeak verfolgt bei der Anpassung den Ansatz "gerade genug". Es wird mit gebrauchsfertigen Dashboards und Workflows geliefert, bietet aber auch APIs, Beschriftungs- und Filterwerkzeuge für Teams, die Einblicke auf ihre Umgebung zuschneiden möchten. Die Lösung ist so konzipiert, dass die Zeit bis zur Wertschöpfung minimiert wird, und bietet dennoch Erweiterungsmöglichkeiten, wo es darauf ankommt, wie z. B. Protokollanreicherung, Tagging und Datenkorrelation.

5. Sicherheit und Compliance

ELK Stack bietet Sicherheit, ist aber nicht schlüsselfertig. Rollenbasierte Zugriffskontrolle (RBAC), TLS und Audit-Protokollierung können über Plugins oder Konfiguration implementiert werden, erfordern aber eine laufende Wartung. Für regulierte Branchen erfordert das Erreichen der vollständigen Compliance mit einer ELK-Bereitstellung Sorgfalt und Disziplin.

Snowflake bietet von Haus aus Sicherheit auf Unternehmensniveau, einschließlich RBAC, Sicherheit auf Zeilenebene, Verschlüsselung im Ruhezustand und bei der Übertragung sowie Unterstützung für verschiedene Compliance-Standards. Es eignet sich gut für Teams, die strenge Anforderungen erfüllen müssen und diese Funktionen von einem Anbieter verwalten lassen möchten.

TrafficPeak hat die Sicherheit von Anfang an eingebaut. Funktionen wie RBAC, Auditing und Data Residency Controls sind in die Plattform integriert und nicht als Add-ons erhältlich. Egal, ob Sie im Finanzwesen, im Gesundheitswesen oder in der Verwaltung tätig sind, TrafficPeak macht es Ihnen leicht, moderne Compliance-Anforderungen zu erfüllen, ohne unterschiedliche Tools zusammenschustern zu müssen.

6. Wartung und Unterstützung

ELK wird vollständig selbst verwaltet, sofern Sie nicht für Elastic Cloud oder einen Drittanbieter bezahlen. Das bedeutet, dass Ihr Team für Skalierung, Patching, Leistungsoptimierung und Fehlerbehebung verantwortlich ist. Für viele Teams ist diese Belastung nicht mehr tragbar, vor allem, wenn die Umgebung wächst.

Da Snowflake vollständig verwaltet wird, entfällt der Wartungsaufwand vollständig. Upgrades, Patches und Skalierung werden hinter den Kulissen durchgeführt. Da die Unterstützung der Beobachtbarkeit jedoch nicht der primäre Anwendungsfall ist, können Support-Tickets durch Workflows geleitet werden, die nicht für das Debugging von Live-Systemen optimiert sind.

TrafficPeak bietet herstellerverwaltete Beobachtbarkeit mit Echtzeit-Support und optionalen SLAs. Es wurde entwickelt, um den operativen Aufwand zu minimieren und gleichzeitig den Zugang zu Ingenieuren zu ermöglichen, die sich mit beobachtungsspezifischen Problemen auskennen. Das Ergebnis ist eine Plattform, die Sie bei der Bereitstellung und Skalierung unterstützt, ohne dass Sie sich ständig Gedanken über Ihren Telemetrie-Stack machen müssen.

Welches ist also die beste Lösung?

Unter Berücksichtigung all dieser Stärken und Schwächen sind wir der Meinung, dass für ein Unternehmen in der ersten Wachstumsphase, in der Flexibilität und niedrige Kosten wichtig sind, der Status quo einer Open-Source-Lösung die beste Option ist. Wenn es sich um ein Unternehmen in der ersten Phase, um On-Prem- oder Hybrid-Umgebungen oder um Teams handelt, die über viel Erfahrung mit Infrastrukturen verfügen, ist ELK Stack eine hervorragende Option.

Aber für die meisten Unternehmen in Phase 2 gilt: Anstatt sofort zu einer Blackbox-Lösung wie Snowflake zu greifen, um die plötzliche Komplexität der täglichen Beobachtungsaufgaben zu bewältigen, sind wir der Meinung, dass die Wahl einer Lösung, die einfach, anpassbar und skalierbar ist, eine größere Langlebigkeit verspricht. 

Wir haben TrafficPeak genau für diese Situation entwickelt und würden uns über Ihr Feedback freuen, ob es uns damit gelungen ist, das Problem der Stufe 3 zu lösen. 

Um TrafficPeak in Aktion zu sehen, schauen Sie sich unsere Fallstudie über die Navy Federal Credit Union an!

Vielleicht interessiert Sie auch ...

Kommentare

Kommentar abgeben

Ihre E-Mail Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit *gekennzeichnet