Ir al contenido principal
BlogInformáticaPor qué las herramientas de observabilidad tienden a fallar a escala

Por qué las herramientas de observabilidad tienden a fallar a escala

Por qué_las_herramientas_de_observabilidad_fallan_a_escala

La observabilidad ya no consiste sólo en detectar errores o comprobar si un servidor está activo. En los sistemas distribuidos modernos, se trata de comprender el comportamiento de docenas, si no miles, de servicios, todos ellos funcionando en entornos diferentes y generando cantidades ingentes de datos.

Ese nivel de complejidad es precisamente la razón por la que es tan importante elegir la herramienta de observabilidad adecuada. Una decisión equivocada no sólo le ralentizará. Puede agotar tu presupuesto, afectar a tu rendimiento a escala y bloquearte en un sistema que ya no te sirva cuando tu producto despegue.

Cualquier buen arquitecto le dirá que la creación de una gran observabilidad en un producto requiere facilidad de incorporación, alto rendimiento (incluso a escala) y un sistema que la mantenga independiente de la propia aplicación. Cambiar de herramientas de observabilidad más tarde es doloroso y caro. Es mejor evitar la dependencia del proveedor desde el principio y elegir algo que pueda crecer con usted.

El problema de la ampliación de la fase 3

Pero es más fácil decirlo que hacerlo. La mayoría de los equipos no piensan en las necesidades de observabilidad a largo plazo hasta que es demasiado tarde. Basándonos en lo que hemos oído de nuestros clientes aquí en Akamai, el verdadero problema comienza durante las primeras etapas de crecimiento de una empresa, cuando los equipos eligen herramientas que parecen fáciles ahora, pero que resultan costosas y rígidas más adelante.

Fase 1 - Código abierto 

Aquí es donde te centras en la velocidad y el bajo coste. Necesitas validar tu idea y conseguir que algo funcione. Las herramientas de código abierto como ELK Stack brillan aquí: flexibles, baratas (al menos al principio) y geniales para crear un MVP.

Etapa 2 - Caja negra

Ahora que el producto está creciendo, es necesario mantener el sistema en funcionamiento y estable. La observabilidad se convierte en un factor crítico, y muchos equipos recurren por defecto a herramientas de caja negra fáciles de gestionar, como Snowflake, que son rápidas y fáciles de usar. Por desgracia, también son muy caras, sobre todo a medida que aumenta su uso.

Fase 3 - Escalable

A medida que crecen el tráfico y los volúmenes de datos, las decisiones tomadas en la fase 2 empiezan a ser contraproducentes. En la etapa 3 es cuando las facturas de observabilidad de las soluciones de caja negra se vuelven prohibitivamente caras. Las empresas se ven atrapadas entre dos malas opciones. Seguir pagando costes exorbitantes para quedarse con la cómoda herramienta de caja negra, o sustituirla por algo más barato, lo que lleva tiempo, introduce riesgos y a menudo retrasa el trabajo principal del producto.

Creemos que este problema de la fase 3 se origina en realidad en la fase 2, cuando las empresas toman la decisión equivocada de pasar a una solución de caja negra. En lugar de eso, ¿qué pasaría si hubiera una solución a la que las empresas pudieran pasar desde el código abierto y que les durara toda la vida útil de su producto?

La mejor solución de observabilidad

Así que la verdadera pregunta aquí debería ser ¿qué solución es capaz de servir mejor a una empresa a largo plazo? Aquí en Akamai, hemos escuchado a muchos clientes que han experimentado el problema de la fase 3, la consecuencia de la transición a una solución de caja negra en la fase 2. En respuesta, nos hemos asociado con Hydrolix para crear una solución que se sitúa en medio de estas dos opciones. En respuesta, nos hemos asociado con Hydrolix para crear una solución que se sitúa en medio de estas dos opciones: TrafficPeak. TrafficPeak es una solución nativa en la nube con autoescalado y capacidad de observación del tráfico integrada. Sin dejar de ser simple de usar y dando a los usuarios un grado significativo de control, está diseñado para entornos de alto volumen como microservicios, CDNs o redes de borde. TrafficPeak ofrece el control del código abierto con la simplicidad de SaaS, pero sin los impactos de costes de las herramientas de caja negra.

Analicemos cómo se comportan ELK stack (código abierto), Snowflake (caja negra) y TrafficPeak (escalable) en lo que respecta a la complejidad de la configuración y la infraestructura, el rendimiento a escala, la gestión de costes, la personalización, la seguridad y el mantenimiento. 

Cara a cara: ELK Stack vs. Snowflake vs. TrafficPeak

1. Instalación y complejidad de la infraestructura

ELK Stack ofrece a los equipos un alto grado de control, pero conlleva una importante complejidad operativa. La creación de una canalización ELK completa (Elasticsearch, Logstash, Beats o Agents y Kibana) requiere una configuración minuciosa, gestión de dependencias y una profunda familiaridad con el modo en que cada componente encaja. El escalado durante la fase 3 presenta otros retos, como la gestión de la fragmentación, la indexación y la disponibilidad entre nodos. Para las organizaciones que se mueven con rapidez, estos requisitos de infraestructura pueden convertirse en un cuello de botella.

Snowflake, por el contrario, está totalmente gestionado y es nativo de la nube. Abstrae la infraestructura, lo que permite a los equipos centrarse en los datos en lugar de en los servidores. Sin embargo, los casos de uso de la observabilidad requieren la creación de conductos de ingestión que alimenten los registros y las métricas en Snowflake, normalmente a través de Snowpipe, Kafka o marcos ETL. Aunque la configuración inicial puede parecer sencilla, el esfuerzo de ingeniería para hacer que los datos de observabilidad sean consultables y procesables dentro de un modelo de almacén de datos introduce latencia y complejidad. Es potente, pero no está diseñado para la visibilidad de las operaciones en tiempo real.

TrafficPeak se construyó pensando en la simplicidad del despliegue. Como solución nativa en la nube, se integra perfectamente en entornos Kubernetes y se puede implementar como SaaS o plataforma en contenedores. No hay necesidad de complejos sistemas de colas o capas de ingestión personalizadas. La recopilación, el procesamiento y la visualización de datos están integrados en el mismo canal. Está diseñada para ponerse en marcha en horas, no en semanas, lo que la hace accesible a equipos sin recursos dedicados a operaciones o ingeniería de datos.

2. Ingestión de datos y rendimiento a escala

En ELK, la ingesta de alto rendimiento a escala requiere una arquitectura cuidadosa. Es común introducir Kafka u otros sistemas de colas para manejar las ráfagas, y los conductos de ingestión deben ajustarse para evitar registros perdidos o actualizaciones de índice fallidas. El propio Elasticsearch puede convertirse en un cuello de botella bajo una carga pesada si no se fragmenta y dimensiona correctamente. Estos problemas pueden solucionarse, pero hacerlo requiere tiempo, habilidad y una atención constante.

Snowflake destaca en escala, que es uno de sus principales puntos fuertes. Puede ingerir y procesar petabytes de datos, y su separación de almacenamiento y computación permite un escalado flexible. Pero la ingesta no es instantánea. Las canalizaciones de observabilidad a menudo implican almacenamiento en búfer, carga por lotes o transformaciones antes de que los datos estén disponibles para su consulta. Esto hace que Snowflake sea menos adecuado para alertas o depuración en tiempo real, donde la latencia por debajo del minuto es crítica.

TrafficPeak se diseñó para entornos de gran volumen y en tiempo real. Cuenta con canalizaciones de ingesta de escalado automático y mecanismos integrados de almacenamiento en búfer y eliminación de carga, lo que le permite adaptarse dinámicamente a los cambios en el tráfico. Tanto si está ejecutando una flota de microservicios, una CDN global o transmitiendo datos desde dispositivos periféricos, TrafficPeak está diseñado para gestionar cargas de trabajo de alto rendimiento y obtener información rápidamente.

3. Gestión de costes

Aunque ELK es rentable al principio, especialmente para los equipos que intentan evitar las facturas de SaaS, el coste total de propiedad puede dispararse rápidamente. Los costes de infraestructura aumentan a medida que se escala horizontalmente, especialmente cuando los registros, las métricas y las trazas se centralizan en Elasticsearch. El mantenimiento, la puesta a punto y la respuesta a incidentes pueden consumir un valioso tiempo de ingeniería. Lo que comienza como una pila gratuita a menudo se convierte en un centro de costes oculto.

Snowflake plantea un tipo diferente de reto de costes. Aunque su modelo de pago por uso permite un control preciso de la computación y el almacenamiento, los datos de observabilidad son notoriamente de gran volumen y puntuales. Los costes de consulta pueden aumentar rápidamente, especialmente cuando los datos se conservan a largo plazo o se consultan con frecuencia. Sin un control y una optimización estrictos, los costes pueden aumentar de forma inesperada, especialmente cuando los datos de observabilidad se mezclan con cargas de trabajo analíticas.

TrafficPeak se construyó desde cero pensando en la rentabilidad. Su modelo de precios tiene en cuenta el uso y está diseñado para evitar costes desmesurados. Funciones como la compresión de datos, la retención por niveles y el muestreo inteligente ayudan a controlar el volumen y el gasto, mientras que el autoescalado garantiza que sólo pague por los recursos que realmente utiliza. TrafficPeak le ofrece visibilidad tanto del estado del sistema como de sus costes antes de que se conviertan en un problema.

4. Personalización y extensibilidad

Uno de los puntos fuertes de ELK es su flexibilidad. Puede crear canalizaciones personalizadas, aplicar filtros, definir esquemas y crear cuadros de mando altamente personalizados para casos de uso específicos. Esto lo hace potente, pero también complejo. La personalización requiere un conocimiento de las consultas Lucene, la sintaxis de las canalizaciones y la asignación de índices. Para los equipos que necesitan un control preciso, no tiene rival. Para otros, puede convertirse en una carga de mantenimiento.

Snowflake se basa primero en esquemas y en SQL, lo que lo hace muy extensible para los analistas de datos y los equipos que desean unir la observabilidad con los datos empresariales. Sin embargo, no cuenta con soporte nativo para el análisis de registros, la costura de trazas o las alertas. Esto limita su uso en flujos de trabajo de observabilidad en vivo. A menudo es necesario superponer herramientas adicionales para obtener cuadros de mando o vistas operativas.

TrafficPeak adopta un enfoque de personalización "suficiente". Viene con cuadros de mando y flujos de trabajo listos para usar, pero también proporciona API, etiquetado y herramientas de filtrado para los equipos que desean adaptar la información a su entorno. Está diseñado para minimizar el tiempo de obtención de valor, al tiempo que ofrece extensibilidad donde es necesario, como el enriquecimiento de registros, el etiquetado y la correlación de datos.

5. Seguridad y conformidad

ELK Stack ofrece seguridad, pero no llave en mano. El control de acceso basado en roles (RBAC), TLS y el registro de auditoría pueden implementarse mediante plugins o configuración, pero requieren un mantenimiento continuo. Para las industrias reguladas, lograr el pleno cumplimiento con un despliegue ELK exige diligencia y disciplina.

Snowflake ofrece seguridad de nivel empresarial desde el primer momento, incluido RBAC, seguridad a nivel de fila, cifrado en reposo y en tránsito, y compatibilidad con diversas normas de cumplimiento. Es ideal para equipos que deben cumplir requisitos estrictos y desean que esas funciones sean gestionadas por un proveedor.

TrafficPeak tiene la seguridad integrada desde el principio. Características como RBAC, auditoría y controles de residencia de datos son nativas de la plataforma en lugar de complementos. Si usted está en las finanzas, la salud, o el gobierno, TrafficPeak hace que sea fácil cumplir con los requisitos de cumplimiento modernos sin improvisar herramientas dispares.

6. Mantenimiento y asistencia

ELK es totalmente autogestionado a menos que pague por Elastic Cloud o un proveedor externo. Esto significa que su equipo se encarga de escalar, aplicar parches, ajustar el rendimiento y solucionar problemas. Para muchos equipos, esta carga se vuelve insostenible para los equipos sin experiencia en infraestructura profunda, especialmente a medida que crece el entorno.

Snowflake, al estar totalmente gestionado, elimina por completo la carga del mantenimiento. Gestiona las actualizaciones, los parches y el escalado entre bastidores. Pero como el soporte de la observabilidad no es su principal caso de uso, los tickets de soporte pueden ser enviados a través de flujos de trabajo que no están optimizados para depurar sistemas en vivo.

TrafficPeak ofrece observabilidad gestionada por el proveedor con soporte en tiempo real y SLA opcionales. Está diseñado para minimizar la carga operativa al tiempo que proporciona acceso a ingenieros que entienden los problemas específicos de la observabilidad. El resultado es una plataforma que le ayuda a enviar y escalar sin preocuparse constantemente por su pila de telemetría.

Entonces, ¿cuál es el más adecuado?

Con todos estos puntos fuertes y débiles en mente, para una empresa en su primera etapa de crecimiento, cuando la flexibilidad y los bajos costes son importantes, estamos de acuerdo en que el status quo de una solución de código abierto es la mejor opción. Cuando se trata de una empresa en fase 1, entornos on-prem o híbridos, o equipos que tienen mucha experiencia en infraestructura, ELK Stack es una opción excelente.

Pero para la mayoría de las empresas durante la fase 2, en lugar de recurrir inmediatamente a una solución de caja negra como Snowflake para hacer frente a la repentina complejidad de las tareas cotidianas de observabilidad, creemos que elegir una que sea fácil, ajustable y escalable al mismo tiempo mostrará una mayor longevidad. 

Hemos creado TrafficPeak exactamente para esta situación, y nos encantaría recibir sus comentarios sobre si con él hemos conseguido resolver el problema de la fase 3. 

Para ver TrafficPeak en acción, consulte nuestro estudio de caso de la Navy Federal Credit Union.

También te puede gustar...

Comentarios

Dejar una respuesta

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *.