Ir al contenido principal
BlogBases de datosMontañas de datos: Grandes vs Pequeñas y Anchas

Montañas de datos: Grandes frente a pequeños y amplios

Montañas de datos: Grandes frente a pequeños y amplios

Si estás en la industria tecnológica (y probablemente incluso si no lo estás), has oído hablar mucho de la IA. No me refiero solo a la IA del tipo "Skynet se apodera de la Tierra" de la ciencia ficción que todos hemos disfrutado a lo largo de los años, sino a la aplicación práctica de la inteligencia artificial y el aprendizaje automático en nuestra vida cotidiana.

La savia y el sustento de la IA/ML son los macrodatos. Datos enormes. Cantidades ingentes de datos. ¿O no? Los macrodatos han sido el motor que ha alimentado la IA/ML actual y, aunque siempre necesitaremos grandes volúmenes, en los últimos años las organizaciones han empezado a pasar de los macrodatos a los datos pequeños y amplios

Comparemos los dos.

Montones de datos 

Los macrodatos pueden desglosarse de dos maneras.

El primero es reunir y organizar un gran conjunto de datos, un concepto sencillo que puede ser difícil de ejecutar bien. Este proceso requiere un gran volumen de datos, normalmente no estructurados, que se acumulan rápidamente. La infraestructura de back-end para acomodar este flujo de datos consume muchos recursos e implica ancho de banda de red, espacio de almacenamiento y potencia de procesamiento para soportar despliegues masivos de bases de datos. Y es caro.

El segundo método es más complicado. Una vez que se dispone de un enorme cúmulo de datos, hay que extraer de ellos conocimiento y valor. Las tecnologías han evolucionado para adaptarse al tamaño de los macrodatos, pero se ha avanzado menos a la hora de determinar qué puede extraerse de estas montañas de información.

Ahora es el momento de ser más inteligente. Incluso en entornos con espacio de almacenamiento infinito y el despliegue NoSQL perfecto, todos los datos del mundo no significarán nada si no tienes los modelos adecuados para que coincidan. 

Aquí también hay una oportunidad. Las empresas están encontrando casos de uso en los que resulta más práctico disponer de menos datos procedentes de más fuentes y están extrayendo mejores conclusiones y correlaciones de los conjuntos de datos.

Pequeño y ancho

Con un enfoque pequeño y amplio, se examina una mayor variedad de fuentes, se buscan correlaciones y no sólo se aumenta la cantidad bruta. Este enfoque más táctico requiere menos datos, lo que se traduce en menos recursos informáticos. La variedad es el nombre del juego, e ir a lo pequeño y amplio significa buscar diversos formatos de datos, estructurados y no estructurados, y encontrar vínculos entre ellos.

Según un informe de Gartner de 2021: "Los ámbitos potenciales en los que pueden utilizarse los datos pequeños y amplios son la previsión de la demanda en el comercio minorista, la inteligencia emocional y de comportamiento en tiempo real en el servicio al cliente aplicada a la hiperpersonalización, y la mejora de la experiencia del cliente."

Hay mucho potencial, pero ¿cómo se ve esto en la práctica? Los conjuntos de datos masivos pueden volverse difíciles de manejar o quedar obsoletos rápidamente. En la era de la información, las tendencias y comportamientos humanos pueden cambiar en un abrir y cerrar de ojos, propensos a cambios culturales y económicos. Hay espacio para modelos más ágiles que utilicen conjuntos de datos más pequeños que puedan adaptarse dinámicamente a estos cambios.

Un informe de Harvard Business Review explica que "muchos de los conjuntos de datos más valiosos de las organizaciones son bastante pequeños: piense en kilobytes o megabytes en lugar de exabytes. Como estos datos carecen del volumen y la velocidad de los big data, a menudo se pasan por alto, languideciendo en PC y bases de datos funcionales y desconectados de las iniciativas de innovación de TI en toda la empresa."

El informe describe un experimento que llevaron a cabo con codificadores médicos que puso de relieve los factores humanos en el entrenamiento de IA con datos pequeños. Recomiendo la lectura de este estudio, pero la conclusión final fue que, además de los datos pequeños, tener en cuenta el elemento humano puede mejorar los modelos y dar a las organizaciones una ventaja competitiva en la carrera armamentística del big data.

En otras palabras, estamos hablando de datos pequeños, amplios e inteligentes como combinación ganadora.

Conclusiones

¿Qué significa todo esto? Se podrían escribir y se han escrito muchos volúmenes sobre este tema, pero echemos un vistazo rápido y holístico en busca de un mensaje para llevar a casa. Me gusta que mi PC sea lo suficientemente potente y potente como para servir de fuente de calor para mi oficina en casa, pero llega un momento en que "más" tiene un límite. Un programa puede estar mal optimizado y funcionar fatal, incluso con la estación de trabajo más potente. 

En muchos casos, dedicar más recursos a un problema es poco práctico y pasa por alto los problemas reales. Más a menudo, existe una gran oportunidad de mejora, y esto es algo que estamos empezando a ver con los big data hoy en día. Todavía hay casos de uso en los que es realmente necesario un gran volumen de datos, pero también es importante diseñar modelos para obtener el mejor uso de los datos y no sólo diseñar métodos para tener la mayor cantidad de datos.


Comentarios

Dejar una respuesta

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *.