BlogBases de dadosMontanhas de Dados: Grande vs Pequeno e Largo

Montanhas de Dados: Grande vs Pequeno e Largo

Linode

23 de Março de 2023

Montanhas de Dados: Grande vs Pequeno e Largo

Se está na indústria tecnológica (e provavelmente mesmo se não estiver), tem ouvido falar muito de IA. Não estou a falar apenas do tipo "A Skynet está a tomar conta da Terra" da ficção científica que todos apreciamos ao longo dos anos, mas da aplicação prática da inteligência artificial e da aprendizagem de máquinas no nosso dia-a-dia.

O sangue vital e o sustento da IA/ML são grandes dados. Dados gigantescos. Quantidades maciças de dados. Ou será? Big Data tem sido o motor que alimenta a IA/ML de hoje, e embora possamos sempre precisar de um volume enorme, nos últimos anos as organizações começaram a mudar de Big Data para Small and Wide.

Vamos comparar os dois.

Montes de dados

Os Grandes Dados podem ser divididos em duas formas.

A primeira é reunir e organizar um grande conjunto de dados - um conceito simples que pode ser difícil de executar bem. Este processo requer um grande volume de dados rapidamente povoados, e tipicamente não estruturados. A infra-estrutura back-end para acomodar este fluxo de dados é intensiva em recursos e envolve largura de banda de rede, espaço de armazenamento, e poder de processamento para apoiar a implantação de bases de dados maciças. E é dispendioso.

O segundo método torna-se mais complicado. Uma vez que se tenha um grande volume de dados, é necessário extrair dele uma visão e um valor. As tecnologias evoluíram para acomodar o tamanho dos grandes dados, mas tem havido menos progresso na determinação do que pode ser derivado destas montanhas de informação.

É nesta altura que é preciso ficar mais esperto. Mesmo ambientes com espaço de armazenamento infinito e a implementação perfeita do NoSQL, todos os dados do mundo não significarão nada se não se tiver os modelos certos para combinar.

Há aqui também uma oportunidade. As empresas estão a encontrar casos de utilização onde menos dados de mais fontes é mais prático e estão a tirar melhores conclusões e correlações a partir de conjuntos de dados.

Pequenos e largos

Com uma abordagem pequena e ampla, procura-se uma maior variedade de fontes, procurando correlações, e não apenas aumentar a quantidade bruta. Esta abordagem mais táctica requer menos dados, resultando em menos recursos informáticos. Variedade é o nome do jogo, e ir pequeno e largo significa procurar diversos formatos de dados, estruturados e não estruturados, e encontrar ligações entre eles.

De acordo com um relatório Gartner em 2021: "Áreas potenciais onde dados pequenos e amplos podem ser utilizados são a previsão da procura no retalho, a inteligência comportamental e emocional em tempo real no serviço ao cliente aplicada à hiperpersonalização, e a melhoria da experiência do cliente".

Há muito potencial, mas como é que isto se parece na prática? Os conjuntos de dados maciços podem tornar-se pesados ou desactualizados rapidamente. As tendências e comportamentos humanos podem virar um cêntimo na era da informação, propensos a mudanças culturais e económicas. Há espaço para modelos mais ágeis, utilizando conjuntos de dados mais pequenos que se podem adaptar dinamicamente a estas mudanças.

Um relatório da Harvard Business Review explica que "muitos dos conjuntos de dados mais valiosos nas organizações são bastante pequenos: Pense em kilobytes ou megabytes em vez de exabytes. Como estes dados não têm o volume e a velocidade dos grandes dados, são frequentemente negligenciados, definhando em PCs e bases de dados funcionais e desconectados de iniciativas de inovação informática a nível empresarial".

O relatório descreve uma experiência que realizaram com codificadores médicos que destacaram os factores humanos na formação de IA com pequenos dados. Recomendo a leitura deste estudo mas a conclusão final foi que, para além de dados pequenos, considerando o elemento humano pode melhorar modelos e dar às organizações uma vantagem competitiva na grande corrida aos armamentos com dados.

Por outras palavras, estamos a falar de dados pequenos, amplos, e inteligentes como uma combinação vencedora.

Conclusões do Desenho

O que significa tudo isto? Muitos volumes poderiam ser, e foram escritos sobre este assunto, mas vamos dar uma olhada rápida e holística para uma mensagem take-home. Gosto do meu PC suficientemente forte e poderoso para servir de fonte de aquecimento para o meu escritório em casa, mas chega uma altura em que "mais" tem um limite. Um software pode ser mal optimizado e funcionar terrivelmente, mesmo com a estação de trabalho mais sofisticada.

Em muitos casos, atirar mais recursos a um problema é impraticável e ignora as verdadeiras questões. Mais frequentemente, há uma grande oportunidade de melhoria, e isto é algo que começamos hoje a ver com grandes dados. Ainda há casos de utilização em que um grande volume de dados é verdadeiramente necessário, mas também é importante conceber modelos para obter a melhor utilização dos dados e não apenas conceber métodos para ter o máximo de dados.