Pular para o conteúdo principal
BlogBases de dadosMontanhas de Dados: Grandes vs Pequenos e Amplos

Montanhas de Dados: Grandes vs Pequenos e Amplos

Montanhas de Dados: Grandes vs Pequenos e Amplos

Se você está na indústria tecnológica (e provavelmente mesmo se não estiver), você tem ouvido falar muito sobre IA. Não estou falando apenas do tipo "Skynet está tomando conta da Terra" de IA da ficção científica que todos nós apreciamos ao longo dos anos, mas da aplicação prática da inteligência artificial e do aprendizado de máquinas em nosso dia-a-dia.

O sangue vital e o sustento da IA/ML são grandes dados. Dados gigantescos. Quantidades massivas de dados. Ou será? Big Data tem sido o motor que alimenta a IA/ML de hoje, e embora possamos sempre precisar de um volume enorme, nos últimos anos as organizações começaram a mudar de Big Data para Small and Wide

Vamos comparar os dois.

Montões de dados 

Os grandes dados podem ser divididos em duas formas.

A primeira é reunir e organizar um grande conjunto de dados - um conceito simples que pode ser difícil de executar bem. Esse processo requer um grande volume de dados rapidamente povoados e tipicamente não estruturados. A infra-estrutura back-end para acomodar este fluxo de dados é de recursos intensivos e envolve largura de banda de rede, espaço de armazenamento e poder de processamento para suportar implantações maciças de bancos de dados. E é caro.

O segundo método se torna mais complicado. Uma vez que você tenha um grande volume de dados, você precisa extrair dele uma visão e um valor. As tecnologias evoluíram para acomodar o tamanho de grandes dados, mas tem havido menos progresso na determinação do que pode ser derivado destas montanhas de informação.

É quando chega a hora de ficar mais esperto. Mesmo ambientes com espaço de armazenamento infinito e a perfeita implementação do NoSQL, todos os dados do mundo não significarão nada se você não tiver os modelos certos para combinar. 

Há uma oportunidade também aqui. As empresas estão encontrando casos de uso onde menos dados de mais fontes é mais prático e estão tirando melhores conclusões e correlações de conjuntos de dados.

Pequenos e largos

Com uma abordagem pequena e ampla, você está olhando para uma maior variedade de fontes, buscando correlações, e não apenas aumentando a quantidade bruta. Esta abordagem mais tática requer menos dados, resultando em menos recursos computacionais. Variedade é o nome do jogo, e ir pequeno e largo significa procurar diversos formatos de dados, estruturados e não estruturados, e encontrar ligações entre eles.

De acordo com um relatório do Gartner em 2021: "Áreas potenciais onde dados pequenos e amplos podem ser usados são previsão de demanda no varejo, inteligência comportamental e emocional em tempo real no atendimento ao cliente aplicada à hiperpersonalização e melhoria da experiência do cliente".

Há muito potencial, mas como isso se parece na prática? Os conjuntos de dados maciços podem tornar-se pesados ou desatualizados rapidamente. As tendências e comportamentos humanos podem virar um centavo na era da informação, propensos a mudanças culturais e econômicas. Há espaço para modelos mais ágeis utilizando conjuntos de dados menores que podem se adaptar dinamicamente a estas mudanças.

Um relatório da Harvard Business Review explica que "muitos dos conjuntos de dados mais valiosos nas organizações são bastante pequenos: pense em kilobytes ou megabytes em vez de exabytes. Como esses dados não têm o volume e a velocidade dos grandes dados, muitas vezes são negligenciados, definhando em PCs e bancos de dados funcionais e não conectados a iniciativas de inovação de TI em toda a empresa".

O relatório descreve uma experiência que eles conduziram com codificadores médicos que destacaram fatores humanos no treinamento de IA com pequenos dados. Recomendo a leitura deste estudo, mas a conclusão final foi que, além de dados pequenos, considerando o elemento humano pode melhorar modelos e dar às organizações uma vantagem competitiva na grande corrida armamentista de dados.

Em outras palavras, estamos falando de dados pequenos, amplos e inteligentes como uma combinação vencedora.

Conclusões do Desenho

O que tudo isso significa? Muitos volumes poderiam ser, e foram escritos sobre este assunto, mas vamos dar uma olhada rápida e holística em busca de uma mensagem para levar para casa. Eu gosto de meu PC forte e poderoso o suficiente para servir como fonte de aquecimento para meu escritório em casa, mas chega um momento em que "mais" tem um limite. Um software pode ser mal otimizado e funcionar terrivelmente, mesmo com a estação de trabalho mais sofisticada. 

Em muitos casos, atirar mais recursos a um problema é impraticável e esquece os problemas reais. Mais freqüentemente, há uma grande oportunidade de melhoria, e isto é algo que começamos a ver com grandes dados hoje. Ainda há casos de uso onde um grande volume de dados é realmente necessário, mas também é importante projetar modelos para obter o melhor uso dos dados e não apenas projetar métodos para ter o máximo de dados.

Comentários

Deixe uma resposta

Seu endereço de e-mail não será publicado. Os campos obrigatórios estão marcados com *