BlogBancos de dadosGrandes Dados Precisam de Grandes Bancos de Dados

Grandes Dados Precisam de Grandes Bases de Dados

17 de junho de 2022

Muitas vezes, encontramos um salto aparentemente repentino no uso e nos avanços tecnológicos relacionados simplesmente porque o que antes era inviável agora é prático. O aumento dos aplicativos de Big Data segue de perto a disseminação da computação em nuvem. Vamos nos concentrar no que é Big Data, por que ele é importante hoje e como ele evoluiu em conjunto com os bancos de dados NoSQL. Quando falamos de Big Data, estamos lidando com grandes quantidades de informações que podemos examinar ou analisar para encontrar algo relevante.

Os grandes dados têm tipicamente três características cada um marcado pelos 3 Vs.

Volume- Temos muitos dados.
Velocidade- Nossos dados estão chegando rapidamente.
Variedade- Nossos dados estão em muitas formas diferentes.

Vamos mergulhar na forma como obtemos tantos dados, tipos de dados e o valor que podemos derivar deles.

Conclusões do Desenho

Precisamos de grandes conjuntos de dados para encontrar padrões subjacentes, pois pequenos conjuntos de dados não são confiáveis para representar o mundo real. Imagine fazer uma pesquisa com 10 pessoas: oito delas têm telefones Android, duas têm iPhones. Com este pequeno tamanho de amostra, você extrapolaria que a Apple tem apenas 20% de participação no mercado. Esta não é uma boa representação do mundo real.

Também é importante obter informações de vários dados demográficos e locais. Pesquisar 10 pessoas da Filadélfia, Pensilvânia não nos diz muito sobre o mundo, os Estados Unidos, ou mesmo sobre o estado da Pensilvânia como um todo. Em resumo, obter dados bons e confiáveis requer muito deles. Quanto mais amplo for o estudo, mais podemos dividi-lo e tirar conclusões.

Vamos aumentar nossa pesquisa de 10 para 100 e também registrar a idade dos participantes. Agora estamos coletando mais dados a partir de uma amostra maior. Agora, digamos que os resultados mostram que 40 pessoas têm telefones Android e 60 têm iPhones. Esta ainda é uma amostra muito pequena, mas podemos ver que um aumento de 10x nos participantes resultou em uma oscilação significativa de 80 pontos em nossos resultados. Mas isso é considerando apenas um campo de dados do nosso conjunto. Como registramos a idade de nossos participantes, bem como a escolha do telefone, podemos descobrir que os grupos de 10-20 ou 21-30 anos têm uma proporção muito diferente.

É Tudo Sobre o Algoritmo

Os grandes dados nos fazem processar grandes volumes de dados que chegam rapidamente e em uma variedade de formatos. A partir destes dados, somos capazes de encontrar padrões subjacentes que nos permitem criar modelos precisos que refletem o mundo real. Por que isso importa? Modelos precisos nos permitem fazer previsões e desenvolver ou melhorar algoritmos.

O exemplo mais comum de Grandes Dados no trabalho em nossa vida diária é algo simples e às vezes controverso - motores de recomendação. "Se você gosta de X, provavelmente também vai gostar de Y"! Isto é certamente útil de uma perspectiva de marketing e publicidade, mas este está longe de ser o único caso de uso. Grandes dados e algoritmos alimentam tudo, desde carros que dirigem sozinhos até a detecção precoce de doenças.

Em nosso pequeno exemplo de coleta de dados, paramos em 100 pessoas, mas se você realmente quer bons dados, você precisa de milhares ou milhões de fontes com uma magnitude de atributos diferentes. Isto ainda não se qualificaria verdadeiramente como "Grandes Dados", mesmo se expandíssemos o tamanho da amostra e estabelecêssemos uma ingestão rápida de resultados. Estaria faltando um dos três Vs, Variedade, e é de lá que vem a maior parte de nossos dados.

Variedades de dados

Podemos classificar o tipo de dados que coletamos em três categorias básicas: Estruturado, Semi-estruturado e Não-estruturado. Os dados estruturados seriam semelhantes à nossa pesquisa acima. Temos um esquema pré-definido e nossa entrada de dados se encaixará em uma estrutura rígida. Este tipo de dados é perfeito para RDBMSs que usam SQL, uma vez que são projetados para trabalhar com linhas e colunas. Fora dos bancos de dados SQL, os dados estruturados normalmente incluem arquivos csv e planilhas eletrônicas.

*Dados estruturados em uma tabela com linhas e colunas*

A grande maioria dos dados que existem vem de muitas fontes diferentes de nossas atividades diárias, de muitas maneiras diferentes. Postagens na mídia social, histórico de compras, navegação e cookies: Cada ação pode construir um perfil para um indivíduo com inúmeros atributos, como idade, localização, sexo, estado civil e mais além. Estamos apenas arranhando a superfície aqui, mas só precisamos nos concentrar no seguinte: as indústrias estão coletando muitos dados para tirar conclusões precisas e a grande maioria desses dados não está em formatos pré-definidos e estruturados. Para os Grandes Dados, geralmente estamos trabalhando com formas de dados semi-estruturados e não-estruturados.

Os registros de aplicação ou e-mails são exemplos de dados semi-estruturados. Chamamos isto de semi-estruturado porque embora não esteja em linhas e colunas rígidas, há um padrão geral de como estes dados são formatados. Dois dos tipos mais comuns de arquivos de dados semi-estruturados são JSON e XML. Dados não estruturados podem ser quase qualquer coisa que não esteja estruturada ou semi-estruturada, e como podemos imaginar, isto constitui a grande maioria de nossos dados. Exemplos comuns de dados não estruturados incluem postes de mídia social, arquivos de áudio e vídeo, imagens e outros documentos.

*Tipos de dados estruturados e não estruturados*

Nossa pesquisa de escolha telefônica ainda funciona como uma demonstração analítica: quanto mais dados tivermos, mais precisas nossas conclusões refletirão o mundo real, mas para realmente obter mais dados, precisamos ter um sistema capaz de ingerir mais do que apenas dados estruturados. É aqui que os bancos de dados NoSQL entram na equação.

Grandes Dados e NoSQL

O conceito de grandes dados é conhecido desde os anos 80 e, como muitas das tecnologias de crescimento mais rápido da atualidade, deu um grande passo em frente em meados dos anos 2000. Um marco importante quando a Apache lançou o Hadoop em 2006. O Hadoop é uma estrutura de software de código aberto projetada para processar de forma confiável grandes conjuntos de dados.

Alguns dos componentes principais incluem HDFS(Hadoop Distributed File System) e YARN(Yet Another Resource Negotiator). O HDFS é um sistema de arquivo rápido e tolerante a falhas e o YARN cuida da programação de trabalhos e do gerenciamento de recursos. Funcionando em cima do HDFS, na maioria dos casos é o HBase, um banco de dados não-relacional orientado a colunas. O HBase se encaixa na definição frouxa do NoSQL, mas é suficientemente diferente dos outros bancos de dados populares que normalmente não aparecem nas mesmas listas que o MongoDB ou Cassandra (outro projeto Apache ).

HBase em conjunto com HDFS pode armazenar grandes quantidades de dados em bilhões de filas e suporta dados escassos. No entanto, não está sem suas limitações. A HBase é dependente do HDFS, tem requisitos de hardware íngremes e carece de uma linguagem de consulta nativa. Ao contrário de Mongo e Cassandra, a HBase também depende de uma arquitetura primariamente replicada que pode resultar em um único ponto de falha.

Mas desde o início, podemos ver porque Big Data e NoSQL são uma combinação. Vamos correr através dos Vs novamente.

Volume- Big Data requer um banco de dados massivo, e um banco de dados massivo requer uma escala horizontal. Bancos de dados SQL podem, muitas vezes com limitações significativas, escalar horizontalmente, mas é aqui que os bancos de dados NoSQL sem esquema se sobressaem.

Velocidade- Os bancos de dados NoSQL não têm a consistência e validação dos bancos de dados SQL, mas mais uma vez a velocidade de gravação bruta que precisamos para ingerir uma grande quantidade de dados, rapidamente.

Variedade- Big Data requer um sistema capaz de lidar com dados não estruturados e bancos de dados NoSQL sem esquemas como o MongoDB são bem adequados para a tarefa.

Os bancos de dados NoSQL não são utilizados exclusivamente para Big Data, mas podemos ver porque eles se desenvolveram em etapas de trancamento entre si. Não há sinais de uma desaceleração do Big Data, e o NoSQL MongoDB, lançado pela primeira vez em 2009, é um dos bancos de dados que mais crescem no mercado.