博客数据库大数据需要大数据库

大数据需要大数据库

2022年6月17日

我们经常会发现，在使用和相关技术进步方面出现看似突然的飞跃，原因很简单，以前不可行的东西现在变得可行了。大数据应用的增加紧随云计算的普及。让我们重点讨论一下什么是大数据、为什么大数据在今天如此重要，以及大数据是如何与 NoSQL 数据库同步发展的。当我们谈论大数据时，我们面对的是海量信息，我们可以通过查看或分析这些信息来找到相关内容。

大数据通常有三个特点，分别以3V为标志。

数量--我们有大量的数据。
速度- 我们的数据来的很快。
多样性- 我们的数据有许多不同的形式。

让我们深入了解我们如何获得这么多的数据，数据的类型，以及我们可以从中获得的价值。

得出结论

我们需要大型的数据集来寻找潜在的模式，因为小型的数据集在代表真实世界方面是不可靠的。想象一下，对10个人进行调查：其中8人有安卓手机，2人有iPhone手机。以这个小样本量，你会推断出苹果只有20%的市场份额。这并不能很好地代表现实世界的情况。

从多个人口统计学和地点获取信息也很重要。从宾夕法尼亚州的费城调查10个人并不能说明世界、美国、甚至整个宾夕法尼亚州的情况。简而言之，获得良好、可靠的数据需要大量的数据。研究的范围越广，我们就越能将其分解并得出结论。

让我们把我们的调查从10个增加到100个，同时记录参与者的年龄。现在我们从一个更大的样本量中收集更多的数据。现在，让我们假设结果显示40人有安卓手机，60人有iPhone手机。这仍然是一个非常小的样本，但我们可以看到，参与者增加10倍，导致我们的结果出现了80分的大幅波动。但这只是考虑我们这组数据中的一个领域。由于我们记录了参与者的年龄以及手机的选择，我们可能会发现10-20岁或21-30岁的群体有一个非常不同的比例。

一切都是关于算法的

大数据使我们能够处理以各种格式快速传来的大量数据。从这些数据中，我们能够找到潜在的模式，使我们能够创建反映真实世界的准确模型。为什么这很重要？准确的模型使我们能够进行预测，并开发或改进算法。

大数据在我们日常生活中发挥作用的最常见的例子是一些简单的、有时是有争议的东西--推荐引擎。"如果你喜欢X，你可能也会喜欢Y！"从营销和广告的角度来看，这当然是有用的，但这远远不是唯一的使用案例。大数据和算法为从自动驾驶汽车到早期疾病检测的一切提供动力。

在我们收集数据的简短例子中，我们止步于100人，但如果你真的想要好的数据，你需要有数千或数百万个具有大量不同属性的来源。即使我们扩大了样本量，并建立了一个快速摄取结果的机制，这仍然不能真正成为 "大数据"。我们会缺少三个V中的一个，即多样性，而这正是我们大部分数据的来源。

数据种类

我们可以将我们收集的数据类型分为三个基本类别：结构化的、半结构化的和非结构化的。结构化数据将类似于我们上面的调查。我们有一个预定义的模式，我们的输入将适合一个刚性的结构。这种类型的数据非常适合使用SQL的RDBMS，因为它们被设计为与行和列一起工作。在SQL数据库之外，结构化数据通常包括csv文件和电子表格。

绝大多数存在的数据都来自于我们日常活动中的很多不同来源，以很多不同的方式。社交媒体帖子、购买历史、浏览和cookies：每一个行动都可以为一个人建立一个具有众多属性的档案，如年龄、地点、性别、婚姻状况，以及其他。我们在这里只是触及表面，但我们只需要关注以下几点：各行业都在收集大量的数据，以得出准确的结论，而这些数据绝大部分都不是以预定义的结构化格式出现。对于大数据来说，我们通常是在处理半结构化和非结构化形式的数据。

应用程序日志或电子邮件是半结构化数据的例子。我们称其为半结构化，因为虽然它没有严格的行和列，但这种数据的格式化有一个总体模式。两个最常见的半结构化数据的文件类型是JSON和XML。非结构化数据几乎可以是任何非结构化或半结构化的数据，正如我们可以想象的那样，这占了我们数据的绝大部分。非结构化数据的常见例子包括社交媒体帖子、音频和视频文件、图像和其他文件。

我们的电话选择调查仍然可以作为一个分析示范：我们拥有的数据越多，我们的结论就越能准确地反映现实世界，但要真正获得更多的数据，我们需要有一个能够摄取更多结构化数据的系统。这就是NoSQL数据库进入方程的地方。

大数据和NoSQL

大数据的概念早在20世纪80年代就已为人所知，与当今许多发展最快的技术一样，它在21世纪中期向前迈出了一大步。当Apache 在2006年发布Hadoop时，一个里程碑式的事件发生了。Hadoop是一个开源的软件框架，旨在可靠地处理大型数据集。

一些核心组件包括HDFS（Hadoop 分布式文件系统）和YARN（Yet Another Resource Negotiator）。HDFS是一个快速和容错的文件系统，YARN处理作业调度和资源管理。在大多数情况下，运行在HDFS之上的是HBase，一个面向列的非关系数据库。HBase符合NoSQL的宽松定义，但它与其他流行的数据库有足够的不同，所以它通常不会与MongoDB或Cassandra（另一个Apache 项目）出现在同一个列表中。

HBase与HDFS串联在一起，可以存储数十亿行的海量数据，并支持稀疏数据。然而，它也不是没有局限性。HBase依赖于HDFS，对硬件有很高的要求，并且缺乏一种本地查询语言。与Mongo和Cassandra不同，HBase还依赖于初级复制架构，这可能导致单点故障。

但从一开始，我们就可以看到为什么大数据和NoSQL是相匹配的。让我们再次捋一捋Vs。

体积--大数据需要一个庞大的数据库，而庞大的数据库需要水平扩展。SQL数据库可以横向扩展，但往往有很大的局限性，而这正是无模式NoSQL数据库的优势所在。

速度--NoSQL数据库缺乏SQL数据库的一致性和验证性，但同样也缺乏我们需要的原始写入速度，以快速摄入大量数据。

多样性--大数据需要一个能够处理非结构化数据的系统，而像MongoDB这样的无模式NoSQL数据库则很适合这项任务。

NoSQL数据库并不完全用于大数据，但我们可以看到它们彼此同步发展的原因。目前还没有大数据放缓的迹象，而2009年首次发布的NoSQL MongoDB是市场上增长最快的数据库之一。

计算

存储

数据库

网络

开发人员工具

交付

安全性

服务

行业

定价

社区

与我们合作

大数据需要大数据库

你可能也喜欢...

注释

留下回复取消回复

大数据需要大数据库

你可能也喜欢...

开始使用 LLM：管理数据收集

如何开始提供全球规模的服务 | HarperDB 安装和设置

分布式数据库计算 |Apache 在多个数据中心运行的 Cassandra

注释

留下回复 取消回复

注册接收“In the Node”新闻稿

留下回复取消回复