我们经常会发现,在使用和相关技术进步方面出现看似突然的飞跃,原因很简单,以前不可行的东西现在变得可行了。大数据应用的增加紧随云计算的普及。让我们重点讨论一下什么是大数据、为什么大数据在今天如此重要,以及大数据是如何与 NoSQL 数据库同步发展的。当我们谈论大数据时,我们面对的是海量信息,我们可以通过查看或分析这些信息来找到相关内容。
大数据通常有三个特点,分别以3V为标志。
- 数量--我们有大量的数据。
- 速度- 我们的数据来的很快。
- 多样性- 我们的数据有许多不同的形式。
让我们深入了解我们如何获得这么多的数据,数据的类型,以及我们可以从中获得的价值。
得出结论
我们需要大型的数据集来寻找潜在的模式,因为小型的数据集在代表真实世界方面是不可靠的。 想象一下,对10个人进行调查:其中8人有安卓手机,2人有iPhone手机。以这个小样本量,你会推断出苹果只有20%的市场份额。这并不能很好地代表现实世界的情况。
从多个人口统计学和地点获取信息也很重要。从宾夕法尼亚州的费城调查10个人并不能说明世界、美国、甚至整个宾夕法尼亚州的情况。简而言之,获得良好、可靠的数据需要大量的数据。研究的范围越广,我们就越能将其分解并得出结论。
让我们把我们的调查从10个增加到100个,同时记录参与者的年龄。现在我们从一个更大的样本量中收集更多的数据。现在,让我们假设结果显示40人有安卓手机,60人有iPhone手机。这仍然是一个非常小的样本,但我们可以看到,参与者增加10倍,导致我们的结果出现了80分的大幅波动。但这只是考虑我们这组数据中的一个领域。由于我们记录了参与者的年龄以及手机的选择,我们可能会发现10-20岁或21-30岁的群体有一个非常不同的比例。
一切都是关于算法的
大数据使我们能够处理以各种格式快速传来的大量数据。从这些数据中,我们能够找到潜在的模式,使我们能够创建反映真实世界的准确模型。为什么这很重要?准确的模型使我们能够进行预测,并开发或改进算法。
大数据在我们日常生活中发挥作用的最常见的例子是一些简单的、有时是有争议的东西--推荐引擎。"如果你喜欢X,你可能也会喜欢Y!"从营销和广告的角度来看,这当然是有用的,但这远远不是唯一的使用案例。大数据和算法为从自动驾驶汽车到早期疾病检测的一切提供动力。
在我们收集数据的简短例子中,我们止步于100人,但如果你真的想要好的数据,你需要有数千或数百万个具有大量不同属性的来源。即使我们扩大了样本量,并建立了一个快速摄取结果的机制,这仍然不能真正成为 "大数据"。我们会缺少三个V中的一个,即多样性,而这正是我们大部分数据的来源。
数据种类
我们可以将我们收集的数据类型分为三个基本类别:结构化的、半结构化的和非结构化的。结构化数据将类似于我们上面的调查。我们有一个预定义的模式,我们的输入将适合一个刚性的结构。这种类型的数据非常适合使用SQL的RDBMS,因为它们被设计为与行和列一起工作。在SQL数据库之外,结构化数据通常包括csv文件和电子表格。
绝大多数存在的数据都来自于我们日常活动中的很多不同来源,以很多不同的方式。社交媒体帖子、购买历史、浏览和cookies:每一个行动都可以为一个人建立一个具有众多属性的档案,如年龄、地点、性别、婚姻状况,以及其他。我们在这里只是触及表面,但我们只需要关注以下几点:各行业都在收集大量的数据,以得出准确的结论,而这些数据绝大部分都不是以预定义的结构化格式出现。对于大数据来说,我们通常是在处理半结构化和非结构化形式的数据。
应用程序日志或电子邮件是半结构化数据的例子。我们称其为半结构化,因为虽然它没有严格的行和列,但这种数据的格式化有一个总体模式。两个最常见的半结构化数据的文件类型是JSON和XML。非结构化数据几乎可以是任何非结构化或半结构化的数据,正如我们可以想象的那样,这占了我们数据的绝大部分。非结构化数据的常见例子包括社交媒体帖子、音频和视频文件、图像和其他文件。
我们的电话选择调查仍然可以作为一个分析示范:我们拥有的数据越多,我们的结论就越能准确地反映现实世界,但要真正获得更多的数据,我们需要有一个能够摄取更多结构化数据的系统。这就是NoSQL数据库进入方程的地方。
大数据和NoSQL
大数据的概念早在20世纪80年代就已为人所知,与当今许多发展最快的技术一样,它在21世纪中期向前迈出了一大步。当Apache 在2006年发布Hadoop时,一个里程碑式的事件发生了。Hadoop是一个开源的软件框架,旨在可靠地处理大型数据集。
一些核心组件包括HDFS(Hadoop 分布式文件系统)和YARN(Yet Another Resource Negotiator)。HDFS是一个快速和容错的文件系统,YARN处理作业调度和资源管理。在大多数情况下,运行在HDFS之上的是HBase,一个面向列的非关系数据库。HBase符合NoSQL的宽松定义,但它与其他流行的数据库有足够的不同,所以它通常不会与MongoDB或Cassandra(另一个Apache 项目)出现在同一个列表中。
HBase与HDFS串联在一起,可以存储数十亿行的海量数据,并支持稀疏数据。然而,它也不是没有局限性。HBase依赖于HDFS,对硬件有很高的要求,并且缺乏一种本地查询语言。与Mongo和Cassandra不同,HBase还依赖于初级复制架构,这可能导致单点故障。
但从一开始,我们就可以看到为什么大数据和NoSQL是相匹配的。让我们再次捋一捋Vs。
- 体积--大数据需要一个庞大的数据库,而庞大的数据库需要水平扩展。SQL数据库可以横向扩展,但往往有很大的局限性,而这正是无模式NoSQL数据库的优势所在。
- 速度--NoSQL数据库缺乏SQL数据库的一致性和验证性,但同样也缺乏我们需要的原始写入速度,以快速摄入大量数据。
- 多样性--大数据需要一个能够处理非结构化数据的系统,而像MongoDB这样的无模式NoSQL数据库则很适合这项任务。
NoSQL数据库并不完全用于大数据,但我们可以看到它们彼此同步发展的原因。目前还没有大数据放缓的迹象,而2009年首次发布的NoSQL MongoDB是市场上增长最快的数据库之一。
注释