博客数据库数据之山：大与小、宽与窄

数据之山：大与小和宽

Linode

2023年3月23日

如果你是科技行业的人（可能即使你不是），你已经听到了很多关于人工智能的消息。我说的不仅仅是多年来我们都喜欢的科幻小说中 "天网恢恢疏而不漏 "的那种人工智能，而是人工智能和机器学习在我们日常生活中的实际应用。

人工智能/ML的命脉和寄托是大数据。巨大的数据。海量的数据。或者是吗？大数据一直是喂养今天的人工智能/ML的引擎，虽然我们可能总是需要纯粹的数量，但近年来，组织已经开始从大数据转向小而广。

让我们来比较一下这两者。

大量的数据

大数据可以细分为两种方式。

首先是收集和组织一个大型数据集--一个简单的概念，但可能难以很好地执行。这个过程需要大量快速填充的、通常是非结构化的数据。适应这种数据流的后端基础设施是资源密集型的，涉及网络带宽、存储空间和支持大规模数据库部署的处理能力。而且它很昂贵。

第二种方法变得更加棘手。一旦你有了大量的数据，你需要从中提取洞察力和价值。技术已经发展到可以适应大数据的规模，但在确定从这些堆积如山的信息中可以得到什么方面的进展较少。

这时候就需要变得更聪明了。即使有无限的存储空间和完美的NoSQL部署的环境，如果你没有正确的模型来匹配，世界上所有的数据都没有任何意义。

这里也有一个机会。公司正在发现一些用例，在这些用例中，来自更多来源的更少的数据更实用，并从数据集中得出更好的结论和相关性。

小而宽

采用小而广的方法，你要看更多的来源，寻找相关性，而不只是增加原始数量。这种更具战术性的方法需要更少的数据，从而减少计算资源。多样性是游戏的名称，小而广意味着寻找不同的数据格式，结构化和非结构化的，并找到它们之间的联系。

根据Gartner在2021年的一份报告："可以使用小而广的数据的潜在领域是零售业的需求预测，客户服务中应用于超个性化的实时行为和情感情报，以及客户体验的改善"。

这有很大的潜力，但在实践中是什么样子呢？大规模的数据集可能会很快变得笨重或过时。在信息时代，人类的趋势和行为可以在一瞬间转变，容易受到文化和经济转变的影响。使用较小的数据集的更敏捷的模型是有空间的，可以动态地适应这些变化。

哈佛商业评论》的一份报告解释说，"企业中许多最有价值的数据集都相当小：想想看，是千字节或兆字节，而不是艾字节。由于这些数据缺乏大数据的数量和速度，它经常被忽视，在个人电脑和功能数据库中苦苦挣扎，与整个企业的IT创新计划没有联系。

该报告描述了他们对医疗编码员进行的一项实验，强调了用小数据训练人工智能时的人为因素。我建议通读这项研究，但最终的结论是，除了小数据之外，考虑人的因素可以改善模型，使组织在大数据军备竞赛中具有竞争优势。

换句话说，我们谈论的是小、宽、智能的数据，是一个成功的组合。

得出结论

这一切意味着什么？关于这个问题可以写很多卷，而且已经写了很多卷，但是让我们快速地、全面地看一下，以获得一个信息。我喜欢我的个人电脑，它足够强大，可以作为我家庭办公室的供热源，但总有一天，"更多 "是有限度的。即使是最高端的工作站，一款软件也可能被优化得很差，运行得很糟糕。

在许多情况下，在一个问题上投入更多的资源是不切实际的，而且忽略了真正的问题。更多的时候，有一个很大的改进机会，这也是我们今天开始看到的大数据。在一些用例中，大量的数据确实是必要的，但同样重要的是，设计模型以获得对数据的最佳利用，而不仅仅是设计方法以拥有最多的数据。

你可能也喜欢...