如果你是科技行业的人(可能即使你不是),你已经听到了很多 关于人工智能的消息。我说的不仅仅是多年来我们都喜欢的科幻小说中 "天网恢恢疏而不漏 "的那种人工智能,而是人工智能和机器学习在我们日常生活中的实际应用。
人工智能/ML的命脉和寄托是大数据。巨大的数据。海量的数据。或者是吗?大数据一直是喂养今天的人工智能/ML的引擎,虽然我们可能总是需要纯粹的数量,但近年来,组织已经开始从大数据转向小而广。
让我们来比较一下这两者。
大量的数据
大数据可以细分为两种方式。
首先是收集和组织一个大型数据集--一个简单的概念,但可能难以很好地执行。这个过程需要大量快速填充的、通常是非结构化的数据。适应这种数据流的后端基础设施是资源密集型的,涉及网络带宽、存储空间和支持大规模数据库部署的处理能力。而且它很昂贵。
第二种方法变得更加棘手。一旦你有了大量的数据,你需要从中提取洞察力和价值。技术已经发展到可以适应大数据的规模,但在确定从这些堆积如山的信息中可以得到什么方面的进展较少。
这时候就需要变得更聪明了。即使有无限的存储空间和完美的NoSQL部署的环境,如果你没有正确的模型来匹配,世界上所有的数据都没有任何意义。
这里也有一个机会。公司正在发现一些用例,在这些用例中,来自更多来源的更少的数据更实用,并从数据集中得出更好的结论和相关性。
小而宽
采用小而广的方法,你要看更多的来源,寻找相关性,而不只是增加原始数量。这种更具战术性的方法需要更少的数据,从而减少计算资源。多样性是游戏的名称,小而广意味着寻找不同的数据格式,结构化和非结构化的,并找到它们之间的联系。
根据Gartner在2021年的一份报告:"可以使用小而广的数据的潜在领域是零售业的需求预测,客户服务中应用于超个性化的实时行为和情感情报,以及客户体验的改善"。
这有很大的潜力,但在实践中是什么样子呢?大规模的数据集可能会很快变得笨重或过时。在信息时代,人类的趋势和行为可以在一瞬间转变,容易受到文化和经济转变的影响。使用较小的数据集的更敏捷的模型是有空间的,可以动态地适应这些变化。
哈佛商业评论》的一份报告解释说,"企业中许多最有价值的数据集都相当小:想想看,是千字节或兆字节,而不是艾字节。由于这些数据缺乏大数据的数量和速度,它经常被忽视,在个人电脑和功能数据库中苦苦挣扎,与整个企业的IT创新计划没有联系。
该报告描述了他们对医疗编码员进行的一项实验,强调了用小数据训练人工智能时的人为因素。我建议通读这项研究,但最终的结论是,除了小数据之外,考虑人的因素可以改善模型,使组织在大数据军备竞赛中具有竞争优势。
换句话说,我们谈论的是小、宽、智能的数据,是一个成功的组合。
得出结论
这一切意味着什么?关于这个问题可以写很多卷,而且已经写了很多卷,但是让我们快速地、全面地看一下,以获得一个信息。我喜欢我的个人电脑,它足够强大,可以作为我家庭办公室的供热源,但总有一天,"更多 "是有限度的。即使是最高端的工作站,一款软件也可能被优化得很差,运行得很糟糕。
在许多情况下,在一个问题上投入更多的资源是不切实际的,而且忽略了真正的问题。更多的时候,有一个很大的改进机会,这也是我们今天开始看到的大数据。在一些用例中,大量的数据确实是必要的,但同样重要的是,设计模型以获得对数据的最佳利用,而不仅仅是设计方法以拥有最多的数据。
注释