随着人工智能模型不断发展成为企业的运营基石,实时推理已成为推动这一转变的关键引擎。对即时、决策就绪的人工智能洞察力的需求正在激增,而人工智能代理--迅速成为推理的先锋--正蓄势待发。根据德勤公司(Deloitte)的预测,到 2027 年,利用生成式人工智能的企业中预计将有一半以上部署自主代理,这表明人工智能正处于一个转折点。为了应对这一趋势,企业正在寻求可扩展的高效方法,以便在多个服务器、数据中心或地区部署人工智能模型,并将目光转向云中的分布式人工智能部署。
在上一篇博客 "分布式人工智能推理--下一代计算"中,我介绍了分布式人工智能推理的基础知识,以及如何利用Akamai云独特的高性能平台帮助企业以极低的成本进行扩展。在本篇博客中,我们将继续探讨分布式人工智能推理的相关概念,特别是如何使用分布式云架构部署、协调和扩展人工智能。此外,我们还将探讨与这种模式相关的挑战。
部署
如果你认为在全球范围内部署人工智能模型听起来很复杂,那就大错特错了。幸运的是,目前有大量工具和技术可用于支持人工智能的整个生命周期,从开始、培训到部署、完善和管理。选择合适的解决方案组合需要慎重考虑。Akamai云计算公司与许多领先的技术供应商合作,提供人工智能推理的基本组件和一个充满活力的生态系统。我们正在为今天构建人工智能推理云,同时通过提供一系列靠近用户的计算能力、数据存储和管理解决方案,以及在分布式站点间连接模型所需的软件,为未来做好准备。
Akamai云上的人工智能推理集成了强大的技术,并利用与领先供应商的合作关系,创建了一个高性能生态系统,用于快速分发人工智能。这包括以下内容:
- 使用 推理引擎(如Nvidia Dynamo(以前的 Triton)和Kserve)提供模型服务 ,使您的应用能够无缝访问人工智能模型。
- 使用KubeFlow、Nvidia Rapids 和KubeSlice等工具进行MLOps 和协调,以支持数据管道、模型生命周期管理和性能监控。
- 利用Nvidia TAO 工具包和KubeFlow 等技术优化模型,实现微调、剪枝、量化和其他模型优化技术。
- 通过与数据结构平台、数据库和库(如VAST Data、Nvidia Rapids 和Milvus)的关键集成进行数据管理,用于存储、处理和传输与人工智能工作负载相关的数据,并为模型的脉络、版本和可解释性提供管理功能。
- Akamai全球边缘网络上的边缘计算,由Fermyon和Avesha等合作伙伴提供轻量级计算,以大幅减少延迟并提高性能。
- 人工智能网关提供了一个统一的端点,用于将来自边缘应用/用户的请求路由到人工智能模型,并具有为开发人员和人工智能代理优化安全性、性能、弹性和可访问性的功能。
Akamai云是上述一切的基础,它为计算、存储、网络、容器化以及企业级安全性和可靠性提供核心基础架构,以便在分布式云基础架构上为您的人工智能模型提供支持。

我想花一点时间强调一下模型优化,这是分发人工智能时的一个关键过程。模型剪枝(去除冗余参数)和量化(降低精度,但对整体推理精度的影响最小)等技术在准备模型在计算资源可能有限的边缘位置运行方面发挥着重要作用。这有助于确保人工智能代理等自主系统在计算资源受限的情况下仍能做出快速决策和响应输出。对于需要快速环境分析和迭代规划的代理驱动型工作负载,您的人工智能工程师可能还会研究一些先进的技术,如模型分片、动态请求匹配和拆分模型以并行运行多步推理,从而进一步优化分布式部署的延迟和价格性能。
利用这些优化技术可以
利用这些方法提高模型的效率和性能,并将模型部署在靠近用户和数据的分布式架构上,可降低部署企业人工智能应用的成本和延迟障碍。
缩放
扩展对于人工智能推理的成功至关重要,尤其是当您建立了一个成功的模型,并真正引起了大众的兴趣时。这意味着既要为需求高峰做好准备,又要保持性能以满足用户的期望。扩大规模和缩小规模都很重要。您当然可以在集中式数据中心增加更多的处理能力,但在某种程度上,使用分布式推理模型进行横向扩展会更加节省成本和电力,在某些应用(例如:延迟问题)中更是如此:
- 语音助手需要亚秒级的响应时间,以实现自然的对话流、
- 响应物联网传感器数据的自主无人机/车辆,或
- 代理式人工智能应用可能需要利用地理上分散的资源来进行实时决策、自主协调和跨边缘网络的动态工作量分配。
这就需要对您的人工智能应用进行周到的模块化和可移植性,通过我们的Kubernetes编排引擎和生态系统以及简化和加速可扩展应用部署的平台,在Akamai云上实现。模块化和可移植性使您能够扩展您的人工智能应用和支持它的操作。Kubernetes 已成为云原生计算的事实标准,使可移植性更易于管理。
通过采用开放、无锁定的模式,促进混合云和多云环境之间的可移植性,无论模型实例位于何处,都能获得适当的计算资源组合,从而大大提高了获得计算资源的机会。使用 Kubernetes 对人工智能进行容器化是我们选择的方法,也是我们扩展解决方案的基础。

保持相关性
与终身学习的人类一样,人工智能模型也需要通过不断刷新的数据集、从反馈中学习并随着情况的变化完善自己的模型权重。在分布式模型中,对新数据的持续训练变得越来越复杂,特别是因为在多个节点或地点之间协调和同步更新可能会给保持一致性带来挑战。
这需要从部署人工智能应用/模型的分布式实例的位置收集数据,利用对象存储和矢量数据库解决方案实现检索增强生成(RAG),并建立一种机制,将数据传送回中央模型进行再训练或微调。Akamai云上的人工智能推理是通过与领先的数据结构平台提供商建立重要的合作伙伴关系,以强大的基础数据管理为支撑建立起来的。这些核心数据管理功能确保模型能够收集性能、领域和基于当前事件的更新数据,从而为模型提供丰富、相关和实时的上下文,实现更准确的输出。这也降低了出现幻觉的风险。 此外,这些数据还可为集中式模型提供信息,帮助进行再训练,以调整模型权重,从而在全球模型范围内改进相关推断。

Akamai云使您能够解决企业人工智能分发过程中固有的几个难题:
- 成本效率--虽然成本通常是选择分布式人工智能推理部署模式的驱动因素,即在更靠近用户的地方运行推理(见电子书),但通过选择能够以可承受的价格提供可接受性能的计算选项,可以进一步优化成本。在Akamai,我们正在通过提供性能和成本比例均衡的GPU以及针对商品CPU推理的模型优化技术来帮助解决这一成本难题。
- 能耗和可持续性--人工智能推理工作负载可能消耗大量电力,数据中心和人工智能加速器在执行模型时需要消耗巨大的电力。这增加了全球碳排放和企业的碳足迹。随着人工智能应用的扩大,人工智能推理的能源需求将超过训练,从而带来更多的可持续发展挑战。分布式人工智能推理支持通过以下方式减少碳排放的战略:通过本地化推理减少数据传输;通过有选择地使用人工智能加速器优化模型以实现低功耗处理;动态扩展人工智能应用;以及利用绿色电力数据中心。
- 联合学习- 这是指上述挑战:管理分散在分布式云环境中的人工智能模型的不同实例的学习率和演化。采用一种集中学习监督的方式来保持模型版本的同步变得非常重要。这可能需要在本地重新调整模型权重,然后通过联合学习机制在模型的所有实例中实现同步。
- 保护您的模型--保护您的人工智能模型免受网络攻击,包括新型威胁、数据泄漏、合规风险和对抗性攻击,这对企业级人工智能应用至关重要,以防止损害人工智能模型的真实性或安全性,或完全破坏其可访问性。必须确保入站人工智能查询和出站人工智能响应的安全,采用实时、人工智能本机威胁检测、策略执行和自适应安全措施,以抵御提示注入、敏感数据泄漏、恶意利用和人工智能特定的 DoS 攻击。确保模型的安全对企业来说至关重要,虽然不在本博客的讨论范围之内,但您可以在这里了解有关Akamai人工智能防火墙的更多信息。
塑造人工智能的未来
在Akamai,我们相信分布式人工智能推理是可扩展、高性能人工智能应用的支柱。Akamai云的基础架构设计可简化企业人工智能应用的部署,同时以您的企业所需的速度和可靠性提供决策就绪的洞察力,随时随地为用户提供服务。Akamai云与领先的供应商合作,将世界一流的软件集成到我们的人工智能推理堆栈中,旨在解决扩展人工智能所面临的挑战,并提供所需的实时执行环境,使人工智能代理能够协调任务、优化工作流程并推动大规模自主决策。
利用正确的策略来优化人工智能应用是实现性能、成本和可持续性平衡的关键,同时还能确保它们提供高保真推理。 不断评估和改进模型的反馈回路需要一个精心策划的数据策略,作为持续学习的基础,使人工智能应用保持相关性和准确性。
我们对客户今天在Akamai云上构建的人工智能应用感到兴奋,并迫不及待地想看到您明天将构建的应用。
有兴趣了解有关人工智能推理性能基准的更多信息?请阅读我们的白皮书。
注释