KubeCon + CloudNativeCon India 2025上周在海得拉巴闭幕,数千名开发人员、平台工程师和云原生从业人员参加了为期两天的集中学习与合作。第二届印度年会不仅展示了 Kubernetes 的技术演进,还展示了企业在思考跨云、数据中心和边缘环境的开发人员体验、平台工程和人工智能工作负载方面的根本转变。
Akamai作为金牌赞助商参加了此次活动,展示了旨在简化Kubernetes操作和支持大规模人工智能工作负载的产品功能。
下面,我将介绍此次会议的一些重要收获和技术,包括作为 Gen AI 工作负载操作系统的 K8s,它将在未来一年塑造云原生战略。
人工智能与 Kubernetes:从实验到生产规模
人工智能/ML 工作负载与 Kubernetes 的融合已从概念验证迈向生产现实。Intuit的主题演讲强调了其人工智能原生平台,该平台将 8000 名开发人员的开发速度提高了 8 倍。Janakiram MSV的主题演讲说明了为什么 Kubernetes 应成为 Gen AI的操作系统。
在整个会议期间,会议传达的信息非常明确:Kubernetes 已成为人工智能工作负载事实上的协调层。
主要进展包括
- GenAI 工作负载协调
团队越来越多地使用 CustomResourceDefinitions 和 StatefulSets 等原生 Kubernetes 基元,而不是依赖自定义工具。这意味着,AI/ML 管道可以用开发人员已经用于其他工作负载的相同语言来表达。 - GPU 调度优化
大型语言模型 (LLM) 的训练和推理需要高效的GPU 分配。新的进步使 Kubernetes 调度器能够更好地将工作负载与GPU 资源相匹配。 - 分布式人工智能代理协调
许多人工智能应用都是合作代理的集合。现在,Kubernetes 协调层被用来管理这些分布式系统,确保它们能够可靠地扩展和通信。 - 边缘实时人工智能推理
推理可以在边缘本地运行,而不是总是将数据发回云端。这样可以避免潜在的云延迟,并在不牺牲隐私的情况下提高性能。
对于运行人工智能工作负载的企业来说,托管平台,如 Linode Kubernetes 引擎(LKE) 等托管平台为这些要求苛刻的应用提供了所需的基础。LKE 支持GPU 实例、自动扩展和ML 框架集成,帮助开发人员部署推理服务,而无需管理底层基础设施的复杂性。
边缘的 Kubernetes:解决现实世界的挑战
边缘计算是一个重要主题,多场会议展示了轻量级 Kubernetes 发行版如何使计算更接近数据源。这些会议还讨论了边缘计算所面临的挑战,强调规模不仅仅是在较小的设备上运行 Kubernetes,而是要高效地管理成百上千个分布式集群。
规模是 Kubernetes 擅长解决的问题,因为它能提供跨环境的一致协调。当与人工智能工作负载搭配时,边缘计算尤其强大。来自K0s等开源解决方案的发言人展示了边缘实时推理如何在尊重数据主权和隐私要求的同时消除云延迟。
平台工程:Kubernetes 复杂性的答案
平台工程已经从流行语变成了关键学科。会议明确指出,原始的 Kubernetes 过于复杂,大多数开发人员都难以管理和维护。他们需要能提供强大功能的抽象。
几位发言人展示了统一的开发人员体验如何使混乱变得有序,并将入职时间从几周缩短到几天。
Akamai应用平台通过使Kubernetes开箱即可投入生产,体现了这些平台工程原则。它通过为CI/CD管道、网络策略、存储和可观察性提供预配置的工具堆栈,以及黄金路径模板,消除了部署和管理Kubernetes应用的复杂性,使开发人员能够获得Kubernetes的强大功能,而无需承担运营开销。
eBPF 和 WebAssembly:生产就绪技术
两项酝酿多年的技术最终证明,它们已经可以投入生产:
eBPF(扩展伯克利数据包过滤器)对以下方面至关重要:
- 非侵入式性能监控,无需更改应用程序
- 内核级网络安全执行
- 故障排除的零开销可观测性
- 实时流量分析和过滤
WebAssembly (Wasm)在以下领域日益受到重视:
- 容器负荷过重的边缘计算场景
- 边缘和无服务器功能。
- 扩展平台功能的插件系统
- 无需容器化的跨平台可移植性
这些技术对于使用LKE的企业尤为重要,其中eBPF可以提供对集群行为的深度可观察性,而WebAssembly则可以在边缘实现轻量级工作负载,同时保持与核心Kubernetes基础架构的集成。通过我们的合作伙伴Fermyon,WebAssembly功能可以在Akamai上运行,为边缘快速、轻量级无服务器工作负载提供了一种新方法。Fermyon的集成非常适合事件驱动架构和低延迟用例。Fermyon还是CNCF项目SPIN和SpinKube的创建者。
展望未来
来自 KubeCon + CloudNativeCon India 2025 的见解将转化为企业的明确行动:
- 将平台工程作为一项战略举措进行评估,而不仅仅是一项技术举措
- 确保 Kubernetes 基础设施能够处理GPU 调度和分布式培训,为人工智能工作负载做好准备
- 针对需要本地处理、减少延迟或数据主权的用例,探索边缘部署
- 当企业在云计算、数据中心和边缘分布工作负载时,多集群管理将变得至关重要。
- 了解开发人员的体验决定了开发速度,因为平台中的每一个摩擦点都会直接影响业务成果
- 当操作简便性比细粒度控制更重要时,可考虑 Akamai App Platform和LKE等托管解决方案
正如多位发言人所强调的那样,未来属于那些能提供 Kubernetes 功能而不会带来痛苦的平台,它们能让开发人员专注于最重要的事情,即交付能带来业务价值的代码。
基于今年的势头,明年在孟买举行的 KubeCon India 将展示印度蓬勃发展的云原生生态系统的更多创新。

注释