AI 모델이 기업의 운영 초석으로 계속 진화함에 따라 실시간 추론이 이러한 변화를 이끄는 핵심 엔진으로 부상하고 있습니다. 즉각적인 의사 결정이 가능한 AI 인사이트에 대한 수요가 급증하고 있으며, 추론의 선봉장으로 급부상하고 있는 AI 에이전트가 폭발적인 도입을 앞두고 있습니다. 딜로이트에 따르면 2027년까지 제너레이티브 AI를 활용하는 기업의 절반 이상이 자율 에이전트를 구축할 것으로 예상되는 등 업계 전망은 티핑 포인트를 시사합니다. 이러한 추세에 따라 기업들은 여러 서버, 데이터 센터 또는 지역에 걸쳐 확장 가능하고 효율적인 방식으로 AI 모델을 배포할 수 있는 방법을 모색하고 있으며, 클라우드의 분산형 AI 배포로 눈을 돌리고 있습니다.
이전 블로그인 분산형 AI 추론 - 차세대 컴퓨팅에서는 분산형 AI 추론의 기본 사항과 Akamai Cloud의 독보적인 고성능 플랫폼을 활용하여 기업이 놀랍도록 저렴한 비용으로 확장할 수 있는 방법에 대해 설명했습니다. 이 블로그에서는 분산형 AI 추론에 대한 개념, 특히 분산형 클라우드 아키텍처를 사용하여 AI를 배포, 오케스트레이션, 확장하는 방법을 계속해서 살펴볼 것입니다. 또한 이러한 모델과 관련된 과제에 대해서도 살펴볼 것입니다.
배포
AI 모델을 글로벌 규모로 배포하는 것이 복잡한 일처럼 보인다고 생각한다면 그 말이 맞습니다. 다행히도 AI의 시작과 훈련부터 배포, 개선 및 관리에 이르기까지 전체 수명 주기를 지원하는 다양한 도구와 기술이 있습니다. 올바른 솔루션 조합을 선택하려면 신중한 고려가 필요합니다. Akamai Cloud는 여러 선도적인 기술 공급업체와 협력하여 AI 추론의 기본 구성 요소와 활발한 에코시스템을 제공합니다. 사용자와 가까운 곳에 다양한 컴퓨팅 성능, 데이터 스토리지, 관리 솔루션과 분산된 사이트 전반에서 모델을 연결하는 데 필요한 소프트웨어를 제공함으로써 현재를 위한 AI 추론 클라우드를 구축하는 동시에 미래에도 대비할 수 있도록 지원합니다.
Akamai 클라우드의 AI 추론은 강력한 기술을 통합하고 주요 공급업체와의 파트너십을 활용하여 AI를 빠르게 전송하기 위한 고성능 에코시스템을 구축합니다. 여기에는 다음이 포함됩니다:
- 추론 엔진(예: Nvidia Dynamo (이전 Triton) 및 Kserve)을 사용하여 모델 제공 , 애플리케이션을 위한 AI 모델에 원활하게 액세스할 수 있습니다.
- 데이터 파이프라인, 모델 수명 주기 관리, 성능 모니터링을 지원하기 위해 KubeFlow, Nvidia Rapids, KubeSlice와 같은 도구를 사용한 MLOps 및 오케스트레이션을 지원합니다.
- 미세 조정, 가지치기, 정량화 및 기타 모델 최적화 기술을 지원하는 Nvidia TAO 툴킷 및 KubeFlow와 같은 기술로 모델 최적화를 수행합니다.
- AI 워크로드와 연결된 데이터를 저장, 처리, 전송하기 위해 VAST Data, Nvidia Rapids, Milvus와 같은 데이터 패브릭 플랫폼, 데이터베이스, 라이브러리와의 주요 통합을 통한 데이터 관리뿐만 아니라 모델 계보, 버전 관리, 설명 가능성을 위한 거버넌스 기능도 제공합니다.
- 페르미온, 아베샤 등 파트너사와 함께 Akamai의 글로벌 엣지 네트워크에서 엣지 컴퓨팅을 통해 지연 시간을 획기적으로 줄이고 성능을 개선하는 경량 컴퓨팅을 제공합니다.
- AI 게이트웨이는 엣지 애플리케이션/사용자의 요청을 AI 모델로 라우팅하는 통합 엔드포인트를 제공하며, 개발자와 AI 에이전트를 위해 보안, 성능, 복원력, 접근성을 최적화하는 기능을 갖추고 있습니다.
위의 모든 것을 뒷받침하는 Akamai Cloud는 컴퓨팅, 스토리지, 네트워킹, 컨테이너화, 엔터프라이즈급 보안 및 안정성을 위한 핵심 인프라를 제공하여 분산된 클라우드 인프라 전반에서 AI 모델을 강화합니다.

AI를 배포할 때 중요한 프로세스인 모델 최적화에 대해 잠시 말씀드리고자 합니다. 모델 가지치기(중복 매개변수 제거) 및 양자화(전체 추론 정확도에 미치는 영향을 최소화하면서 정밀도를 낮추는 것)와 같은 기술은 컴퓨팅 리소스가 제한적인 엣지 위치에서 모델을 실행할 수 있도록 준비하는 데 중요한 역할을 합니다. 이를 통해 AI 에이전트와 같은 자율 시스템이 제한된 컴퓨팅 리소스에도 불구하고 빠른 의사 결정과 반응성 있는 결과를 제공할 수 있습니다. 신속한 환경 분석과 반복 계획이 필요한 에이전트 중심 워크로드의 경우, AI 엔지니어는 모델 샤딩, 동적 요청 매칭, 모델 분할과 같은 고급 기술을 통해 다단계 추론을 병렬로 실행하여 분산 배포에서 지연 시간 및 가격 성능을 더욱 최적화할 수도 있습니다.
이러한 최적화 기술을 활용하면 다음과 같은 효과를 얻을 수 있습니다:
- 모델 크기를 최대 80%까지 획기적으로 줄여 훨씬 가볍게 배포할 수 있습니다,
- 계산 비용과 에너지 소비를 줄여 모델을 보다 효율적으로 운영할 수 있습니다,
- 추론 속도를 크게 향상시켜 지연 시간에 민감한 애플리케이션에 특히 유용합니다.
이러한 방법으로 모델 효율성과 성능을 개선하고 사용자 및 데이터에 근접한 분산 아키텍처에 모델을 배포하면 엔터프라이즈 AI 애플리케이션 배포의 비용과 지연 시간 장벽을 줄일 수 있습니다.
확장
특히 대중의 관심을 끌 수 있는 성공적인 모델을 구축했다면 확장은 AI 추론의 성공에 매우 중요합니다. 즉, 사용자의 기대에 부응하는 성능을 유지하면서 수요 폭증에 대비해야 합니다. 스케일업과 스케일아웃은 모두 중요합니다. 중앙 집중식 데이터 센터에서 더 많은 처리 작업을 추가할 수는 있지만, 분산 추론 모델을 사용하여 수평적으로 확장하는 것이 비용 및 전력 효율성이 더 높아지는 시점이 오며, 지연 시간이 중요한 특정 애플리케이션의 경우 더욱 그렇습니다:
- 자연스러운 대화 흐름을 위해 1초 미만의 응답 시간이 필요한 음성 어시스턴트입니다,
- IoT 센서 데이터에 반응하는 자율 드론/차량 또는
- 실시간 의사 결정, 자율 조정, 엣지 네트워크 전반의 동적 워크로드 분배를 위해 지리적으로 분산된 리소스를 활용해야 할 수 있는 에이전트 AI 애플리케이션에 적합합니다.
이를 위해서는 확장 가능한 앱의 배포를 간소화하고 가속화할 수 있는 플랫폼과 Kubernetes 오케스트레이션 엔진 및 에코시스템을 갖춘 Akamai Cloud에서 AI 애플리케이션의 신중한 모듈화 및 이동성을 확보해야 합니다. 모듈화 및 이동성을 통해 AI 애플리케이션과 이를 지원하는 운영을 확장할 수 있습니다. Kubernetes는 클라우드 네이티브 컴퓨팅의 사실상 표준이 되어 이식성을 훨씬 더 쉽게 관리할 수 있게 되었습니다.
하이브리드 및 멀티클라우드 환경 전반에서 이동성을 촉진하는 개방적이고 종속성이 없는 패러다임을 수용함으로써 모델 인스턴스가 어디에 있든 적절한 컴퓨팅 리소스 조합에 액세스할 수 있는 가능성이 크게 향상됩니다. Kubernetes로 AI를 컨테이너화하는 것은 확장 솔루션의 기반으로 선택한 접근 방식입니다.

관련성 유지
인간이 평생 학습을 하는 것처럼, AI 모델도 새로운 데이터 세트를 통해 모델 가중치를 높이고, 피드백을 통해 학습하고, 상황이 변화함에 따라 컨텍스트를 개선해야 합니다. 특히 여러 노드 또는 위치에서 업데이트를 조정하고 동기화하면 일관성을 유지하는 데 어려움을 겪을 수 있기 때문에 분산된 모델에서 새로운 데이터에 대한 지속적인 학습은 점점 더 복잡해지고 있습니다.
이를 위해서는 AI 애플리케이션/모델의 분산 인스턴스가 배포된 위치에서 데이터를 수집하고, 오브젝트 스토리지 및 벡터 데이터베이스 솔루션을 통해 검색 증강 생성(RAG)을 지원하며, 해당 데이터를 중앙 모델로 다시 전송하여 재학습 또는 미세 조정을 수행할 수 있는 메커니즘이 필요합니다. Akamai Cloud의 AI 추론은 선도적인 데이터 패브릭 플랫폼 제공업체와의 주요 파트너십을 통해 강력한 기본 데이터 관리 기능을 기반으로 구축됩니다. 이러한 핵심 데이터 관리 기능을 통해 모델은 성능, 도메인, 현재 이벤트를 기반으로 업데이트된 데이터를 수집하여 보다 정확한 결과를 도출할 수 있도록 풍부하고 관련성 높은 실시간 컨텍스트를 모델에 제공할 수 있습니다. 이는 또한 환각의 위험을 줄여줍니다. 또한 이 데이터는 중앙 집중식 모델에 정보를 제공하여 글로벌 모델 규모에서 관련성 높은 추론을 개선하기 위해 모델 가중치를 조정하는 재교육에 도움을 줄 수 있습니다.

Akamai Cloud를 사용하면 엔터프라이즈 AI 제공에 내재된 몇 가지 문제를 해결할 수 있습니다:
- 비용 효율성 - 비용은 사용자와 더 가까운 곳에서 추론을 실행하여 분산형 AI 추론 배포 모델을 선택하는 동인이 되는 경우가 많지만( e북 참조), 합리적인 가격으로 적절한 성능을 제공하는 컴퓨팅 옵션을 선택하면 비용을 더욱 최적화할 수 있습니다. Akamai는 성능과 비용 비율이 균형 잡힌 GPU를 제공하고 상용 CPU 추론을 위한 모델 최적화 기술을 지원함으로써 이러한 비용 문제를 해결하도록 돕고 있습니다.
- 에너지 소비 및 지속 가능성 - AI 추론 워크로드는 데이터 센터와 AI 가속기가 모델을 실행하는 데 막대한 전력을 소비하기 때문에 막대한 양의 전력을 소비할 수 있습니다. 이는 전 세계 탄소 배출량과 조직의 탄소 발자국에 기여합니다. AI 도입이 확대됨에 따라 AI 추론에 필요한 에너지 수요는 학습을 능가할 것이며, 이는 지속 가능성 문제를 더욱 심화시킬 것입니다. AI 추론을 분산하면 로컬화된 추론으로 데이터 전송을 줄이고, AI 가속기를 선택적으로 사용하여 저전력 처리를 위한 모델을 최적화하고, AI 애플리케이션을 동적으로 확장하고, 친환경 전력 데이터센터를 활용함으로써 탄소 배출을 줄이는 전략을 지원할 수 있습니다.
- 연합 학습 - 이는 위에서 언급한 과제, 즉 분산된 클라우드 환경에 분산된 다양한 AI 모델 인스턴스의 학습 속도와 진화를 관리하는 것을 말합니다. 따라서 중앙 집중식 학습 감독을 통해 모델 버전을 동기화하는 수단을 채택하는 것이 중요해집니다. 여기에는 모델 가중치를 로컬에서 재조정하고 연합 학습 메커니즘을 통해 모델의 모든 인스턴스에서 동기화하는 작업이 수반될 수 있습니다.
- 모델 보안 - 새로운 위협, 데이터 유출, 규정 준수 위험, 적대적 공격을 포함한 사이버 공격으로부터 AI 모델을 보호하는 것은 엔터프라이즈급 AI 애플리케이션에서 AI 모델의 충실도나 안전성이 손상되거나 접근성이 완전히 중단되는 것을 방지하기 위해 필수적입니다. 실시간 AI 네이티브 위협 탐지, 정책 시행, 적응형 보안 조치를 통해 인바운드 AI 쿼리와 아웃바운드 AI 응답을 모두 보호하여 즉각적인 인젝션, 민감한 데이터 유출, 악의적인 공격 및 AI 전용 DoS 공격을 방어하는 것이 중요합니다. 보안 모델은 기업에게 가장 중요하며, 이 블로그의 범위에는 포함되지 않지만 여기에서 Akamai의 AI용 방화벽에 대해 자세히 알아볼 수 있습니다.
AI의 미래 형성
Akamai는 분산형 AI 추론이 확장 가능한 고성능 AI 애플리케이션의 근간이라고 생각합니다. Akamai Cloud는 엔터프라이즈 AI 애플리케이션의 배포를 간소화하는 동시에 비즈니스가 사용자가 있는 곳에서 사용자에게 서비스를 제공하는 데 필요한 속도와 안정성으로 의사 결정에 필요한 인사이트를 제공하는 인프라로 설계되었습니다. 선도적인 공급업체와의 파트너십을 통해 세계적 수준의 소프트웨어를 AI 추론 스택에 통합한 Akamai Cloud는 AI 확장 문제를 해결하도록 설계되었으며 AI 에이전트가 작업을 조율하고 워크플로를 최적화하며 자율적인 의사결정을 대규모로 추진하는 데 필요한 실시간 실행 환경을 제공합니다.
AI 애플리케이션을 최적화하기 위해 올바른 전략을 활용하는 것은 성능, 비용, 지속 가능성을 균형 있게 달성하는 동시에 충실도 높은 추론을 제공하는 데 있어 핵심적인 요소입니다. 모델을 지속적으로 평가하고 개선하는 피드백 루프에는 AI 애플리케이션의 관련성과 정확성을 유지하는 지속적인 학습의 토대가 되는 잘 계획된 데이터 전략이 필요합니다.
현재 고객들이 Akamai Cloud를 기반으로 구축하고 있는 AI 애플리케이션에 대해 매우 기쁘게 생각하며, 앞으로 어떤 애플리케이션을 구축하게 될지 기대가 됩니다.
AI 추론 성능 벤치마크에 대해 자세히 알아보고 싶으신가요? 백서를 읽어보세요.
내용