人工知能 モデルが企業のオペレーションの基盤へと進化し続ける中、リアルタイム推論はこの変革を推進する重要なエンジンとして浮上してきた。瞬時に意思決定が可能な人工知能 洞察に対する需要は急増しており、人工知能 エージェントは推論の先駆けとして急速に普及している。Deloitteによると、生成的人工知能 活用する企業の半数以上が、2027年までに自律型エージェントを導入すると予想されている。Delitteによると、人工知能 活用する企業の半数以上が2027年までに自律型エージェントを導入すると予想されている。このトレンドを受けて、企業は複数のサーバー、データセンター、または地域にわたって人工知能 モデルを展開するスケーラブルで効率的な方法を模索しており、クラウドでの分散型人工知能 展開に目を向けている。
前回のブログ「分散型人工知能 推論 - 次世代のコンピューティング」では、分散型人工知能 推論の基礎と、アカマイのクラウド独自の高性能プラットフォームを活用することで、企業が驚くほど低コストでスケーリングできる方法について説明しました。このブログでは、分散型人工知能 推論に関するコンセプト、特に分散型クラウドアーキテクチャを使用した人工知能 展開、オーケストレーション、およびスケーリング方法について引き続き説明します。さらに、このようなモデルに関連する課題についても説明する。
配備
グローバル規模で人工知能 モデルを展開するのは複雑なことのように聞こえるかもしれない。幸いなことに、人工知能 導入からトレーニング、配備、改良、管理まで、人工知能 ライフサイクル全体をサポートするツールやテクノロジーが数多くある。適切なソリューションの組み合わせを選択するには、慎重な検討が必要です。Akamai Cloud は多くの主要テクノロジーベンダーと提携し、人工知能 推論の基本コンポーネントと活気あるエコシステムを提供しています。アカマイは、分散したサイト間でモデルを接続するために必要なソフトウェアとともに、さまざまなコンピューティングパワー、データストレージ、および管理ソリューションをユーザーの近くに提供することで、将来を見据えながら今日の人工知能 推論クラウドを構築しています。
Akamai Cloud 上の人工知能推論は、強力なテクノロジーを統合し、主要ベンダーとのパートナーシップを活用して、人工知能 高速で配信するための高性能エコシステムを構築しています。これには以下が含まれます:
- Nvidia Dynamo(旧Triton)やKserveのような 推論エンジンを使用したモデルサービングにより 、アプリケーションのための人工知能 モデルへのシームレスなアクセスが可能になります。
- KubeFlow、Nvidia Rapids、KubeSliceなどのツールを使用したMLOpsとオーケストレーションにより、データパイプライン、モデルライフサイクル管理、パフォーマンス監視をサポートします。
- Nvidia TAOツールキットや KubeFlowなどのテクノロジーを用いたモデル最適化により、ファインチューニング、プルーニング、量子化、その他のモデル最適化テクニックを実現。
- VAST Data、Nvidia Rapids、Milvusのようなデータ・ファブリック・プラットフォーム、データベース、ライブラリとの主要な統合によるデータ管理は、人工知能 ワークロードに関連するデータの保存、処理、転送を行い、モデルのリネージ、バージョニング、説明可能性のためのガバナンス機能を提供する。
- アカマイのグローバル・エッジ・ネットワークを利用したエッジコンピューティングでは、FermyonやAveshaといったパートナーが軽量コンピートを提供し、待ち時間を大幅に短縮してパフォーマンスを向上させています。
- 人工知能ゲートウェイは、エッジにあるアプリケーション/ユーザーからのリクエストを人工知能 モデルにルーティングするための統一されたエンドポイントを提供します。
これらすべてを支えるのがAkamai Cloud であり、分散型インフラ活用してお客様の人工知能 モデルを強化するために、コンピューティング、ストレージ、ネットワーキング、コンテナイゼーション、エンタープライズクラスのセキュリティと信頼性のコアとなるインフラ 提供します。

人工知能配布する際に重要なプロセスである、モデルの最適化について少し触れたいと思います。モデルの刈り込み(冗長なパラメータを取り除く)や量子化(推論精度全体への影響を最小限に抑えながら精度を下げる)といった技術は、計算リソースが制限される可能性のあるエッジに近い場所でモデルを実行するための準備として重要な役割を果たす。これは、計算リソースに制約があるにもかかわらず、人工知能 エージェントのような自律システムが、迅速な意思決定と応答性の高い出力を提供できるようにするのに役立ちます。迅速な環境分析と反復的なプランニングを必要とするエージェント駆動型ワークロードの場合、人工知能 エンジニアは、分散配置全体でレイテンシと価格パフォーマンスをさらに最適化するために、モデルのシャーディング、動的なリクエストマッチング、マルチステップ推論を並行して実行するためのモデルの分割などの高度な技術も検討しているかもしれません。
これらの最適化テクニックを活用することで
- モデルサイズを劇的に縮小し、最大80%縮小することもある、
- 計算コストとエネルギー消費を削減し、モデルの運用効率を高める、
- 推論速度が大幅に向上し、特に待ち時間の影響を受けやすいアプリケーションに有効である。
これらの方法でモデルの効率とパフォーマンスを改善し、ユーザーとデータに近い分散アーキテクチャ上にモデルを展開することで、企業人工知能 アプリケーションを展開する際のコストとレイテンシの障壁を軽減することができます。
スケーリング
人工知能 推論を成功させるためには、スケーリングが非常に重要である。これは、ユーザーの期待に応えるパフォーマンスを維持しながら、需要のピークに備えることを意味する。スケールアップとスケールアウトはどちらも重要だ。集中型データセンターで処理能力を増やすことは確かに可能だが、分散型推論モデルで水平方向に拡張する方がコスト的にも電力的にも有利になる局面が来る:
- 自然な会話の流れを可能にするために、秒以下の応答時間を必要とする音声アシスタント、
- IoTセンサーデータに反応する自律型ドローン/車両、あるいは
- エージェント型人工知能 アプリケーションは、リアルタイムな意思決定、自律的な調整、エッジネットワーク全体での動的なワークロード分配のために、地理的に分散したリソースを活用する必要があるかもしれない。
これには人工知能 アプリケーションの思慮深いモジュール化と移植性が必要であり、アカマイのKubernetes オーケストレーション・エンジンとエコシステム、そしてスケーラブルなアプリケーションの展開を簡素化および高速化するプラットフォームにより、アカマイのクラウド上で実現することができます。モジュール化と移植性により、お客様は人工知能 アプリケーションとそれをサポートするオペレーションを拡張することができます。Kubernetesはクラウド・ネイティブ・コンピューティングのデファクト・スタンダードとなっており、移植性をはるかに管理しやすくしています。
ハイブリッドクラウドやマルチクラウド環境での移植性を促進するオープンでロックインのないパラダイムを採用することで、モデルインスタンスがどこにあっても、適切な組み合わせのコンピューティングリソースにアクセスできる可能性が飛躍的に向上します。Kubernetesによる人工知能 コンテナ化は、私たちがスケーリング・ソリューションの基盤として選んだアプローチです。

関連性の維持
人間が生涯学習を続けるように、人工知能 モデルもまた、更新されたデータセットでモデルの重みを研ぎ澄まし、フィードバックから学び、状況が変化するにつれてコンテキストを洗練させる必要がある。新しいデータに対する継続的な学習は、分散モデル全体ではますます複雑になります。特に、複数のノードやロケーション間で更新を調整し同期させることは、一貫性を維持する上での課題につながる可能性があるからです。
これには、人工知能 アプリケーション/モデルの分散インスタンスがデプロイされている場所からデータを収集し、オブジェクトストレージとベクトルデータベースソリューションを使用して検索拡張世代(RAG)を可能にし、再トレーニングや微調整のためにデータを中央モデルにシャトルバックするメカニズムが必要です。Akamai Cloud 上の人工知能推論は、主要なデータファブリック・プラットフォーム・プロバイダーとの重要なパートナーシップに支えられた、強力な基礎データ管理によって構築されています。これらのコアデータ管理機能により、モデルはパフォーマンス、ドメイン、および現在のイベントに基づいて更新されたデータを収集し、より正確なアウトプットのために、豊富で関連性の高いリアルタイムのコンテキストをモデルに提供することができます。これはまた、幻覚のリスクを低減します。 さらに、このデータは、グローバルなモデル・スケールで関連性の高い推論を改善するために、モデルの重みを調整する再トレーニングを支援するために、集中化されたモデルに通知することができます。

Akamai Cloud は、エンタープライズ人工知能配信に固有のいくつかの課題に取り組むことを可能にします:
- コスト効率- ユーザーの近くで推論を実行することで、分散型人工知能 推論の導入モデルを選択する場合、多くの場合コストが原動力となりますが(電子ブックを参照)、手頃な料金で許容可能なパフォーマンスを提供する計算オプションを選択することで、さらなるコスト最適化を実現することができます。アカマイでは、性能とコストのバランスが取れたGPU を提供し、コモディティ CPU 推論のモデル最適化技術を可能にすることで、このコスト問題を解決するお手伝いをしています。
- エネルギー消費と持続可能性-人工知能 推論のワークロードは大量の電力を消費する可能性があり、データセンターと人工知能 アクセラレータはモデル実行のために膨大な電力を消費する。これは、世界的な二酸化炭素排出量と組織のカーボンフットプリントに貢献します。人工知能 採用が拡大するにつれて、人工知能 推論のエネルギー需要はトレーニングを上回り、持続可能性に関する更なる課題が生じるでしょう。人工知能 推論を分散させることで、局所的な推論によるデータ伝送の削減、人工知能 アクセラレータの選択的な使用による低消費電力処理へのモデルの最適化、人工知能 アプリケーションの動的なスケーリング、グリーン電力データセンターの活用によって、二酸化炭素排出量を削減する戦略をサポートします。
- 分散されたクラウド環境に分散された人工知能 モデルの異なるインスタンスの学習速度と進化を管理する。中央集権的な学習監視の形で、モデルのバージョンを同期させておく手段を採用することが重要になる。これには、モデルの重みをローカルで再調整し、その後、連合学習メカニズムを使ってモデルのすべてのインスタンス間で同期させることが必要になります。
- モデルの保護-人工知能 モデルを、新しい脅威、データ漏洩、コンプライアンスリスク、および敵対的な攻撃を含むサイバー攻撃から保護することは、人工知能 モデルの忠実性や安全性を損なったり、完全にアクセスできなくなったりすることを防ぐために、エンタープライズグレードの人工知能 アプリケーションにとって不可欠です。インバウンドの人工知能 クエリとアウトバウンドの人工知能 レスポンスの両方を、リアルタイムの人工知能脅威検出、ポリシー実施、適応型セキュリティ対策で保護し、プロンプトインジェクション、機密データリーク、敵対的エクスプロイト、人工知能DoS攻撃から防御することが重要です。モデルの保護は企業にとって最も重要であり、このブログの範囲ではありませんが、アカマイの人工知能 向け Firewall の詳細についてはこちらをご覧ください。
人工知能未来を形作る
アカマイは、分散型人工知能 推論がスケーラブルで高性能な人工知能 アプリケーションのバックボーンであると確信しています。Akamai Cloud は、エンタープライズ人工知能 アプリケーションの展開を簡素化すると同時に、ビジネスが必要とするスピードと信頼性で意思決定に役立つ洞察を提供し、ユーザーがどこにいてもサービスを提供できるよう、インフラ 設計されています。主要ベンダーと提携し、世界クラスのソフトウェアを当社の人工知能 推論スタックに統合することで、Akamai Cloud は人工知能 スケーリングの課題を解決するよう設計されており、人工知能 エージェントによるタスクのオーケストレーション、ワークフローの最適化、自律的な意思決定をスケールアップするために必要なリアルタイム実行環境を提供します。
人工知能 アプリケーションを最適化するために適切な戦略を活用することは、忠実度の高い推論を確実に行いながら、性能、コスト、持続可能性のバランスを達成するための鍵となります。 常にモデルを評価し、改善するフィードバックループには、人工知能 アプリケーションを適切かつ正確に保つ継続的な学習の基礎となる、綿密に計画されたデータ戦略が必要です。
我々は、お客様が今日 Akamai Cloud 上で構築している人工知能 アプリケーションに興奮しています。
人工知能 推論性能ベンチマークについてもっと知りたいですか?ホワイトペーパーをお読みください。
コメント