Skip to main content
BlogCalculInférence IA distribuée : Stratégies de réussite

Inférence IA distribuée : Stratégies de réussite

Stratégies d'inférence de l'IA distribuée pour le succès

Alors que les modèles d'IA continuent d'évoluer pour devenir des pierres angulaires opérationnelles pour les entreprises, l'inférence en temps réel est apparue comme un moteur essentiel de cette transformation. La demande d'informations d'IA instantanées et prêtes à la prise de décision est en pleine expansion, et les agents d'IA - qui deviennent rapidement l'avant-garde de l'inférence - sont sur le point d'être adoptés de manière fulgurante. Les prévisions de l'industrie suggèrent un point de basculement, avec plus de la moitié des entreprises exploitant l'IA générative qui devraient déployer des agents autonomes d'ici 2027, selon Deloitte. En réponse à cette tendance, les entreprises recherchent des moyens évolutifs et efficaces de déployer des modèles d'IA sur plusieurs serveurs, centres de données ou zones géographiques, et se tournent vers des déploiements d'IA distribués dans le nuage. 

Dans un blog précédent, Distributed AI Inference - The Next Generation of Computing, j'ai abordé les bases de l'inférence d'IA distribuée et la façon dont l'exploitation de la plate-forme hautes performances unique du Cloud d'Akamai peut aider les entreprises à monter en charge à un coût incroyablement bas. Dans ce blog, nous continuerons à explorer les concepts autour de l'inférence d'IA distribuée, en particulier, comment déployer, orchestrer et faire monter en charge l'IA à l'aide d'une architecture distribuée dans le Cloud. Nous aborderons également les défis associés à un tel modèle. 

Déploiement

Vous avez raison de penser que le déploiement de modèles d'IA à l'échelle mondiale est une affaire compliquée. Heureusement, il existe une multitude d'outils et de technologies permettant de prendre en charge l'ensemble du cycle de vie de l'IA, depuis sa création et sa formation jusqu'à son déploiement, son perfectionnement et sa gestion. Le choix de la bonne combinaison de solutions doit être mûrement réfléchi. Akamai Cloud s'associe à de nombreux fournisseurs de technologies de pointe pour fournir les composants fondamentaux de l'inférence d'IA et un écosystème dynamique. Nous construisons le Cloud d'inférence d'IA d'aujourd'hui tout en préparant l'avenir en proposant une gamme de puissance de calcul, de stockage de données et de solutions de gestion à proximité de vos utilisateurs, ainsi que les logiciels nécessaires pour connecter vos modèles sur des sites distribués.

AI Inference sur le Cloud d'Akamai intègre des technologies puissantes et exploite des partenariats avec des fournisseurs de premier plan pour créer un écosystème performant permettant de diffuser l'IA à grande vitesse. Cela inclut les éléments suivants :

  • Serveur de modèle utilisant moteurs d'inférence comme Nvidia Dynamo (anciennement Triton) et Kserve, permettant un accès transparent aux modèles d'IA pour vos applications.
  • MLOps et orchestration avec des outils tels que KubeFlow, Nvidia Rapids et KubeSlice pour prendre en charge les pipelines de données, la gestion du cycle de vie des modèles et le contrôle des performances.
  • Optimisation des modèles avec des technologies telles que la boîte à outils TAO deNvidia et KubeFlow, permettant un réglage fin, un élagage, une quantification et d'autres techniques d'optimisation des modèles.
  • Gestion des données grâce à des intégrations clés avec des plateformes, des bases de données et des bibliothèques de données, comme VAST Data, Nvidia Rapids et Milvus, pour le stockage, le traitement et le transfert des données liées aux charges de travail d'IA, ainsi que pour fournir des capacités de gouvernance pour le lignage, la version et l'explicabilité des modèles.
  • Informatique de périphérie sur le réseau mondial de périphérie d'Akamai, avec des partenaires tels que Fermyon et Avesha qui fournissent une informatique légère pour réduire considérablement la latence et améliorer les performances.
  • AI Gateway fournit un point final unifié pour acheminer les demandes des applications/utilisateurs à la périphérie vers le(s) modèle(s) d'IA, avec des capacités d'optimisation de la sécurité, de la performance, de la résilience et de l'accessibilité pour les développeurs et les agents d'IA.  

Le Cloud d'Akamai est à la base de tout ce qui précède et fournit l'infrastructure de base pour le calcul, le stockage, la mise en réseau, la conteneurisation, ainsi qu'une sécurité et une fiabilité de niveau professionnel, afin d'optimiser vos modèles d'IA dans une infrastructure distribuée dans le Cloud. 

Je souhaite prendre un moment pour mettre en évidence l'optimisation des modèles, un processus crucial lors de la distribution de l'IA. Des techniques telles que l'élagage du modèle (pour supprimer les paramètres redondants) et la quantification (pour réduire la précision avec un impact minimal sur la précision globale de l'inférence) jouent un rôle important dans la préparation d'un modèle pour qu'il puisse fonctionner plus près de la périphérie, là où les ressources de calcul peuvent être limitées. Cela permet de s'assurer que les systèmes autonomes, tels que les agents d'intelligence artificielle, peuvent prendre des décisions rapides et fournir des résultats réactifs, malgré des ressources de calcul limitées. Pour les charges de travail pilotées par des agents qui nécessitent une analyse rapide de l'environnement et une planification itérative, vos ingénieurs en IA peuvent également se pencher sur des techniques avancées telles que le partage de modèles, la correspondance dynamique des requêtes et le fractionnement des modèles pour exécuter l'inférence en plusieurs étapes en parallèle afin d'optimiser davantage la latence et les performances en matière de prix dans le cadre de déploiements distribués. 

L'utilisation de ces techniques d'optimisation peut : 

  • réduire considérablement la taille du modèle, parfois jusqu 'à 80 %, ce qui le rend beaucoup plus léger à déployer,
  • réduire les coûts de calcul et la consommation d'énergie, ce qui rend le modèle plus efficace,
  • améliorer la vitesse d'inférence de manière significative, ce qui est particulièrement utile pour les applications sensibles à la latence.

L'amélioration de l'efficacité et de la performance des modèles grâce à ces méthodes et le déploiement de modèles sur une architecture distribuée à proximité des utilisateurs et des données, réduisent les obstacles en termes de coût et de latence pour le déploiement d'applications d'IA d'entreprise. 

Mise à l'échelle

La mise à l'échelle est cruciale pour le succès de l'inférence d'IA, en particulier si vous avez construit un modèle performant qui suscite l'intérêt des masses. Cela signifie qu'il faut se préparer à des pics de demande, tout en maintenant les performances pour répondre aux attentes de vos utilisateurs. La mise à l'échelle et l'extension sont toutes deux importantes. Vous pouvez certainement ajouter plus de puissance de traitement dans un centre de données centralisé, mais il arrive un moment où il devient plus rentable et moins énergivore d'évoluer horizontalement avec un modèle d'inférence distribué, surtout lorsque la latence est importante pour certaines applications, comme par exemple : 

  • les assistants vocaux qui exigent des temps de réponse inférieurs à la seconde pour permettre des flux de conversation naturels,
  • drones/véhicules autonomes réagissant aux données des capteurs IoT, ou 
  • les applications d'IA agentique qui peuvent avoir besoin d'exploiter des ressources géographiquement dispersées pour la prise de décision en temps réel, la coordination autonome et la distribution dynamique de la charge de travail sur les réseaux périphériques. 

Cela nécessite une modularisation et une portabilité réfléchies de votre application d'IA, réalisées dans le Cloud d'Akamai avec notre moteur d'orchestration et notre écosystème Kubernetes, ainsi qu'une plateforme permettant de simplifier et d'accélérer le déploiement d'applications montées en charge. La modularisation et la portabilité vous permettent de faire monter en charge votre application d'IA et les opérations qui la prennent en charge. Kubernetes est devenu la norme de facto pour l'informatique native dans le cloud, ce qui rend la portabilité beaucoup plus facile à gérer. 

Les chances d'avoir accès à la bonne combinaison de ressources informatiques, quel que soit l'endroit où se trouve l'instance du modèle, s'améliorent radicalement en adoptant des paradigmes ouverts, sans verrouillage, qui favorisent la portabilité dans les environnements hybrides et multiclouds. Conteneuriser l'IA avec Kubernetes est l'approche que nous avons choisie comme fondement de nos solutions de mise à l'échelle.

Maintenir la pertinence

À l'instar des humains qui s'inscrivent dans une démarche d'apprentissage tout au long de la vie, les modèles d'IA doivent également affiner la pondération de leurs modèles à l'aide d'ensembles de données actualisés, en tirant des enseignements du retour d'information et en affinant leur contexte au fur et à mesure que les choses changent. La formation continue sur de nouvelles données devient de plus en plus complexe dans un modèle distribué, en particulier parce que la coordination et la synchronisation des mises à jour entre plusieurs nœuds ou sites peuvent poser des problèmes de cohérence.  

Cela nécessite de collecter des données à l'endroit où une instance distribuée de votre application/modèle d'IA est déployée, avec des solutions de stockage d'objets et de bases de données vectorielles pour permettre la génération augmentée par récupération (RAG), et un mécanisme pour renvoyer ces données vers le modèle central pour une nouvelle formation ou un réglage fin. L'inférence IA sur Akamai Cloud s'appuie sur une gestion des données fondamentale solide, soutenue par des partenariats clés avec les principaux fournisseurs de plates-formes de données. Ces capacités fondamentales de gestion des données garantissent que les modèles peuvent collecter des données sur les performances, les domaines et les mises à jour en fonction des événements actuels, afin de fournir au modèle un contexte riche, pertinent et en temps réel, pour des résultats plus précis. Cela réduit également le risque d'hallucinations. En outre, ces données peuvent ensuite informer le modèle centralisé afin d'aider au réentraînement et d'ajuster les poids du modèle pour une meilleure inférence pertinente à l'échelle du modèle global. 

Le Cloud d'Akamai vous permet de relever plusieurs défis inhérents à la diffusion de l'IA d'entreprise :

  • Rentabilité: alors que le coût est souvent un facteur déterminant dans la sélection d'un modèle de déploiement d'inférence d'IA distribuée en exécutant l'inférence plus près des utilisateurs (voir ebook), une optimisation supplémentaire des coûts peut être obtenue en sélectionnant des options de calcul qui offrent des performances acceptables à des tarifs abordables. Chez Akamai, nous contribuons à résoudre ce problème de coût en fournissant des GPU avec des ratios de performance et de coût bien équilibrés, ainsi qu'en permettant des techniques d'optimisation de modèle pour l'inférence des CPU de base. 
  • Consommation d'énergie et durabilité - Les charges de travail d'inférence de l'IA peuvent consommer des quantités massives d'énergie, les centres de données et les accélérateurs d'IA tirant une puissance immense pour l'exécution des modèles. Cela contribue aux émissions de carbone mondiales et à l'empreinte carbone des organisations. Au fur et à mesure de l'adoption de l'IA, la demande d'énergie pour l'inférence de l'IA dépassera la formation, ce qui posera de nouveaux défis en matière de durabilité. La distribution de l'inférence de l'IA soutient les stratégies de réduction des émissions de carbone en réduisant la transmission des données grâce à l'inférence localisée, en optimisant les modèles pour un traitement moins puissant grâce à l'utilisation sélective des accélérateurs d'IA, à la mise à l'échelle dynamique des applications d'IA et à l'exploitation des centres de données à énergie verte. 
  • Apprentissage fédéré - il s'agit du défi mentionné ci-dessus : gérer les taux d'apprentissage et l'évolution des différentes instances de vos modèles d'IA dispersés dans un environnement cloud distribué. Il devient important d'adopter un moyen de maintenir les versions de vos modèles synchronisées avec une forme de supervision centralisée de l'apprentissage. Cela peut impliquer de réaligner les poids du modèle localement, puis de les synchroniser sur toutes les instances du modèle à l'aide d'un mécanisme d'apprentissage fédéré.
  • Sécuriser vos modèles - la protection de vos modèles d'IA contre les cyberattaques, y compris les nouvelles menaces, les fuites de données, les risques de conformité et les attaques adverses, est essentielle pour les applications d'IA d'entreprise afin d'éviter de compromettre la fidélité ou la sécurité des modèles d'IA, ou de perturber complètement leur accessibilité. Il est important de sécuriser à la fois les requêtes d'IA entrantes et les réponses d'IA sortantes avec une détection des menaces en temps réel, une application des politiques et des mesures de sécurité adaptatives pour se défendre contre les injections rapides, les fuites de données sensibles, les exploits adverses et les attaques DoS spécifiques à l'IA. La sécurisation des modèles est d'une importance capitale pour les entreprises et, bien que cela n'entre pas dans le cadre de ce blog, vous pouvez en savoir plus sur le pare-feu pour l'IA d'Akamai ici. 

Façonner l'avenir de l'IA 

Chez Akamai, nous pensons que l'inférence distribuée de l'IA est l'épine dorsale des applications d'IA évolutives et performantes. Le Cloud d'Akamai est conçu avec une infrastructure qui simplifie le déploiement d'applications d'IA d'entreprise tout en fournissant des informations prêtes à la prise de décision à la vitesse et avec la fiabilité dont votre entreprise a besoin pour servir les utilisateurs là où ils se trouvent. En partenariat avec des fournisseurs de premier plan pour intégrer des logiciels de classe mondiale dans notre pile d'inférence d'IA, Akamai Cloud est conçu pour résoudre les défis de la montée en charge de l'IA et fournit l'environnement d'exécution en temps réel nécessaire pour permettre aux agents d'IA d'orchestrer les tâches, d'optimiser les flux de travail et de prendre des décisions autonomes à grande échelle. 

Il est essentiel d'utiliser les bonnes stratégies pour optimiser vos applications d'IA afin d'équilibrer les performances, les coûts et la durabilité, tout en veillant à ce qu'elles fournissent une inférence de haute fidélité. Les boucles de rétroaction qui évaluent et améliorent constamment vos modèles nécessitent une stratégie de données bien planifiée qui sert de base à l'apprentissage continu qui permet à votre application d'IA de rester pertinente et précise.  

Nous sommes enthousiasmés par les applications d'IA que nos clients créent aujourd'hui sur le Cloud d'Akamai et nous sommes impatients de voir ce que vous créerez demain ". 

Vous souhaitez en savoir plus sur les critères de performance de l'inférence en IA ? Lisez notre livre blanc.

Vous pourriez aussi aimer...

Commentaires

Laissez un commentaire

Votre adresse électronique ne sera pas publiée. Les champs obligatoires sont marqués d'un *.