Vai al contenuto principale
BlogCalcoloInferenza AI distribuita: Strategie per il successo

Inferenza distribuita dell'intelligenza artificiale: Strategie per il successo

Strategie_di_Inferenza_AI_distribuita_per_il_successo

Mentre i modelli di IA continuano a evolversi in pietre miliari operative per le aziende, l'inferenza in tempo reale è emersa come motore critico di questa trasformazione. La domanda di informazioni istantanee e pronte per le decisioni è in aumento e gli agenti di IA, che stanno rapidamente diventando l'avanguardia dell'inferenza, sono pronti per un'adozione esplosiva. Le previsioni del settore indicano un punto di svolta: secondo Deloitte, oltre la metà delle aziende che sfruttano l'IA generativa dovrebbe implementare agenti autonomi entro il 2027. In risposta a questa tendenza, le aziende sono alla ricerca di modi scalabili ed efficienti per distribuire i modelli di IA su più server, data center o aree geografiche e stanno rivolgendo il loro sguardo alle implementazioni distribuite di IA nel cloud. 

In un blog precedente, Distributed AI Inference - The Next Generation of Computing, ho illustrato le basi dell'inferenza AI distribuita e come sfruttare la piattaforma ad alte prestazioni di Akamai Cloud possa aiutare le aziende a scalare a costi incredibilmente bassi. In questo blog continueremo a esplorare i concetti relativi all'inferenza AI distribuita, in particolare come distribuire, orchestrare e scalare l'AI utilizzando un'architettura cloud distribuita. Inoltre, approfondiremo le sfide associate a questo modello. 

Distribuzione

Se pensate che l'implementazione di modelli di IA su scala globale sia una cosa complicata, avete ragione. Fortunatamente, sono disponibili numerosi strumenti e tecnologie per supportare l'intero ciclo di vita dell'IA, dalla sua creazione e formazione fino alla distribuzione, al perfezionamento e alla gestione. La scelta del giusto mix di soluzioni richiede un'attenta considerazione. Akamai Cloud collabora con molti fornitori di tecnologia leader per fornire i componenti fondamentali dell'inferenza AI e un ecosistema vivace. Stiamo costruendo il cloud per l'inferenza dell'intelligenza artificiale per oggi e al tempo stesso siamo a prova di futuro, fornendo una gamma di potenza di calcolo, archiviazione dei dati e soluzioni di gestione vicino ai vostri utenti, insieme al software necessario per connettere i vostri modelli tra siti distribuiti.

AI Inference su Akamai Cloud integra potenti tecnologie e sfrutta le partnership con i principali fornitori per creare un ecosistema ad alte prestazioni per la fornitura di AI a velocità elevata. Questo include quanto segue:

  • Model serving che utilizza motori di inferenza come Nvidia Dynamo (precedentemente Triton) e Kserve, consentendo un accesso continuo ai modelli di intelligenza artificiale per le vostre applicazioni.
  • MLOps e orchestrazione con strumenti come KubeFlow, Nvidia Rapids e KubeSlice per supportare pipeline di dati, gestione del ciclo di vita dei modelli e monitoraggio delle prestazioni.
  • Ottimizzazione dei modelli con tecnologie quali il toolkit TAONvidia e KubeFlow, che consentono la messa a punto, il pruning, la quantizzazione e altre tecniche di ottimizzazione dei modelli.
  • Gestione dei dati attraverso integrazioni chiave con piattaforme di data fabric, database e librerie, come VAST Data, Nvidia Rapids e Milvus, per l'archiviazione, l'elaborazione e il trasferimento dei dati legati ai carichi di lavoro dell'IA, oltre a fornire funzionalità di governance per il lineage dei modelli, il versioning e la spiegabilità.
  • Edge computing sulla rete edge globale di Akamai, con partner come Fermyon e Avesha che forniscono calcolo leggero per ridurre drasticamente la latenza e migliorare le prestazioni.
  • AI Gateway fornisce un endpoint unificato per l'instradamento delle richieste dalle applicazioni/utenti all'edge ai modelli di IA, con funzionalità per ottimizzare la sicurezza, le prestazioni, la resilienza e l'accessibilità per gli sviluppatori e gli agenti di IA.  

Alla base di tutto questo c'è Akamai Cloud, che fornisce l'infrastruttura di base per il calcolo, lo storage, la rete, la containerizzazione, la sicurezza e l'affidabilità di livello enterprise per alimentare i modelli di intelligenza artificiale su un'infrastruttura cloud distribuita. 

Vorrei soffermarmi sull'ottimizzazione del modello, un processo cruciale nella distribuzione dell'IA. Tecniche come il pruning del modello (per rimuovere i parametri ridondanti) e la quantizzazione (per ridurre la precisione con un impatto minimo sull'accuratezza complessiva dell'inferenza) svolgono un ruolo importante nella preparazione di un modello da eseguire più vicino ai bordi, dove le risorse di calcolo possono essere limitate. Ciò contribuisce a garantire che i sistemi autonomi, come gli agenti di intelligenza artificiale, possano fornire decisioni rapide e risultati reattivi, nonostante le risorse di calcolo limitate. Per i carichi di lavoro guidati da agenti che richiedono un'analisi ambientale rapida e una pianificazione iterativa, i vostri ingegneri di IA potrebbero anche studiare tecniche avanzate come lo sharding dei modelli, la corrispondenza dinamica delle richieste e la suddivisione dei modelli per eseguire l'inferenza in più fasi in parallelo, al fine di ottimizzare ulteriormente le prestazioni in termini di latenza e di prezzo nelle implementazioni distribuite. 

Sfruttando queste tecniche di ottimizzazione è possibile: 

  • ridurre drasticamente le dimensioni del modello, a volte fino all'80%, rendendolo molto più leggero da distribuire,
  • ridurre il costo computazionale e il consumo energetico, rendendo più efficiente il funzionamento del modello,
  • migliorare significativamente la velocità di inferenza, particolarmente utile per le applicazioni sensibili alla latenza.

Migliorare l'efficienza e le prestazioni dei modelli con questi metodi e distribuire i modelli su un'architettura distribuita con una vicinanza agli utenti e ai dati, riduce i costi e le barriere di latenza per l'implementazione di applicazioni di IA aziendali. 

Scala

La scalabilità è fondamentale per il successo dell'inferenza dell'intelligenza artificiale, soprattutto se si è costruito un modello di successo che suscita l'interesse delle masse. Ciò significa prepararsi ai picchi di domanda, mantenendo le prestazioni per soddisfare le aspettative degli utenti. Sia lo scaling up che lo scaling out sono importanti. È certamente possibile aggiungere più potenza di elaborazione in un data center centralizzato, ma si arriva a un punto in cui diventa più efficiente dal punto di vista dei costi e dell'energia scalare orizzontalmente con un modello di inferenza distribuito, soprattutto quando la latenza è importante per alcune applicazioni, come ad esempio: 

  • assistenti vocali che richiedono tempi di risposta inferiori al secondo per consentire flussi di conversazione naturali,
  • droni/veicoli autonomi che rispondono ai dati dei sensori IoT, oppure 
  • applicazioni di intelligenza artificiale agenziale che potrebbero aver bisogno di sfruttare risorse geograficamente disperse per prendere decisioni in tempo reale, coordinare autonomamente e distribuire dinamicamente il carico di lavoro sulle reti edge. 

Ciò richiede una ponderata modularizzazione e portabilità dell'applicazione AI, ottenuta su Akamai Cloud con il nostro motore di orchestrazione ed ecosistema Kubernetes e una piattaforma che semplifica e accelera la distribuzione di applicazioni scalabili. La modularizzazione e la portabilità consentono di scalare l'applicazione AI e le operazioni che la supportano. Kubernetes è diventato lo standard di fatto per il cloud computing nativo, rendendo la portabilità molto più gestibile. 

Le possibilità di accedere al giusto mix di risorse informatiche ovunque si trovi l'istanza del modello migliorano drasticamente abbracciando paradigmi aperti e senza lock-in che promuovono la portabilità in ambienti ibridi e multi-cloud. La containerizzazione dell'intelligenza artificiale con Kubernetes è l'approccio che abbiamo scelto come base per le nostre soluzioni di scaling.

Mantenere la rilevanza

Come gli esseri umani che si dedicano all'apprendimento permanente, anche i modelli di intelligenza artificiale devono affinare i pesi dei loro modelli con set di dati aggiornati, imparando dal feedback e affinando il loro contesto man mano che le cose cambiano. L'addestramento continuo su nuovi dati diventa sempre più complesso in un modello distribuito, in particolare perché il coordinamento e la sincronizzazione degli aggiornamenti tra più nodi o sedi può comportare problemi nel mantenere la coerenza.  

Ciò richiede la raccolta di dati dal luogo in cui viene distribuita un'istanza dell'applicazione/modello di IA, abilitata con soluzioni di archiviazione a oggetti e database vettoriali per consentire la generazione aumentata del reperimento (RAG), e un meccanismo per riportare tali dati al modello centrale per la riqualificazione o la messa a punto. L'inferenza dell'intelligenza artificiale su Akamai Cloud è costruita con una solida gestione dei dati di base, sostenuta da partnership chiave con i principali fornitori di piattaforme di data fabric. Queste capacità di gestione dei dati fondamentali garantiscono che i modelli possano raccogliere dati sulle prestazioni, sul dominio e aggiornati in base agli eventi attuali per fornire un contesto ricco, pertinente e in tempo reale al modello per ottenere risultati più accurati. Questo riduce anche il rischio di allucinazioni. Inoltre, questi dati possono informare il modello centralizzato e contribuire alla riqualificazione per regolare i pesi del modello e migliorare l'inferenza pertinente su scala globale. 

Akamai Cloud consente di affrontare diverse sfide inerenti alla fornitura di AI aziendale:

  • Efficienza dei costi - Sebbene il costo sia spesso un fattore determinante per la scelta di un modello di implementazione distribuita dell'inferenza dell'intelligenza artificiale, che prevede l'esecuzione dell'inferenza più vicino agli utenti (vedere l'ebook), un'ulteriore ottimizzazione dei costi può essere ottenuta selezionando opzioni di calcolo che offrano prestazioni accettabili a prezzi accessibili. Noi di Akamai stiamo aiutando a risolvere questo problema dei costi fornendo GPU con un rapporto equilibrato tra prestazioni e costi e abilitando tecniche di ottimizzazione dei modelli per l'inferenza con CPU commodity. 
  • Consumo di energia e sostenibilità - I carichi di lavoro di inferenza dell'IA possono consumare enormi quantità di energia, con i centri dati e gli acceleratori di IA che assorbono un'immensa quantità di energia per l'esecuzione dei modelli. Ciò contribuisce alle emissioni globali di carbonio e all'impronta di carbonio delle organizzazioni. Con l'aumento dell'adozione dell'IA, la domanda di energia per l'inferenza dell'IA supererà quella per la formazione, creando ulteriori problemi di sostenibilità. La distribuzione dell'inferenza dell'IA supporta le strategie per ridurre le emissioni di carbonio riducendo la trasmissione dei dati con l'inferenza localizzata, ottimizzando i modelli per l'elaborazione a bassa potenza con l'uso selettivo degli acceleratori dell'IA, scalando dinamicamente le applicazioni dell'IA e sfruttando i centri dati a energia verde. 
  • Apprendimento federato - si riferisce alla sfida di cui sopra: gestire i tassi di apprendimento e l'evoluzione delle diverse istanze dei modelli di intelligenza artificiale disperse in un ambiente cloud distribuito. Diventa importante adottare un mezzo per mantenere sincronizzate le versioni dei modelli con una forma di supervisione centralizzata dell'apprendimento. Ciò può comportare il riallineamento dei pesi del modello a livello locale e la successiva sincronizzazione tra tutte le istanze del modello con un meccanismo di apprendimento federato.
  • Proteggere i modelli - proteggere i modelli di intelligenza artificiale dai cyberattacchi, comprese le nuove minacce, le fughe di dati, i rischi di conformità e gli attacchi avversari è essenziale per le applicazioni di intelligenza artificiale di livello aziendale, per evitare di compromettere la fedeltà o la sicurezza dei modelli di intelligenza artificiale o di interromperne completamente l'accessibilità. È importante proteggere sia le query di IA in entrata che le risposte di IA in uscita con il rilevamento delle minacce in tempo reale, l'applicazione dei criteri e le misure di sicurezza adattive per difendersi da iniezioni di prompt, fughe di dati sensibili, exploit avversari e attacchi DoS specifici per l'IA. La sicurezza dei modelli è di fondamentale importanza per le aziende e, sebbene non rientri negli scopi di questo blog, è possibile saperne di più sul Firewall for AI di Akamai qui

Dare forma al futuro dell'IA 

In Akamai crediamo che l'inferenza AI distribuita sia la spina dorsale delle applicazioni AI scalabili e ad alte prestazioni. Akamai Cloud è stato progettato con un'infrastruttura che semplifica l'implementazione di applicazioni AI aziendali, fornendo al contempo approfondimenti pronti per le decisioni alla velocità e all'affidabilità di cui la vostra azienda ha bisogno per servire gli utenti dove si trovano. Grazie alla collaborazione con fornitori leader per integrare software di livello mondiale nel nostro stack di inferenza AI, Akamai Cloud è progettato per risolvere le sfide della scalabilità dell'AI e fornisce l'ambiente di esecuzione in tempo reale necessario per consentire agli agenti AI di orchestrare le attività, ottimizzare i flussi di lavoro e guidare il processo decisionale autonomo su scala. 

Sfruttare le giuste strategie per ottimizzare le applicazioni di IA è fondamentale per ottenere prestazioni, costi e sostenibilità equilibrati, garantendo al contempo un'inferenza ad alta fedeltà. I cicli di feedback che valutano e migliorano costantemente i modelli necessitano di una strategia dei dati ben pianificata che funga da base per un apprendimento continuo che mantenga l'applicazione di IA pertinente e accurata.  

Siamo entusiasti delle applicazioni AI che i nostri clienti stanno costruendo su Akamai Cloud oggi e non vediamo l'ora di vedere cosa costruirete domani. 

Volete saperne di più sui benchmark delle prestazioni dell'inferenza AI? Leggete il nostro white paper.

Ti potrebbe interessare anche...

Commenti

Lascia una risposta

Il vostro indirizzo e-mail non sarà pubblicato. I campi obbligatori sono contrassegnati da *