À medida que os modelos de IA continuam a evoluir para se tornarem pilares operacionais para as empresas, a inferência em tempo real surgiu como um mecanismo essencial que impulsiona essa transformação. A demanda por insights de IA instantâneos e prontos para a tomada de decisões está aumentando, com os agentes de IA - que estão se tornando rapidamente a vanguarda da inferência - prontos para uma adoção explosiva. As previsões do setor sugerem um ponto de inflexão, com a expectativa de que mais da metade das empresas que utilizam IA generativa implementem agentes autônomos até 2027, de acordo com a Deloitte. Em resposta a essa tendência, as empresas estão buscando maneiras escaláveis e eficientes de implantar modelos de IA em vários servidores, data centers ou regiões geográficas e estão voltando seu olhar para as implantações de IA distribuída na nuvem.
Em um blog anterior, Inferência de IA distribuída: a próxima geração de computação, abordei os conceitos básicos da inferência de IA distribuída e como a utilização da plataforma exclusiva de alto desempenho da Akamai Cloud pode ajudar as empresas a escalonar a um custo impressionantemente baixo. Neste blog, continuaremos a explorar conceitos sobre inferência de IA distribuída, em particular, como implantar, orquestrar e escalonar a IA usando uma arquitetura de nuvem distribuída. Além disso, abordaremos os desafios associados a esse modelo.
Implantação
Você estaria certo se pensasse que a implantação de modelos de IA em escala global parece algo complicado. Felizmente, há uma grande quantidade de ferramentas e tecnologias disponíveis para dar suporte ao ciclo de vida completo da IA, desde sua concepção e treinamento até a implementação, o refinamento e o gerenciamento. A escolha da combinação certa de soluções requer uma consideração cuidadosa. A Akamai Cloud tem parceria com muitos fornecedores líderes de tecnologia para fornecer os componentes fundamentais da inferência de IA e um ecossistema vibrante. Estamos construindo a nuvem de inferência de IA para hoje e, ao mesmo tempo, nos preparando para o futuro, entregando uma variedade de soluções de potência de computação, armazenamento de dados e gerenciamento próximas aos seus usuários, juntamente com o software necessário para conectar seus modelos em websites distribuídos.
O AI Inference on Akamai Cloud integra tecnologias poderosas e aproveita as parcerias com os principais fornecedores para criar um ecossistema de alto desempenho para entregar IA em velocidade. Isso inclui o seguinte:
- Serviço de modelos usando mecanismos de inferência como o Nvidia Dynamo (anteriormente Triton) e o Kserve, permitindo acesso contínuo a modelos de IA para seus aplicativos.
- MLOps e orquestração com ferramentas como KubeFlow, Nvidia Rapids e KubeSlice para dar suporte a pipelines de dados, gerenciamento de ciclo de vida de modelos e monitoramento de desempenho.
- Otimização de modelos com tecnologias como o kit de ferramentas TAONvidia e o KubeFlow, permitindo o ajuste fino, a poda, a quantização e outras técnicas de otimização de modelos.
- Gerenciamento de dados por meio de integrações importantes com plataformas de fabricação de dados, bancos de dados e bibliotecas, como VAST Data, Nvidia Rapids e Milvus, para armazenar, processar e transferir dados vinculados a cargas de trabalho de IA, além de fornecer recursos de governança para linhagem de modelos, controle de versão e explicabilidade.
- Computação de borda na rede de borda global da Akamai, com parceiros como Fermyon e Avesha fornecendo computação leve para reduzir drasticamente a latência e melhorar o desempenho.
- O AI Gateway fornece um endpoint unificado para rotear solicitações de aplicativos/usuários na borda para o(s) modelo(s) de IA, com recursos para otimizar a segurança, o desempenho, a resiliência e a acessibilidade para desenvolvedores e agentes de IA.
A base de tudo isso é a Akamai Cloud, que oferece a infraestrutura principal para computação, armazenamento, rede, conteinerização, segurança e confiabilidade de nível empresarial para potencializar seus modelos de IA na infraestrutura de nuvem distribuída.

Gostaria de destacar a otimização do modelo, um processo crucial na distribuição de IA. Técnicas como a poda do modelo (para remover parâmetros redundantes) e a quantização (para reduzir a precisão com impacto mínimo na precisão geral da inferência) desempenham um papel importante na preparação de um modelo para ser executado mais perto de locais de borda onde os recursos de computação podem ser limitados. Isso ajuda a garantir que os sistemas autônomos, como os agentes de IA, possam fornecer decisões rápidas e resultados responsivos, apesar da restrição dos recursos de computação. Para cargas de trabalho orientadas por agentes que exigem análise ambiental rápida e planejamento iterativo, seus engenheiros de IA também podem estar analisando técnicas avançadas como fragmentação de modelos, correspondência dinâmica de solicitações e modelos de divisão para executar inferência de várias etapas em paralelo para otimizar ainda mais a latência e o desempenho de preço em implementações distribuídas.
O aproveitamento dessas técnicas de otimização pode:
- reduzem drasticamente o tamanho do modelo, às vezes em até 80%, tornando sua implementação muito mais leve,
- reduzem o custo computacional e o consumo de energia, tornando a operação do modelo mais eficiente,
- melhoram significativamente a velocidade de inferência, o que é particularmente útil para aplicativos sensíveis à latência.
O aprimoramento da eficiência e do desempenho do modelo com esses métodos e a implantação de modelos em uma arquitetura distribuída com proximidade dos usuários e dos dados reduzem as barreiras de custo e latência para a implantação de aplicativos corporativos de IA.
Escala
O dimensionamento é crucial para o sucesso da inferência de IA, especialmente se você tiver criado um modelo bem-sucedido que realmente atraia o interesse das massas. Isso significa preparar-se para picos de demanda e, ao mesmo tempo, manter o desempenho para atender às expectativas dos usuários. O aumento e a redução de escala são importantes. Certamente, é possível adicionar mais capacidade de processamento em um data center centralizado, mas chega um ponto em que se torna mais eficiente em termos de custo e energia dimensionar horizontalmente com um modelo de inferência distribuída - ainda mais quando a latência é importante para determinados aplicativos, como, por exemplo:
- assistentes de voz que exigem tempos de resposta de menos de um segundo para permitir fluxos de conversação naturais,
- drones/veículos autônomos que respondem a dados de sensores de IoT, ou
- aplicativos de IA agêntica que podem precisar aproveitar recursos geograficamente dispersos para a tomada de decisões em tempo real, coordenação autônoma e distribuição dinâmica da carga de trabalho em redes de borda.
Isso requer modularização e portabilidade criteriosas de sua aplicação de IA, alcançadas na Akamai Cloud com nosso mecanismo e ecossistema de orquestração Kubernetes e uma plataforma para simplificar e acelerar a implantação de aplicações escalonáveis. A modularização e a portabilidade permitem que você dimensione sua aplicação de IA e as operações que a suportam. O Kubernetes se tornou o padrão de fato para a computação nativa da nuvem, tornando a portabilidade muito mais gerenciável.
As chances de ter acesso à combinação certa de recursos de computação, onde quer que a instância do modelo esteja localizada, aumentam drasticamente com a adoção de paradigmas abertos e sem bloqueio que promovem a portabilidade em ambientes híbridos e de várias nuvens. A IA em contêineres com Kubernetes é a abordagem que escolhemos como base para nossas soluções de dimensionamento.

Mantendo a relevância
Assim como os seres humanos que se dedicam à aprendizagem contínua, os modelos de IA também precisam aprimorar os pesos de seus modelos com conjuntos de dados atualizados, aprendendo com o feedback e refinando seu contexto à medida que as coisas mudam. O treinamento contínuo em novos dados torna-se cada vez mais complexo em um modelo distribuído, especialmente porque a coordenação e a sincronização de atualizações em vários nós ou locais podem levar a desafios na manutenção da consistência.
Isso requer a coleta de dados do local em que uma instância distribuída de sua aplicação/modelo de IA é implantada, habilitada com soluções de armazenamento de objetos e banco de dados vetorial para permitir a geração aumentada de recuperação (RAG) e um mecanismo para transportar esses dados de volta ao modelo central para retreinamento ou ajuste fino. A inferência de IA na Akamai Cloud é construída com um forte gerenciamento de dados fundamental, sustentado por parcerias importantes com os principais provedores de plataformas de estrutura de dados. Esses recursos essenciais de gerenciamento de dados garantem que os modelos possam coletar dados de desempenho, domínio e atualizados com base em eventos atuais para fornecer um contexto rico, relevante e em tempo real ao modelo para obter resultados mais precisos. Isso também reduz o risco de alucinações. Além disso, esses dados podem informar o modelo centralizado para ajudar no retreinamento e ajustar os pesos do modelo para melhorar a inferência relevante em uma escala de modelo global.

O Akamai Cloud permite que você enfrente vários desafios inerentes à entrega de IA empresarial:
- Eficiência de custos: embora o custo seja frequentemente um fator que impulsiona a seleção de um modelo de implantação de inferência de IA distribuída, executando a inferência mais próxima dos usuários (consulte o ebook), é possível obter mais otimização de custos selecionando opções de computação que ofereçam desempenho aceitável a taxas acessíveis. Na Akamai, estamos ajudando a resolver esse dilema de custo fornecendo GPUs com desempenho bem equilibrado e relações de custo, além de permitir técnicas de otimização de modelo para inferência de CPU de commodity.
- Consumo de energia e sustentabilidade - as cargas de trabalho de inferência de IA podem consumir grandes quantidades de energia, com data centers e aceleradores de IA consumindo imensa energia para executar modelos. Isso contribui para as emissões globais de carbono e para as pegadas de carbono das organizações. À medida que a adoção da IA aumenta, a demanda de energia para a inferência de IA ultrapassará o treinamento, criando mais desafios de sustentabilidade. A distribuição da inferência de IA apoia estratégias para reduzir as emissões de carbono, reduzindo a transmissão de dados com inferência localizada, otimizando modelos para processamento de menor potência com o uso seletivo de aceleradores de IA, dimensionamento dinâmico de aplicativos de IA e aproveitamento de data centers com energia verde.
- Aprendizagem federada - refere-se ao desafio mencionado acima: gerenciar as taxas de aprendizagem e a evolução de diferentes instâncias de seus modelos de IA dispersos em um ambiente de nuvem distribuído. Torna-se importante adotar um meio de manter as versões de seus modelos sincronizadas com uma forma de supervisão de aprendizagem centralizada. Isso pode implicar o realinhamento dos pesos do modelo localmente e, em seguida, sincronizá-los em todas as instâncias do modelo com um mecanismo de aprendizagem federado.
- Protegendo seus modelos - proteger seus modelos de IA contra ataques cibernéticos, inclusive novas ameaças, vazamento de dados, riscos de conformidade e ataques de adversários é essencial para que os aplicativos de IA de nível empresarial evitem comprometer a fidelidade ou a segurança dos modelos de IA ou interromper totalmente sua acessibilidade. É importante proteger as consultas de IA de entrada e as respostas de IA de saída com detecção de ameaças nativa de IA em tempo real, aplicação de políticas e medidas de segurança adaptativas para se defender contra injeções rápidas, vazamentos de dados confidenciais, explorações adversárias e ataques DoS específicos de IA. A proteção de modelos é de suma importância para as empresas e, embora não faça parte do escopo deste blog, você pode saber mais sobre o Firewall para IA da Akamai aqui.
Moldando o futuro da IA
Na Akamai, acreditamos que a inferência de IA distribuída é a espinha dorsal de aplicações de IA escalonáveis e de alto desempenho. A Akamai Cloud foi projetada com infraestrutura para simplificar a implantação de aplicações corporativas de IA e, ao mesmo tempo, entregar insights prontos para decisão na velocidade e confiabilidade de que sua empresa precisa para atender aos usuários onde quer que eles estejam. Em parceria com os principais fornecedores para integrar software de classe mundial em nossa pilha de inferência de IA, a Akamai Cloud foi projetada para resolver os desafios de escalonamento de IA e fornece o ambiente de execução em tempo real necessário para capacitar os agentes de IA a orquestrar tarefas, otimizar fluxos de trabalho e conduzir a tomada de decisões autônomas em escala.
Aproveitar as estratégias certas para otimizar seus aplicativos de IA é fundamental para obter desempenho, custo e sustentabilidade equilibrados e, ao mesmo tempo, garantir que eles ofereçam inferência de alta fidelidade. Os loops de feedback que avaliam e aprimoram constantemente seus modelos precisam de uma estratégia de dados bem planejada que sirva de base para o aprendizado contínuo que mantém seu aplicativo de IA relevante e preciso.
Estamos entusiasmados com as aplicações de IA que nossos clientes estão criando na Akamai Cloud hoje e mal podemos esperar para ver o que você criará amanhã.
Interessado em saber mais sobre benchmarks de desempenho de inferência de IA? Leia nosso white paper.
Comentários