Zum Inhalt springen
BlogBerechnenVerteilte KI-Inferenz: Strategien für den Erfolg

Verteilte KI-Inferenz: Strategien für den Erfolg

Verteilte_AI_Inferenz-Strategien_für_Erfolg

Da sich KI-Modelle immer mehr zu operativen Eckpfeilern für Unternehmen entwickeln, hat sich die Echtzeit-Inferenz als entscheidender Motor für diesen Wandel erwiesen. Die Nachfrage nach sofortigen, entscheidungsfähigen KI-Einsichten steigt, wobei KI-Agenten - die sich rasch zur Vorhut der Inferenz entwickeln - kurz vor einer explosionsartigen Verbreitung stehen. Branchenprognosen deuten auf einen Wendepunkt hin: Laut Deloitte wird mehr als die Hälfte der Unternehmen, die generative KI nutzen, bis 2027 autonome Agenten einsetzen. Als Reaktion auf diesen Trend suchen Unternehmen nach skalierbaren und effizienten Möglichkeiten, KI-Modelle über mehrere Server, Rechenzentren oder Standorte hinweg einzusetzen, und richten ihren Blick auf verteilte KI-Implementierungen in der Cloud. 

In einem früheren Blog, Distributed AI Inference - The Next Generation of Computing (Verteilte KI-Inferenz - Die nächste Generation des Computing), habe ich die Grundlagen der verteilten KI-Inferenz behandelt und erläutert, wie die Nutzung der einzigartigen Hochleistungsplattform von Akamai Cloud Unternehmen bei der Skalierung zu beeindruckend niedrigen Kosten helfen kann. In diesem Blog werden wir uns weiter mit Konzepten rund um verteilte KI-Inferenz beschäftigen, insbesondere damit, wie KI mithilfe einer verteilten Cloud-Architektur bereitgestellt, orchestriert und skaliert werden kann. Außerdem gehen wir auf die Herausforderungen ein, die mit einem solchen Modell verbunden sind. 

Einsatz

Sie haben Recht, wenn Sie denken, dass der Einsatz von KI-Modellen auf globaler Ebene nach einer komplizierten Angelegenheit klingt. Glücklicherweise gibt es eine ganze Reihe von Tools und Technologien, die den gesamten Lebenszyklus von KI unterstützen - von der Entwicklung und dem Training bis hin zur Bereitstellung, Verfeinerung und Verwaltung. Die Wahl des richtigen Lösungsmixes muss sorgfältig überlegt werden. Akamai Cloud arbeitet mit vielen führenden Technologieanbietern zusammen, um die grundlegenden Komponenten der KI-Inferenz und ein dynamisches Ökosystem bereitzustellen. Wir bauen die KI-Inferenz-Cloud für heute auf und sind gleichzeitig zukunftssicher für morgen, indem wir eine Reihe von Lösungen für Rechenleistung, Datenspeicherung und Management in der Nähe Ihrer Benutzer bereitstellen, zusammen mit der Software, die für die Verbindung Ihrer Modelle über verteilte Standorte hinweg erforderlich ist.

AI Inference on Akamai Cloud integriert leistungsstarke Technologien und nutzt Partnerschaften mit führenden Anbietern, um ein leistungsstarkes Ökosystem für die schnelle Bereitstellung von AI zu schaffen. Dazu gehören die folgenden Punkte:

  • Model-Serving mit Inferenz-Engines wie Nvidia Dynamo (früher Triton) und Kserve, die einen nahtlosen Zugriff auf KI-Modelle für Ihre Anwendungen ermöglichen.
  • MLOps und Orchestrierung mit Tools wie KubeFlow, Nvidia Rapids und KubeSlice zur Unterstützung von Datenpipelines, Model Lifecycle Management und Leistungsüberwachung.
  • Modelloptimierung mit Technologien wie dem Nvidia TAO-Toolkit und KubeFlow, die Feinabstimmung, Pruning, Quantisierung und andere Modelloptimierungstechniken ermöglichen.
  • Datenmanagement durch wichtige Integrationen mit Data-Fabric-Plattformen, Datenbanken und Bibliotheken wie VAST Data, Nvidia Rapids und Milvus zur Speicherung, Verarbeitung und Übertragung von Daten, die mit KI-Workloads verbunden sind, sowie Bereitstellung von Governance-Funktionen für die Modellabfolge, Versionierung und Erklärbarkeit.
  • Edge Computing auf dem globalen Edge-Netzwerk von Akamai, wobei Partner wie Fermyon und Avesha leichtgewichtige Rechenleistung bereitstellen, um Latenzzeiten drastisch zu reduzieren und die Leistung zu verbessern.
  • AI Gateway bietet einen einheitlichen Endpunkt für die Weiterleitung von Anfragen von Anwendungen/Benutzern am Edge an das/die KI-Modell(e), mit Funktionen zur Optimierung von Sicherheit, Leistung, Ausfallsicherheit und Zugänglichkeit für Entwickler und KI-Agenten.  

Die Akamai Cloud bildet die Grundlage für die Kerninfrastruktur für Computing, Storage, Networking, Containerisierung sowie Sicherheit und Zuverlässigkeit auf Unternehmensniveau, um Ihre KI-Modelle über eine verteilte Cloud-Infrastruktur zu betreiben. 

Ich möchte kurz auf die Modelloptimierung eingehen, einen entscheidenden Prozess bei der Verteilung von KI. Techniken wie Modellbeschneidung (zur Entfernung redundanter Parameter) und Quantisierung (zur Verringerung der Präzision bei minimaler Auswirkung auf die Gesamtgenauigkeit der Schlussfolgerungen) spielen eine wichtige Rolle bei der Vorbereitung eines Modells für die Ausführung in der Nähe von Randbereichen, in denen die Rechenressourcen möglicherweise begrenzt sind. Dies trägt dazu bei, dass autonome Systeme, wie z. B. KI-Agenten, trotz begrenzter Rechenressourcen schnelle Entscheidungen und reaktionsschnelle Ergebnisse liefern können. Bei agentengesteuerten Workloads, die eine schnelle Umgebungsanalyse und iterative Planung erfordern, können Ihre KI-Ingenieure auch fortschrittliche Techniken wie Modell-Sharding, dynamisches Anforderungsmatching und die Aufteilung von Modellen zur parallelen Ausführung von mehrstufigen Inferenzen in Betracht ziehen, um die Latenzzeit und die Preisleistung bei verteilten Implementierungen weiter zu optimieren. 

Der Einsatz dieser Optimierungstechniken kann: 

  • die Größe des Modells drastisch zu reduzieren, manchmal um bis zu 80 %, so dass es viel leichter zu implementieren ist,
  • Verringerung der Rechenkosten und des Energieverbrauchs, wodurch das Modell effizienter betrieben werden kann,
  • die Geschwindigkeit der Schlussfolgerungen erheblich verbessern, was besonders für latenzempfindliche Anwendungen nützlich ist.

Die Verbesserung der Modelleffizienz und -leistung mit diesen Methoden und die Bereitstellung von Modellen auf einer verteilten Architektur mit Nähe zu Benutzern und Daten verringert die Kosten- und Latenzbarrieren für die Bereitstellung von KI-Anwendungen in Unternehmen. 

Skalierung

Die Skalierung ist für den Erfolg der KI-Inferenz entscheidend, insbesondere wenn Sie ein erfolgreiches Modell entwickelt haben, das tatsächlich das Interesse der Massen weckt. Das bedeutet, dass Sie sich auf Nachfragespitzen vorbereiten und gleichzeitig die Leistung aufrechterhalten müssen, um die Erwartungen Ihrer Nutzer zu erfüllen. Die Skalierung nach oben und die Skalierung nach unten sind beide wichtig. Sicherlich können Sie in einem zentralen Rechenzentrum mehr Rechenleistung bereitstellen, aber irgendwann kommt der Punkt, an dem es kosten- und energieeffizienter ist, ein verteiltes Inferenzmodell horizontal zu skalieren - vor allem dann, wenn Latenzzeiten für bestimmte Anwendungen wichtig sind: 

  • Sprachassistenten, die Reaktionszeiten von weniger als einer Sekunde benötigen, um einen natürlichen Gesprächsfluss zu ermöglichen,
  • autonome Drohnen/Fahrzeuge, die auf IoT-Sensordaten reagieren, oder 
  • agentenbasierte KI-Anwendungen, die geografisch verteilte Ressourcen für die Entscheidungsfindung in Echtzeit, die autonome Koordination und die dynamische Verteilung der Arbeitslast über Edge-Netzwerke nutzen müssen. 

Dies erfordert eine durchdachte Modularisierung und Portabilität Ihrer KI-Anwendung, die auf der Akamai Cloud mit unserer Kubernetes-Orchestrierungs-Engine und unserem Ökosystem sowie einer Plattform zur Vereinfachung und Beschleunigung der Bereitstellung skalierbarer Anwendungen erreicht wird. Modularisierung und Portabilität ermöglichen Ihnen die Skalierung Ihrer KI-Anwendung und der sie unterstützenden Abläufe. Kubernetes hat sich zum De-facto-Standard für Cloud Native Computing entwickelt und macht die Portabilität deutlich einfacher. 

Die Chancen, überall dort, wo sich die Modellinstanz befindet, auf die richtige Mischung von Rechenressourcen zugreifen zu können, verbessern sich drastisch, wenn man offene Paradigmen einsetzt, die die Portabilität in Hybrid- und Multi-Cloud-Umgebungen fördern. Die Containerisierung von KI mit Kubernetes ist der Ansatz, den wir als Grundlage für unsere Skalierungslösungen gewählt haben.

Aufrechterhaltung der Relevanz

Wie Menschen, die sich dem lebenslangen Lernen verschrieben haben, müssen auch KI-Modelle ihre Modellgewichte mit aktualisierten Datensätzen schärfen, aus Feedback lernen und ihren Kontext verfeinern, wenn sich die Dinge ändern. Das kontinuierliche Training mit neuen Daten wird bei einem verteilten Modell zunehmend komplexer, insbesondere weil die Koordinierung und Synchronisierung von Aktualisierungen über mehrere Knoten oder Standorte hinweg zu Problemen bei der Wahrung der Konsistenz führen kann.  

Dies erfordert das Sammeln von Daten an dem Ort, an dem eine verteilte Instanz Ihrer KI-Anwendung bzw. Ihres KI-Modells bereitgestellt wird, die mit Objektspeicher- und Vektordatenbanklösungen aktiviert werden, um eine Retrieval-Augmented-Generierung (RAG) zu ermöglichen, sowie einen Mechanismus, um diese Daten für ein erneutes Training oder eine Feinabstimmung an das zentrale Modell zurückzuschicken. Die KI-Inferenz in der Akamai Cloud basiert auf einem soliden Datenmanagement, das durch wichtige Partnerschaften mit führenden Anbietern von Data-Fabric-Plattformen unterstützt wird. Diese grundlegenden Datenverwaltungsfunktionen stellen sicher, dass Modelle Leistungs-, Domänen- und aktualisierte Daten auf der Grundlage aktueller Ereignisse sammeln können, um dem Modell einen umfassenden, relevanten Kontext in Echtzeit zu liefern und so genauere Ergebnisse zu erzielen. Dadurch wird auch das Risiko von Halluzinationen verringert. Darüber hinaus können diese Daten in das zentralisierte Modell einfließen, um bei der Umschulung zu helfen und die Modellgewichte für verbesserte relevante Schlussfolgerungen auf globaler Modellebene anzupassen. 

Mit Akamai Cloud können Sie verschiedene Herausforderungen bei der Bereitstellung von KI für Unternehmen bewältigen:

  • Kosteneffizienz - während die Kosten oft ein Grund für die Wahl eines verteilten KI-Inferenzmodells sind, indem die Inferenz näher an den Nutzern ausgeführt wird (siehe ebook), kann eine weitere Kostenoptimierung durch die Auswahl von Rechenoptionen erreicht werden, die eine akzeptable Leistung zu erschwinglichen Preisen bieten. Bei Akamai helfen wir bei der Lösung dieses Kostenproblems, indem wir GPUs mit einem ausgewogenen Leistungs- und Kostenverhältnis bereitstellen und Modelloptimierungstechniken für Standard-CPU-Inferenzen ermöglichen. 
  • Energieverbrauch und Nachhaltigkeit - KI-Inferenz-Workloads können enorme Mengen an Energie verbrauchen, wobei Rechenzentren und KI-Beschleuniger für die Ausführung von Modellen einen immensen Stromverbrauch haben. Dies trägt zu den globalen Kohlendioxidemissionen und zum CO2-Fußabdruck von Unternehmen bei. Mit zunehmender Verbreitung von KI wird der Energiebedarf für KI-Inferenzen den für das Training übersteigen, was weitere Herausforderungen für die Nachhaltigkeit mit sich bringt. Die Verteilung von KI-Inferenzen unterstützt Strategien zur Verringerung der Kohlendioxidemissionen, indem die Datenübertragung durch lokalisierte Inferenzen reduziert wird, Modelle durch den gezielten Einsatz von KI-Beschleunigern für eine Verarbeitung mit geringerem Stromverbrauch optimiert werden, KI-Anwendungen dynamisch skaliert werden und Rechenzentren mit grünem Strom betrieben werden. 
  • Föderiertes Lernen - dies bezieht sich auf die oben erwähnte Herausforderung: die Verwaltung der Lernraten und der Entwicklung verschiedener Instanzen Ihrer KI-Modelle, die über eine verteilte Cloud-Umgebung verteilt sind. Es ist wichtig, die Versionen Ihrer Modelle mit einer Art zentraler Lernkontrolle zu synchronisieren. Dies kann bedeuten, dass die Modellgewichte lokal neu ausgerichtet und dann über alle Instanzen des Modells mit einem föderierten Lernmechanismus synchronisiert werden.
  • Sichern Sie Ihre Modelle - der Schutz Ihrer KI-Modelle vor Cyberangriffen, einschließlich neuartiger Bedrohungen, Datenlecks, Compliance-Risiken und gegnerischer Angriffe, ist für KI-Anwendungen auf Unternehmensebene unerlässlich, um zu verhindern, dass die Zuverlässigkeit oder Sicherheit von KI-Modellen beeinträchtigt oder ihre Zugänglichkeit gänzlich unterbrochen wird. Es ist wichtig, sowohl eingehende KI-Anfragen als auch ausgehende KI-Antworten mit KI-nativer Echtzeit-Bedrohungserkennung, Richtliniendurchsetzung und adaptiven Sicherheitsmaßnahmen zu schützen, um prompte Injektionen, sensible Datenlecks, gegnerische Exploits und KI-spezifische DoS-Angriffe abzuwehren. Der Schutz von Modellen ist für Unternehmen von größter Bedeutung. Obwohl dies nicht in den Rahmen dieses Blogs fällt, können Sie hier mehr über die Firewall für KI von Akamai erfahren. 

Die Zukunft der KI gestalten 

Wir bei Akamai glauben, dass verteilte KI-Inferenz das Rückgrat skalierbarer, leistungsstarker KI-Anwendungen ist. Die Akamai Cloud ist mit einer Infrastruktur ausgestattet, die die Bereitstellung von KI-Anwendungen für Unternehmen vereinfacht und gleichzeitig entscheidungsreife Erkenntnisse mit der Geschwindigkeit und Zuverlässigkeit liefert, die Ihr Unternehmen benötigt, um die Nutzer dort zu bedienen, wo sie sind. Akamai Cloud wurde in Zusammenarbeit mit führenden Anbietern entwickelt, um erstklassige Software in unseren KI-Inferenz-Stack zu integrieren und die Herausforderungen bei der Skalierung von KI zu lösen. Sie bietet die Echtzeit-Ausführungsumgebung, die erforderlich ist, um KI-Agenten in die Lage zu versetzen, Aufgaben zu orchestrieren, Workflows zu optimieren und autonome Entscheidungen in großem Umfang zu treffen. 

Der Einsatz der richtigen Strategien zur Optimierung Ihrer KI-Anwendungen ist der Schlüssel zum Erreichen eines ausgewogenen Verhältnisses zwischen Leistung, Kosten und Nachhaltigkeit, wobei gleichzeitig sichergestellt werden muss, dass sie hochgenaue Schlussfolgerungen liefern. Feedbackschleifen, die Ihre Modelle ständig bewerten und verbessern, erfordern eine gut geplante Datenstrategie, die als Grundlage für kontinuierliches Lernen dient, damit Ihre KI-Anwendung relevant und genau bleibt.  

Wir sind begeistert von den KI-Anwendungen, die unsere Kunden heute auf der Akamai Cloud entwickeln und können es kaum erwarten, zu sehen, was Sie morgen entwickeln werden. 

Möchten Sie mehr über Benchmarks zur KI-Inferenzleistung erfahren? Lesen Sie unser Whitepaper.

Vielleicht interessiert Sie auch ...

Kommentare

Kommentar abgeben

Ihre E-Mail Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit *gekennzeichnet