BlogDatenbankenBerge von Daten: Groß vs. Klein und Weit

Berge von Daten: Groß vs. Klein und Weit

23. März 2023

Berge von Daten: Groß vs. Klein und Weit

Wenn Sie in der Technologiebranche tätig sind (und wahrscheinlich auch, wenn Sie es nicht sind), haben Sie schon viel über KI gehört. Ich spreche nicht nur von der "Skynet übernimmt die Erde"-Variante der KI aus der Science-Fiction, die wir alle im Laufe der Jahre genossen haben, sondern von der praktischen Anwendung von künstlicher Intelligenz und maschinellem Lernen in unserem täglichen Leben.

Das Lebenselixier und die Grundlage von KI/ML sind Big Data. Riesige Daten. Massive Datenmengen. Oder doch nicht? Big Data ist der Motor der heutigen KI/ML, und auch wenn wir immer schiere Datenmengen benötigen, haben Unternehmen in den letzten Jahren begonnen, von Big Data auf Small and Wide umzusteigen.

Vergleichen wir die beiden.

Unmengen von Daten

Big Data kann auf zwei Arten unterteilt werden.

Die erste besteht darin, einen großen Datensatz zu erfassen und zu organisieren - ein einfaches Konzept, das jedoch schwierig auszuführen sein kann. Dieser Prozess erfordert ein hohes Volumen an schnell anfallenden und in der Regel unstrukturierten Daten. Die Back-End-Infrastruktur zur Bewältigung dieses Datenstroms ist ressourcenintensiv und erfordert Netzwerkbandbreite, Speicherplatz und Verarbeitungsleistung zur Unterstützung umfangreicher Datenbankimplementierungen. Und sie ist teuer.

Die zweite Methode ist schwieriger. Sobald man einen riesigen Datenhaufen hat, muss man daraus Erkenntnisse und Werte gewinnen. Die Technologien haben sich weiterentwickelt, um die Größe von Big Data zu bewältigen, aber es gab weniger Fortschritte bei der Frage, was aus diesen Informationsbergen abgeleitet werden kann.

Jetzt ist es an der Zeit, intelligenter zu werden. Selbst in Umgebungen mit unendlich viel Speicherplatz und der perfekten NoSQL-Bereitstellung sind alle Daten der Welt bedeutungslos, wenn Sie nicht die richtigen Modelle dafür haben.

Auch hier gibt es eine Chance. Unternehmen finden Anwendungsfälle, in denen weniger Daten aus mehr Quellen praktischer sind, und ziehen bessere Schlussfolgerungen und Korrelationen aus Datensätzen.

Klein und breit

Bei einem kleinen und breiten Ansatz wird eine größere Vielfalt von Quellen untersucht, nach Korrelationen gesucht und nicht nur die Rohdatenmenge erhöht. Bei diesem taktischeren Ansatz werden weniger Daten benötigt, was zu einem geringeren Bedarf an Rechenressourcen führt. Vielfalt ist das A und O. Ein kleiner und breiter Ansatz bedeutet, dass man nach verschiedenen Datenformaten, strukturierten und unstrukturierten, sucht und Verbindungen zwischen ihnen herstellt.

In einem Gartner-Bericht aus dem Jahr 2021 heißt es: "Potenzielle Bereiche, in denen kleine und große Daten genutzt werden können, sind die Nachfrageprognose im Einzelhandel, Echtzeit-Verhaltensdaten und emotionale Intelligenz im Kundenservice, die zur Hyper-Personalisierung eingesetzt werden, sowie die Verbesserung der Kundenerfahrung."

Das Potenzial ist groß, aber wie sieht das in der Praxis aus? Massive Datensätze können schnell unübersichtlich oder veraltet werden. Menschliche Trends und Verhaltensweisen können sich im Informationszeitalter ruckzuck ändern und sind anfällig für kulturelle und wirtschaftliche Veränderungen. Es gibt Raum für flexiblere Modelle mit kleineren Datensätzen, die sich dynamisch an diese Veränderungen anpassen können.

In einem Bericht der Harvard Business Review wird erklärt, dass "viele der wertvollsten Datensätze in Unternehmen recht klein sind: Denken Sie eher an Kilobytes oder Megabytes als an Exabytes. Da diese Daten nicht das Volumen und die Geschwindigkeit von Big Data haben, werden sie oft übersehen, schlummern in PCs und funktionalen Datenbanken und sind nicht mit unternehmensweiten IT-Innovationsinitiativen verbunden."

Der Bericht beschreibt ein Experiment, das sie mit medizinischen Kodierern durchgeführt haben und das die menschlichen Faktoren beim Training von KI mit kleinen Daten hervorhebt. Ich empfehle die Lektüre dieser Studie, aber die ultimative Schlussfolgerung war, dass zusätzlich zu kleinen Daten die Berücksichtigung des menschlichen Elements die Modelle verbessern und den Unternehmen einen Wettbewerbsvorteil im Big-Data-Wettrüsten verschaffen kann.

Mit anderen Worten: Wir sprechen hier von kleinen, großen und intelligenten Daten als einer erfolgreichen Kombination.

Ziehen von Schlussfolgerungen

Was bedeutet das alles? Über dieses Thema könnte man viele Bände schreiben und hat es auch schon getan, aber lassen Sie uns einen schnellen, ganzheitlichen Blick auf die Botschaft werfen, die wir mitnehmen können. Ich mag meinen PC, der stark und leistungsfähig genug ist, um als Heizquelle für mein Heimbüro zu dienen, aber es kommt eine Zeit, in der "mehr" eine Grenze hat. Eine Software kann schlecht optimiert sein und selbst auf der leistungsstärksten Workstation miserabel laufen.

In vielen Fällen ist es unpraktisch, mehr Ressourcen auf ein Problem zu verwenden und die wirklichen Probleme zu übersehen. Häufiger gibt es eine große Chance für Verbesserungen, und das ist etwas, was wir heute mit Big Data zu sehen beginnen. Es gibt immer noch Anwendungsfälle, in denen eine schiere Datenmenge wirklich notwendig ist, aber es ist auch wichtig, Modelle zu entwickeln, um die Daten optimal zu nutzen, und nicht nur Methoden zu entwickeln, um die meisten Daten zu haben.

Computing

Speicher

Datenbanken

Netzwerk

Entwicklertools

Bereitstellung

Sicherheit

Services

Branchen

Preise

Community

Treten Sie mit uns in engeren Kontakt

Berge von Daten: Groß vs. Klein und Weit

Vielleicht interessiert Sie auch ...

Kommentare

Kommentar abgeben Antwort abbrechen

Berge von Daten: Groß vs. Klein und Weit

Vielleicht interessiert Sie auch ...

Erste Schritte mit LLMs: Verwaltung der Datenerhebung

So beginnen Sie mit der Bereitstellung von Diensten auf globaler Ebene | HarperDB installieren und einrichten

Verteiltes Datenbank-Computing | Apache Cassandra läuft in mehreren Rechenzentren

Kommentare

Kommentar abgeben Antwort abbrechen

Melden Sie sich für den „In the Node“-Newsletter an.