Big Data ist der Schlüssel für Graph Technologien
Auf den jährlichen Fach-Konferenz in Stanford, Corunna, New York, etc. kommen immer mehr Datenwissenschaftler, Software-Ingenieure und auch Marketing-Vordenker der Big-Data-Analytik zusammen. Sie alle teilen eine echte Begeisterung für das Potenzial von Graphen und befeuern damit eine neue Welle der Innovation rund ums Data Driven Marketing. Die Graphentheorie ist dabei ein Teilgebiet der Mathematik und Informatik, das sich mit der Untersuchung von Mengen von Objekten befasst, die durch Beziehungen miteinander verbunden sind. Bevor man anfing, überall Netzwerke zu sehen, war die Graphentheorie unbekannt. Jetzt könnte sie der Schlüssel zur Lösung einiger der dringendsten Datenprobleme unserer Zeit sein:
- wachsende Datenmengen an strukturierten wie auch unstrukturierten Daten
- Vermischung mehrerer Datenquellen
- sich ständig weiterentwickelnde Datenstrukturen
All diese Tendenzen führen dazu, dass die heutigen Daten schwer zu speichern und zu analysieren sind. Die traditionellen SQL-ähnlichen Datenbanken waren auf Tabellen ausgerichtet. Obwohl sie immer noch sehr nützlich sind, können Tabellen in den meisten Bereichen die unstrukturierten Daten der realen Welt nicht erfassen. Diagramme hingegen sind eine sehr opportune Methode zur Darstellung der Realität. Es wird einfach davon ausgegangen, dass es Objekte oder Knoten gibt, die durch Beziehungen miteinander verbunden sind. Dieser Freiform-Ansatz für Daten ist für große und skalierende Datensätze deutlich besser geeignet.
Der wahre Wert von Graphen liegt aber darin, dass sie Einblicke ermöglichen, die mit anderen Ansätzen nur schwer zu gewinnen sind. Google hat sein Geschäft mit Hilfe der Graphentheorie aufgebaut, um die jeweilige Autorität verschiedener Webseiten zu bewerten. Der PageRank-Algorithmus bildete die Grundlage der Google-Suchmaschine und ermöglichte es dem Unternehmen aus Mountain View, bessere Ergebnisse als die Konkurrenz zu erzielen. Linkedin hat ein florierendes, datenzentriertes Geschäft rund um den so genannten "Wirtschaftsgraphen" aufgebaut. Das professionelle soziale Netzwerk ist ein riesiger Graph. Linkedin macht es zu Geld, indem es Personalvermittlern erlaubt, es anzuzapfen, um neue Mitarbeiter zu finden. Heute ist es Meta, das den Weg vorgibt, was mit Graphen erreicht werden kann. Das Metaverse wird komplett auf Graph Technologie basieren und in der Lage sein, jede Art von Dateninput zu verarbeiten. Wir haben es also keinesfalls mit einer neuen technologischen Modeerscheinung zu tun, denn es gibt einen tiefgreifenden Trend zur Gewinnung von Erkenntnissen aus komplexen und großen Datenbeständen. Insbesondere in der Großindustrie besteht dieser Bedarf zu Hebung neuer Wertschöpfungspotenziale. Es ist also durchaus an der Zeit, sich als Marketing Engineer mit einigen der führenden Anbieter für Graph Technologien vertraut zu machen. Janos Szendi-Varga, ein führender Graph Technology Berater bei GraphAware, nach eigenen Angaben „the world´s #1 neo4j consultancy“ hat sich einen Namen mit seiner Graph Technology Landscape gemacht, die recht umfassend die Subkategorien und Themenfelder zeigt, die sich in der Graph Technologie vereinen:
Grundsätzlich lässt sich die Graph Technology Landscape auf drei Kern-Subkategorien eingrenzen:
- Database & Infrastruktur
- Analytics
- Visualisierung
Datenbanken und Infrastruktur
Der Fokus der Landscape und damit der Graph Technologie liegt auf den Datenbanken. Dabei gibt es seit geraumer Zeit einen gemeinsamen Ansatz für Datenbanken, eine Art Graph-API für die Verarbeitung vernetzter Daten, den viele traditionelle Datenbankprodukte wie MS SQL Server, Oracle und IBM anbieten. Dazu kommen die Herausforderer wie Tibco und Cambridge Semantics mit seinem AnzoGraph. Graph-Datenbanken sind ein schnell wachsender Markt, was dafür sorgt, dass es immer wieder neue Kinder gibt, die auf den Markt kommen. Das gilt auch für Nebula Graph und TerminusDB. Cloud-Basierte Ansätze wie Neo4j Aura oder TigerGraph reüssieren immer mehr, so dass Neo Technology aktuell die wohl am weitesten verbreitete Graphdatenbank mit einer langen Liste von Kundenreferenzen und vielen Nutzern ist. Aber neben Neo4j gibt es noch einige andere Graph-Datenbankprojekte, die erwähnenswert sind. Sparsity Technologies und Objectivity sind als einzige Graph Datenbankmodelle mit IOS wie auch Android kompatibel und auf das rein kommerzielle Lizenzmodell von InfiniteGraph setzen eine Reihe notabler Großkonzerne. Dazu gibt es auch noch die Alternativen wie Accumulo, HBase oder Cassandra, um größere Graphen zu speichern.
Analytics
Bereits 2010 wurde in einem Papier das bei Google entwickelte Graphen-Verarbeitungssystem PREGEL beschrieben. Seitdem sind einige andere Lösungen aufgetaucht, die Entwicklern und Datenwissenschaftlern skalierbare Lösungen für die Analyse von Graphen bieten. Giraph, das Apache-Projekt, ist ein iteratives Graphen-Verarbeitungssystem, das auf hohe Skalierbarkeit ausgelegt ist. Eine weitere beliebte Open-Source Lösung für Graph Computing ist Graphx welches in Apache Spark integriert ist und recht intuitive bedienbar ist.
An der Schwelle zwischen Analytics und Visualisierung bietet Graphistry seine Dienste an und gehört derzeit zu den heißesten Anbietern, wenn es um ergebnisrelevante Anwendungen von Graph Neural Networks geht. Insbesondere Industrielle Knowledge Graphen mit hohen Datenbeständen nutzen Graphistry im Graph Tech Stack.
Visualisierung
Datenvisualisierungslösungen sollen die Erkundung von Graphen erleichtern und damit das Auffinden von irregular Patterns oder anderer unternehmenskritischer Sachverhalte. Entwickler, die auf der Suche nach einer Bibliothek zur Visualisierung von Graphen sind, haben mittlerweile eine Vielzahl von Optionen zur Auswahl: Sigma.js, VivaGraph.js oder Alchemy.js sind Open-Source-Bibliotheken, die speziell für die Visualisierung von Graphen entwickelt wurden. Cambridge Intelligence bietet mit Keylines eine fortschrittlichere Bibliothek an, für die eine kommerzielle Lizenz erhältlich ist. Tom Sawyer Software vertreibt eine Low Code Software für die Visualisierung und Analyse von Graphen, die insbesondere bei Graph basierten MarTech Stacks gern eingesetzt wird. Was wiederum nicht bedeutet, dass man ein semiprofessionelles Tool im Einsatz hat. Unter anderem die NASA wie auch Oracle verwenden diese Low Code Lösung , die dazu mit ActiveX, C++, Java und .NET kompatibel ist. Diese Liste könnte man beliebig weiterführen, wobei Gephi eine Schlüsselrolle bei der Entwicklung der ersten Bibliotheken zur Graph Visualisierung gespielt hat: Gephi ist eine Open-Source-Lösung, die eine Reihe leistungsstarker SNA-Algorithmen und Visualisierungsoptionen enthält. Sie wird von einer großen Gemeinschaft von Wissenschaftlern und Datenwissenschaftlern verwendet und wurde als "Photoshop für Graphen" bezeichnet. Die grundsätzliche Visualisierung von Graphen geht dabei weit über die Welt der Wissenschaftler hinaus. Lab41 hat Dendrite entwickelt, was dem US-Amerikanischen Militär helfen soll, Big Data zu analysieren, womit wir bei den Anwendungen wären, die solche Knowledge oder Data Graphen ausmachen. Die Landscape zeigt auch hier zahlreiche Anwendungen die deutlich machen, wie Graphen im Marketing helfen können, leistungsstarke Erkenntnisse aus Daten zu gewinnen. Natürlich ist es unmöglich, alle Anwendungen aufzulisten, die versuchen, die Graphen-Technologie zu nutzen. Allein im Neo4j-Startup-Programm gibt es über 2500 Anwendungen, und dies ist nur ein Segment dieses Marktes.
Erwähnenswert insbesondere für den Finanzsektor ist die Firma Sensa, die mit Symphony AI bzw. dem Vorgänger Ayasdi eine Graph Lösung für „criminal behavior discovery“ im Angebot hat, die auf 10 Jahren Forschung bei der DARPA (Defense Advanced Research Projects Agency), in Stanford und der NSF (National Sanitation Foundation) basiert. SymphonyAI nutzt eine topologische Datenanalyse, indem es die Korrelationen in großen Datenbeständen visualisiert um verborgene Erkenntnisse aufzudecken,.
Emicien wiederum nutzt Algorithmen zur Erstellung von Graphenmodellen, um Zusammenhänge zu erkennen, Kunden Abwanderungsraten zu verringern und den Customer Lifetime Value optimal auszuschöpfen. Mit Predictive Analytics und Selling von Emicien wird der MarTech-Maschinenraum zu MarTech Matrix mit nachhaltigem Wettbewerbsvorteil.
Last but not least wäre da dann noch Palantir, das geheimnisvolle Startup aus San Francisco, das mit US-Behörden zusammenarbeitet und nach Eigenaussage für einen großen Anteil am Erfolg der Afghanistan Mission „Enduring Freedom“ verantwortlich zeichnete. Die Graph-basierten Lösungen, welche von Venture-Investor Peter Thiel und Palantir CEO Alex Karp angeboten werden, sind mittlerweile in den Fortune 500 Unternehmen angekommen. Der einstige Börsenliebling, der mit seiner Reputation und geschickten „Mystery Story“ einst ein Rising Star und Unicorn unter den Start-Ups war, muss sich aktuell der Realität und dem damit verbundenen Wettbewerb stellen. Das wiederum hat auch Promi-Investor Frank Thelen schmerzhaft erfahren müssen, weil sein Investmentfond massiv auf Palantir gesetzt hatte. Was aber einst als „Secret Sauce“ der Business Intelligence galt, ist heute ein zugegeben anspruchsvoller aber dennoch verbreiteter Ansatz der mehrdimensionalen Datenanalyse. Palantir Gotham, das Vorzeigeprodukt für die öffentliche Hand von Palantir, verwandelt Daten "in sinnvoll definierte Objekte und Beziehungen und sagt damit zum Beispiel Kriminalitätsschwerpunkte zu bestimmten Zeiten voraus. Foundry, das abgeleitete Produkt für die Wirtschaft wiederum stellt Verbindungen zwischen Menschen, Orten, Angeboten und Kauf-Ereignisse dar, bzw. zieht daraus Schlüsse für strategische Marketingentscheidungen. Laut eigener Aussage von Palantir werden sogar die darauf basierenden Entscheidungen ins Quellsystem zurückgeschrieben, so dass die Datenbasis individualisiert im Wert gesteigert wird. Kehrseite der Medaille ist, dass es wie so oft bei Venture-Capital Lieblingen, ein Plattform Angebot ist, welches ein mehr oder weniger geschlossenes Betriebssystem beinhaltet. Wer also auf Palantir setzt, trifft meist eine folgenreiche Entscheidung für einen mittel- bis langfristigen Zeitraum. Das sollte gut überlegt sein und ist quasi die gleiche Gretchenfrage, die wir uns im Marketing Maschinenraum 1.0 immer wieder gestellt haben: Suite oder Best-of-Breed Lösung?
Warum sollte es bei Graph Neural Networks TechStacks anders sein?