Künstliche Intelligenz in der Marketing- und Sales-Technologie gehört nach wie vor zu den heißesten Topics für eine voranschreitende Automatisierung wiederkehrender Arbeitsprozesse. Bevor aber Maschinen tatsächlich autonom Marketingprozesse übernehmen können, müssen sie menschliche Dialoge erst einmal verstehen. Natural Language Processing ist deshalb ein vitaler Baustein für eine künstliche Intelligenz im Marketing Engineering.
Sprachen verstehen und sprechen ist hochkomplex.
Unsere Umgangssprachen haben sich über Jahrhunderte entwickelt. Es ging vor und zurück in der Menschheitsgeschichte und spätestens seit dem Turmbau zu Babbel gibt es eine unzählige Varianz an Umgangssprachen, die sich durch Gebrauch und Wiederholung statt geplanter strategischer Evolution weiterentwickelt haben. Englisch, Deutsch, Arabisch, Latein und Griechisch haben sich wie viele andere Sprachen natürlich entwickelt. Ganz im Gegensatz zu Computersprachen, welche formal aus einem klaren Zweck konstruiert wurden. HTLM, Java, Python und Co. gibt es, weil ein Programmierer damit einer Maschine beibringen wollte das zu berechnen, was er wollte. Damit eine Maschine allerdings autonom im Dialog mit vielen Menschen Prozesse übernehmen kann, muss sie in der Lage sein in einer Umgangssprache bzw. einer natürlichen Sprache zu kommunizieren oder sie zumindest verstehen. Diese Fähigkeit einer natürlichen Sprachverarbeitung nennt man Natural Language Processing (NLP) bzw. Natural Language Understanding (NLU). Dabei ist NLP ein Überbegriff, der alle Prozessschritte einer natürlichen Sprachverarbeitung umfasst. Also Sprache empfangen, verstehen und daraufhin verständlich antworten. Natural Language Understanding ist dabei nur ein Teilprozess, der sich ganz auf das Verstehen von Umgangssprache fokussiert, was wiederum eine Wissenschaft für sich ist. Ebenso wie Natural Language Generation, was sich auf das Artikulieren von Antworten konzentriert.
Fangen wir also vorne an – bei der Sprachverarbeitung.
Aus der Sicht des Computers ist jede natürliche Sprache ein Freiformtext. Das bedeutet, dass es keine festgelegten Schlüsselwörter an bestimmten Positionen gibt, wenn eine Eingabe gemacht wird. Damit wird solch eine Eingabe in einer Umgangssprache zu einer echten Herausforderung, denn der Computer weiß eben nicht zu unterschieden zwischen Füllwörtern, Höflichkeitsfloskeln und wirklich wichtigen Aussagen. Man spricht also von unstrukturierten Daten, von denen es in jedem Unternehmen eine Unzahl mehr als strukturierte Daten (meist Exceltabellen mit Messwerten) gibt. Wer es allerdings schafft, unstrukturierte Daten zu verstehen und zu verarbeiten, hat unzweifelhaft einen deutlich größeren und auf Sicht nachhaltigeren Wettbewerbsvorsprung. Was Alexa, Siri & Co an unbefriedigten Bedarfen und Kundenwünschen aus gesprochenen Dialogen in Haushalten herausfiltern könnte, ist ein bis heute unüberschaubar großes Konsumpotenzial, dem bis dato noch ein paar Hürden der DSGVO entgegen steht. Aber das Monetarisierungs-Potenzial eines skalierbar künstlichen Verständnisses kann die Welt des Marketings und Vertriebs in ungeahnte Sphären beamen. „Kann“ - wohlgemerkt, denn solch ein künstliches Sprachverständnis ist nicht nur komplex, sondern eben hochkomplex. Die folgenden drei Sätze zum Beispiel basieren alle auf der gleichen Fragestellung nach dem aktuellen Kontostand:
Ist noch genug Deckung auf meinem Konto?
Wie viele Abbuchungen kommen in den nächsten Tagen rein?
Muss ich meinen Kreditrahmen erhöhen, wenn ich heute shoppen gehen will?
Als Menschen können wir die inhaltlichen Ähnlichkeiten und hier die Fragen hinter den Fragen fast mühelos erkennen und entsprechend reagieren. Für Maschinen ist dies jedoch ein Problem, denn ein Algorithmus funktioniert nach dem IFTTT Prinzip (If this then that), was wiederum ein klar definiertes Eingabeformat voraussetzt. Die drei obigen Antworten unterscheiden sich aber strukturell wie auch im Format. Das heißt also in der Konsequenz für eine Algorithmus-basierte Maschine, dass man IFTTT Regeln für jede einzelne Wortkombination zum Thema „Wie ist mein aktueller Kontostand“ aufstellen bzw. coden müsste, damit die Maschine Menschen bei dieser einfachen Frage in Umgangssprache versteht. Bei einer einzelnen Frage ist das noch denkbar. Bei einem Kundendialog wird das schnell unmöglich, weil zu komplex und zu aufwendig. Hier fängt das Thema Natural Language Processing an, seine Stärken auszuspielen. Als Teilbereich einer künstlichen Intelligenz sorgt NLP dafür, dass Maschinen mit natürlichen Sprachen interagieren können. Inklusive der Verarbeitung großer Mengen an umgangssprachlichen Dialogen (unstrukturierten Daten) sowie daraus abgeleiteter Erkenntnisse und Informationen. Grundvoraussetzung einer solchen Verarbeitung ist wiederum die Vereinfachung der Eingaben, die man mittels Standardisierung von umgangssprachlich formulierten Texteingaben erreicht. Es gilt also, aus unstrukturierten Daten durch verschiedene Datenverarbeitungsprozesse zunächst strukturierte Daten zu machen. Das wiederum schafft man, in dem man natürliche Sprache in kleine Abschnitte und Phrasen zerteilt, die wiederum einfacher und eindeutiger interpretiert werden können. Ist eine Texteingabe erst einmal sinnvoll durch Syntaxanalyse, Entfernung von Füll- und Stop-Wörtern sowie mittels Tokenisierung und/oder Part-of-Speech (POS) Tagging strukturiert und kleinteilig zerlegt, können die oben erwähnten Algorithmen Beziehungen, Abhängigkeiten und Zusammenhänge analysieren, die wiederum zum kontextuellen Gesamtverständnis beitragen. Das Ergebnis sind also weiter-verarbeitbare, strukturierte Daten.
Das reine Verstehen unstrukturierter Daten in Form natürlicher Umgangssprache ist der Fokus des Natural Language Understandings. Einer der wichtigsten Zutaten im Natural Language Processing also. Dabei ist die Interpretation einer Aussage bzw. eines kleinteiligen Teilstücks eines Satzes abhängig von dessen Bedeutung im Gesamtkontext und den daraus abgeleiteten Einsichten. NLU-Prozesse basieren deshalb oft auf zuvor standardisierten und zerlegten Texten und schließen mit Name Entity Recognition (NER) sowie Semantik an. Am Beispiel der Frage nach dem Kontostand ist es also das Natural Language Understanding, das eine Maschine dazu befähigt auf alle drei gestellten Fragen die gleiche Antwort zur Frage hinter den Fragen zu geben. Denn verschiedene Sätze können das Gleiche bedeuten, und umgekehrt können dieselben Wörter je nach ihrer Verwendung unterschiedliche Dinge bedeuten. Ambiguität – die sprachliche Mehrdeutigkeit ist ein nicht zu unterschätzendes Problem für das Verstehen einer Aussage. Ohne Kontext kann das Wort „Band“ verschieden interpretiert werden: Ist ein Textilband, ein Klebeband oder gar ein Buch aus einer Reihe gemeint? Ist mit „Golf“ das Spiel oder gar die Automarke „Golf“ gemeint, die bestenfalls durch Name Entity Recognition (NER) erkannt wurde? Und ist eine Bank ein Geldinstitut oder eine Sitzgelegenheit? Die Antworten auf diese Fragen sind für eine künstliche Intelligenz echte Herausforderungen und werden mittels Word-Sense Disambiguation (WSD) Verfahren erleichtert. Nur Lena Meyer-Landruts Jubelausruf beim Eurovision Song Contest 2010 mit den Worten „Scheiße wie geil ist das denn“ überforderte dann selbst die fähigste NPU gnadenlos. Deutsche Sprache – schwere Sprache.
Der Kontext macht den Unterschied. Was auch die Differenzierung zwischen NLP und NLU ausmacht. NLP verarbeitet Texte eher wörtlich, wobei NLU versucht den Kontext und daraus die Absicht zu extrahieren.
Der Satz „Lass uns unterstellen, denn es regnet gleich“ kann wörtlich als Aufforderung in der NLP-Analyse gedeutet werden. NLU wiederum schließt daraus, dass sehr erfahrungsgemäß die Aktion eines „Regenschirm Öffnens“ auf den Satz erfolgt. Deswegen ist NLP zwar der Oberbegriff und vereint die Textverarbeitung unstrukturierter Sprache in Bezug auf Grammatik, Struktur, Tippfehler und Sichtweise, aber erst NLU hilft der Maschine, die Absicht hinter dem Text zu erkennen. Obwohl es also eine große Schnittmenge zwischen NLP und NLU gibt, liegt der Unterschied in der Erkenntnisstufe und die ist entscheidend. Denn auf dem Weg zur KI-gestützten Automation in Marketing und Vertrieb müssen wir nicht nur in der Lage sein, Eingaben in Form von natürlicher Sprache zu verarbeiten, sondern auch die Bedeutung und den Kontext zu verstehen - das ist der Wert von NLU und ermöglicht es einer Applikation auf Basis künstlicher Intelligenz, bei Interaktionen genauere und angemessenere Antworten zu geben. So, wie es die aktuellen Chatbots bereits können. Bei Chatbot-Applikationen wird die ganze Tragweite KI-gestützter MarTech im Kundenservice eindrucksvoll sichtbar. Wo früher noch Zahlenkombinationen und Adressen als regelbasierte Interaktionen eines Sprachroboters abgefragt wurden, kommen heute komplexe semantische Systeme zum Einsatz. Die Kombination aus NLP und NLU fängt da an, wo früher der Chatbot an einen Menschen übergeben hat, weil er die Antwort nicht in seiner zugewiesenen Bibliothek gefunden hat. Es geht also bei Chatbots darum, den Kontext eines Gesprächs zu erkennen, die Bedeutung des Gesprächs auf der Grundlage dieses Kontexts zu extrahieren und den Benutzer zum Thema der Unterhaltung zu führen. Insbesondere Online Shops und E-Commerce verlassen sich in hohem Maße auf das Sentiment einer Bewertung und eines Feedbacks. War eine Bewertung positiv, negativ oder neutral? Hier ist es entscheidend zu wissen, was gemeint war. Inbesondere, wenn Lena Meyer-Landrut zu den Kunden gehört ;-)
Besteht künstliche Intelligenz immer aus NLP, NLU und NLG?
Mitnichten. Zwar beruht ein großer Teil zukünftiger Maschine-Mensch Kommunikation auf NLP, NLU und NLG, aber künstliche Intelligenz kann auch dazu dienen, Bilder zu „verstehen“, statt nur Pixelabfolgen zu verarbeiten (siehe DALL E-2 von Open AI) oder auch die vielen weiteren unstrukturierten Daten der Welt für Anwendungen, Analysen und Antworten zu strukturieren. Beim markenmut chatbot (www.markenmut.de), der um ein recht einfach gehaltenes Interview zum Thema MarTech und Marketing Automation bittet, wird oftmals vom nachgefragt, wo denn dort die künstliche Intelligenz einschreite? Schließlich will dieser Chatbot neun Antworten auf neun feststehende Fragen. Dafür braucht man nicht mal einen Algorithmus, sondern lediglich ein Standard-Tabellenformat. Was die meisten der Interviewten übersehen, ist das Ergebnis des Interviews: Eine Landingpage mit den Antworten, einem kurzen Infotext zum Interviewten und einem Bild/Portrait des Interviewten, wobei der Chatbot nie nach einem Bild oder Upload gefragt hat. Und auch der Infotext über den Interviewten wird teils mit weiteren Infos angereichert dargestellt. Diese Datenanreicherung, die aus einem Datenmining und einem wiederum damit verbundenen kontextualen Verständnis über den Interviewten beruht, fällt wenigen auf – ist aber eine besonders komplexe Herausforderung für die dahinter autonom agierende künstliche Intelligenz. Spätestens, wenn der Interviewte kein Bild bei Linkedin oder sonstigen Social Plattformen hinterlegt hat und auch Google nichts Brauchbares ausspuckt, wird die automatisierte Aufgabe zur echten Detektivarbeit der KI. Das gleiche gilt für den Infotext, der zunächst verstanden werden muss, um dann abgeglichen mit weiteren Infos zur gleichen Person grammatikalisch und semantisch zu einem neuen Gesamttext generiert (NLG) wird. Selbst fake News finden so weitere Verbreitung, so wie die Kinderanzahl, die der markenmut Chatbot einem Interviewteilnehmer fälschlicherweise zugeordnet hat und der empörte Rückruf der Ehefrau die Agentur erreichte, ob man mehr als Sie von ihrem Mann wisse?
Künstliche Intelligenz ist intelligent, wenn sie menschliche Attitüden zeigt.
So, wie wir den oben beschrieben Fehler der Fake News Verarbeitung mit einem Lächeln quittieren, so entscheidend ist aber die Frage, was das für die künstliche Intelligenz und ihre Wahrnehmung bedeutet. Alan Turing hat im Jahr 1950 einen Test für die Beantwortung dieser Frage entwickelt. Ein Mensch fragt per Chat die gleichen Fragen an einen Computer und einen anderen Menschen: Ist der Fragende danach nicht in der Lage, eindeutig den Computer in den Reaktionen und Antworten zu identifizieren gilt der Computer als künstliche Intelligenz. Der sogenannte Turing Test ist zugegeben grobmaschig – aber effektiv und einfach zugleich. Fast siebzig Jahre später stellte Google sein System „Duplex“ vor: Eine KI, die per Anruf Termine beim Friseur macht und Tische im Restaurant reserviert. Dabei war das Ziel von Google, die Sprache der KI so natürlich wirken zu lassen, dass das Gegenüber nicht mehr erkennt, dass es sich beim Anrufer um eine Maschine handelt. Dazu wurden von der KI u. a. Denkpausen, absichtliche Ungenauigkeiten und Laute wie „aha“ und „hmm“ etc. eingefügt, wodurch die KI menschlich klingen soll. Kommentatoren empfanden das Ergebnis u. a. als erschreckend überzeugend, wobei diese Applikation sehr wahrscheinlich den Turing-Test nicht bestanden hätte. Sie war halt fokussiert auf diese eine Aufgabe und konnte kontextual den gesteckten Inhalte Rahmen nicht verlassen. Aber es zeigt den rasanten Fortschritt im Bereich der künstlichen Intelligenz und insbesondere bei NLP und NLU sowie im Google Beispiel im Bereich NLG, der Natural Language Generation als weiteren Unterteil des NLP. NLG-geschulte Maschinen sind nicht nur in der Lage, natürliche Sprache ähnlich wie ein Mensch zu verarbeiten, sondern auch neue Texte in natürlicher Sprache so zu generieren, als ob sie von einem Menschen geschrieben oder gar gesprochen worden wären.
All dies hat sowohl bei der kommerziellen Einführung als auch in der Wissenschaft großes Interesse geweckt und macht NLP heute zu einem der aktivsten Forschungsthemen im Bereich der KI. Schließlich sind Chatbots überall und ein leuchtendes Beispiel ist in Deutschland die Ergo Versicherung, die ihre Kundendialoge weitgehend automatisiert haben, ohne dadurch auch nur einen Kunden zu verärgern oder gar zu verlieren. Im Gegenteil: Kunden schätzen die effiziente Art, schnell zum gewünschten Gesprächsziel zu kommen.
Aus unstrukturierten Daten, strukturiertes Wissen gewinnen.
Die Mehrheit der Schätzungen geht davon aus, dass nur ca. 20% aller erfasster Daten strukturiert sind. Die restlichen 80 % sind unstrukturierte Daten und wiederum ein Großteil davon sind unstrukturierte Textdaten, die für herkömmliche Data Mining und Analytics Methoden unbrauchbar sind. Allein die ganzen Texte, die täglich per Social Post im Web konsumiert werden: Social Media Posts von Freunden, Nachrichten, Landingpages von Produkten und Marken, Rechercheergebnisse und vieles mehr. Natural Language Processing und Natural Language Understanding werden früher oder später dafür sorgen, dass dieser riesige Haufen unstrukturierter Daten verarbeitet werden kann, um aus den Daten Erkenntnisse zu gewinnen, die das menschliche Auge nicht sofort erkennen würde. das dazugehörige Stichwort heißt „Irregular Pattern“ und spielt dann den entscheidenden Steilpass von NLP über die Ontologie hin zur Intelligenz eines Graph Neural Networks, wie wir es in den kommenden Kapiteln beschreiben. Denn Maschinen sind bereits jetzt in der Lage, Muster in Zahlen und Statistiken zu erkennen, Feinheiten wie Sarkasmus und Ironie aufzuspüren oder den wahren Zweck eines Textes oder einer Rede zu verstehen. NLP, NLU und NLG sind dabei tragende Säulen im Räderwerk einer künstlichen Intelligenz, die uns hilft, enormen Datenmengen zu verarbeiten und zu nutzen.