Chatbots und Sprachdienste: Einführung und Ausblick!

6 min readMar 12, 2020

Computer durchdringen zunehmend unseren Alltag (Ubiquitous Computing) und sind — dank Miniaturisierung und verbesserter Leistungsfähigkeit — immer seltener als eigenständige Geräte zu erkennen (Pervasive Computing). Insbesondere die zunehmende Vernetzung (Internet der Dinge, kurz IoT) und bildschirmlose Geräte (Headless Devices) erfordern je nach Kontext neue und effiziente Darstellungs- und Interaktionsformen.

SEMMI (Sozio-Empathische Mensch-Maschine-Interaktion). — SEMMI (Sozio-Empathische Mensch-Maschine-Interaktion), Deutsche Bahn AG

Aktuell nutzen wir zur Interaktion überwiegend unnatürliche Hilfsmittel wie Maus und Tastatur, um uns durch mehr oder weniger komplexe Anwendungen zu navigieren. Dies erschwert es dem Anwender, seine Absichten zu formulieren und die Ergebnisse zu interpretieren. Conversational AI (konversationelle KI), also Sprachverarbeitung in Kombination mit künstlicher Intelligenz, verspricht, die Kluft zwischen Mensch und Maschine zu verringern. Je nach Anwendungsfall unter Berücksichtigung weiterer Sinne und Ausdrucksformen wie z. B. Gestensteuerung — ganz natürlich, so wie wir auch im Alltag miteinander interagieren würden.

Amazon Alexa, Apple Siri, Google Assistant, Microsoft Cortana und Samsung Bixby sind nur einige populäre Beispiele für virtuelle Assistenten, die den Alltag auf Basis von Conversational AI bereits jetzt vereinfachen: Der Nutzer sagt, was er will und der virtuelle Assistent oder Bot liefert unmittelbar ein Ergebnis — ganz ohne zeitaufwendiges Suchen oder das mühsame Erlernen von spezifischen Begriffen und Bedienkonzepten. Doch wie funktioniert das eigentlich und was können wir für die Zukunft erwarten?

Funktionsweise

Sprache ist eine vom Menschen vermutlich vor mehr als 40.000 Jahren erlernte Fähigkeit, die bereits von frühester Kindheit an meist instinktiv verwendet wird. In Textform verarbeiten Computer Sprache bereits seit der Mitte des 20. Jahrhunderts; ein populäres Beispiel ist der virtuelle Psychotherapeut Eliza von Joseph Weizenbaum. Eliza verwendet eine Vielzahl von Mustern und Regeln, um Nutzereingaben zu „verstehen“ und passende Antworten zu liefern.

Anstelle von unzähligen Regeln werden Beispiele vorgegeben, anhand derer der Computer die Regeln zum Verstehen von natürlicher Sprache selbständig generiert.

Selbst tausende von Regeln reichen jedoch für ein wirkliches Sprachverständnis nicht aus. Hier hilft künstliche Intelligenz in Form von maschinellem Lernen (Machine Learning, kurz ML). Anstelle von unzähligen Regeln werden nur noch Beispiele erstellt, anhand derer der Computer dann ein Modell zum Verstehen von natürlicher Sprache (Natural Language Understanding, kurz NLU) trainiert. Dieses Modell verarbeitet in der Regel auch ähnliche Formulierungen und Synonyme, wodurch sich das Verstehen weiter verbessert.

Verstehen von natürlicher Sprache. — Funktionsweise von Conversational AI.

Die durch ein Modell erkannten Absichten (Intents) des Nutzers sind die Grundlage für die vom Computer generierten Antworten (Natural Language Generation, kurz NLG). Je nach Anwendungsfall geht das weit über einfach Kommandos à la „Wie ist das Wetter?“ hinaus und umfasst auch längere Gespräche, bei denen ein virtueller Assistent bzw. ein Bot den Anwender durch Dialoge führt, die zur Automatisierung von Prozessen oder zur Klärung komplexer Sachverhalte dienen.

Sowohl die Dialogführung als auch die Antworten basieren bei aktuellen Lösungen meist auf einer Kombination aus Programmierung, Redaktion und Conversation Design. Dies ist eine komplexe Aufgabe, da es in der Natur eines natürlichen Gespräches liegt, dass es nicht vollständig vorhersehbar ist. Und ein zu stark geführter Dialog erscheint wiederum unnatürlich restriktiv und verspielt viel von den Vorteilen der Conversational AI. Und die automatische Generierung der Antworten durch eine künstliche Intelligenz steckt noch in den Kinderschuhen und erfordert aufgrund der unzureichenden Ergebnisse üblicherweise einen menschlichen Aufseher.

Die Verarbeitung von Sprache beschränkt sich schon längst nicht mehr auf geschriebenen Text. Mittlerweile ist die Qualität der Verschriftlichung von gesprochenem Text (Transkription oder „Speech To Text“, kurz STT) durch den Computer sogar besser als durch den Menschen. Bei der Sprachausgabe hat sich ebenfalls viel getan, so dass neuere Stimmen kaum noch von echten Menschen zu unterscheiden sind (Sprachsynthese oder „Text To Speech“, kurz TTS). In beiden Fällen kommt zunehmend künstliche Intelligenz zum Einsatz. Hier sind die Anbieter im Vorteil, die über umfangreiche Daten zum Trainieren verfügen — wie z. B. Google mit der sprachbasierten Suche „Voice Search“, die bereits jetzt für 20% der Suchanfragen verantwortlich ist.

Akzeptanz

Bildschirme ohne Touch-Bedienung erscheinen defekt, da wir mittlerweile die Interaktion durch Berührung erlernt haben und als selbstverständlich erachten: Es gibt unzählige Beispiele von Kindern, die klassische Fotos mit Fingergesten zu skalieren versuchten; selbst im Aquarium sind Besucher gesehen worden, welche die Fische mit ihren Fingern größer ziehen wollten. Analog dazu verfügen immer mehr Anwender über Sprachassistenten und haben dementsprechend die Erwartungshaltung, dass Geräte auf Sprachbefehle reagieren sollten.

Aktuell überwiegen im Consumer-Bereich virtuelle Assistenten wie Amazon Alexa oder der Google Assistant, die — meist Raum-basiert oder auf einem Mobiltelefon installiert — eine Vielzahl an Anwendungsfällen indirekt über sogenannte Skills bzw. Actions steuern. Daneben gibt es noch spezifische Conversational-AI-Lösungen für konkrete Anwendungsfälle bei denen direkt mit einem Gerät oder Dienst kommuniziert wird — beispielsweise Chatbots, die Sprachsteuerung in einem Fahrzeug oder Spielzeuge wie Hello Barbie.

Komfort, Nutzen und Qualität sind wichtig für die Akzeptanz.

69 Prozent der Millennials sagen, dass sie ein Problem lieber ohne den direkten Kontakt mit einem Menschen lösen möchten. Dem gegenüber wollen laut einer Studie von Bitkom Research 63 Prozent der Nutzer nicht mit Maschinen kommunizieren, da sie deren Zuverlässigkeit anzweifeln. Dies zeigt, wie wichtig neben dem Komfort der Nutzen und die Qualität für die Akzeptanz sind. Auch sind Anwender zunehmend nicht mehr bereit, zwischen unterschiedlichen Kanälen wie beispielsweise dem favorisierten Messenger und einem Webbrowser zu wechseln, geschweigen denn unterschiedliche Apps dafür zu nutzen (Anwender nutzen 77% ihrer Zeit nur drei Anwendungen). Und wer auf dem vom Anwender präferierten Kanal nicht verfügbar ist, der wird letztendlich vom Anwender auch nicht gefunden. Gartner erwartet auch deshalb, dass über die Hälfte der Unternehmen bereits ab 2021 mehr in Bots als in mobile Applikationen investieren werden.

Anwendung

Für spezifische Anwendungsfälle mit einem eingeschränkten Kontext ist Conversational AI schon heute überzeugend — ausreichend Daten zum Trainieren der notwendigen künstlichen Intelligenz vorausgesetzt. Dazu zählen beispielsweise:

Großstörungen im Bahn- und Flugverkehr (z. B. durch ein Unwetter),
optimierte Schadensmeldungen (siehe Wagenmeister),
automatisierte Übersetzer bei länderübergreifender Kommunikation (beispielsweise das DB Systel KI Translation Tool, kurz KITT) und
digitale Concierges (siehe SEMMI).

Von einem alltäglichen Gespräch wie es Menschen führen sind wir aber trotz Google Duplex weit entfernt. Noch hat kein Bot den Vergleich mit einem Menschen bestanden (siehe Turing-Test) — Google kündigte aber Ende Januar 2020 mit Meena ein Konversations-Modell an, dass einem natürlichen Gespräch bis auf knapp 7% im Vergleich mit einem Menschen schon sehr nahe zu kommen scheint.

Es geht nicht darum, den Menschen zu ersetzen. Es geht vielmehr darum, ihn zu unterstützen, zu entlasten und seine Fähigkeiten auf kooperative Weise zu erweitern.

Doch ist die dafür erforderliche starke künstliche Intelligenz überhaupt gewollt? Wollen wir den neurotischen HAL aus „2001: Odyssee im Weltraum“, das kriegerische Skynet aus Terminator oder den philosophischen Bombe 20 aus dem Film Darkstar? Amazon Alexa orientiert sich laut Firmengründer Jeff Bezos eher am kooperativ assistierenden Bordcomputer von Star Trek. Denn die besten Ergebnisse erzielen sprachbasierte Anwendungen dann, wenn sie den Menschen unterstützen, ihn entlasten oder seine Fähigkeiten erweitern (Augmented Intelligence). Schließlich sind Menschen in Dingen wie Empathie und Kreativität dem Computer deutlich überlegen, Computer hingegen können schnell große Datenmengen durchsuchen und Berechnungen durchführen. In manchen Fällen übernimmt auch heute schon ein virtueller Agent nur Teile der Konversationen im Zusammenspiel mit einem menschlichen Agenten.

Ausblick

In Zukunft werden Conversational-AI-Lösungen über Allgemeinwissen verfügen, den aktuellen Kontext berücksichtigen und unsere Gesten, unseren Gesichtsausdruck und unsere Emotionen erkennen. Dies führt zu besseren Ergebnissen im Verstehen der Nutzerabsichten. Außerdem werden Bots bei ausreichender Datenlage ähnlich einem umsichtigen Freund oder einer vorausschauenden Team-Assistenz erfolgreich Schlussfolgern und Antizipieren: Beispielsweise gibt es von Amazon noch die Alexa Hunches (engl. für Ahnungen); wenn Sie z. B. „Gute Nacht“ sagen, bietet Alexa an, eingeschaltete Leuchten auszuschalten. Dies erlaubt komplexere Anwendungsfälle, bei denen Mensch und Maschine eng zusammenarbeiten, um letztendlich den Menschen zu entlasten.

Der Mensch darf sich endlich auf das konzentrieren, was er am besten kann und „unmenschliche“ Aufgaben von einer „Conversational AI“ erledigen lassen. Komplexe Reisebuchungen übernimmt ein Assistent dann ganz genauso selbstverständlich, wie zahlreiche alltägliche Aufgaben bei der Arbeit.

Interesse

Es gibt zahlreiche Plattformen, um erste Erfahrungen zu sammeln und den ersten Bot umzusetzen. Beispielsweise Cognigy eignet sich dafür (es gibt eine kostenlose Community Edition). Aber auch Google (Dialogflow), Alexa (Alexa Skills Kit), Microsoft (Botframework und LUIS) und IBM (Watson Assistant) verfügen über einfach zu erlernende Werkzeuge. Doch wenn die richtige Idee fehlt oder der Anwendungsfall komplexer wird, dann ist wichtig, nicht nur das Tooling zu betrachten. Es ist ebenfalls essentiell, einen erfahrenden Partner zu haben, der über die zahlreichen dafür notwendigen Kompetenzen von Sprache bis Technik verfügt: Bei der DB Systel kombinieren wir diese Aspekte in Form einer internen Plattform, als beratender und umsetzender Dienstleister rund um Chatbots und Sprachdienste (inkl. Mehrsprachigkeit) und auch als Lösungsanbieter wie bei SEMMI. Bei Interesse an unseren Leistungen stehe ich für Fragen gerne zur Verfügung; natürlich auch für engagierte Bewerber, die das mitgestalten möchten…