
Autor: Martin Schröder
Natürlichsprachliche Voicebots statt menübasierter IVR-Systeme – das ist der Trend. Damit der menschlich wirkende Voicebot erfolgreich ist, müssen Sie jedoch zunächst einige Hürden über-winden: Fünf Herausforderungen kommen dabei auf Sie zu. Erfahren Sie hier, welche das sind und wie Sie diese meistern.
Aber was ist ein Voicebot eigentlich? Rufen wir bei einer Hotline an, sind wir schon lange nicht mehr überrascht, wenn wir zunächst mit einem „sprechenden Roboter“ reden. Herkömmliche Voice Portale führen uns dabei durch ein Menü:
„Haben Sie Fragen zu Ihrer Rechnung?
Dann sagen Sie ‚Rechnung‘. Möchten Sie ein Angebot? Dann sagen Sie ‚Angebot‘...“
Eine natürliche Art der Kommunikation ist das nicht. Der moderne Voicebot verfolgt daher einen ande-ren Ansatz, indem er eine offene Frage stellt:
„Wie kann ich Ihnen helfen?“
Bei herkömmlichen menübasierten IVR-Systemen sind die Anrufer gefragt: Sie müssen ihr Anliegen in die richtige „Schublade“ - also in die passende Organisationseinheit des Unternehmens – einordnen. Aus der Aufzählung des IVR-Systems wählen sie dabei das naheliegendste Schlagwort aus. Das kann eine Geduldsprobe sein, und wenn kein Schlüsselwort zutrifft, ist Ärger vorprogrammiert. Kein guter Start für die Kommunikation mit einem Service Center.
Ein moderner Voicebot geht anders vor: Er übernimmt die Aufgabe für die Anrufer, das Anliegen in die passende Organisationseinheit einzuordnen und öffnet ihnen die richtige Tür.
Dabei ist der Voicebot rundum gefordert: Er muss mit der enormen Vielfalt, die die menschliche Sprache bietet, zurechtkommen und Äußerungen mit mannigfaltiger Wortwahl auf eine große Anzahl von Organisationseinheiten abbilden. Wie geht er dabei vor?
Eine Maschine „denkt“ anders als das menschliche Gehirn. Während der Mensch gleichzeitig hört, versteht und zuordnet, geht die Künstliche Intelligenz Schritt für Schritt vor:
Die Spracherkennung: Vom Sprachsignal zum Wort
Der Bereich Spracherkennung hat in den letzten Jahren einen gewaltigen Fort-schritt erzielt – zum einen durch die um ein Vielfaches gestiegene Menge der Trainingsdaten, zum anderen auch durch neue Erkenntnisse im Bereich der neu-ronalen Netzwerke und im Training von akustischen Modellen. Dadurch sind Erkenner heute in der Lage frei gesprochenen Text zu erkennen und zu verschriften:
„Ich möchte eine Pizza mit Schinken, Salami und Knoblauch.
Wann können Sie die denn liefern?“
Diese Äußerung verarbeitet heute auch ein Erkenner, der weder vortrainiert noch auf spezielle The-menbereiche eingeschränkt wurde. Noch vor wenigen Jahren wäre die Sprachtechnologie überfordert gewesen: Der Erkenner hätte versucht, die Aussage, die er thematisch nicht kennt, auf den Kontext abzubilden, indem er sich gerade befindet – mit einem unverständlichen oder gar lustigen Ergebnis.
Zwar muss der Erkenner zumeist noch auf Produktnamen oder unternehmensspezifische Begrifflich-keiten erweitert werden, aber im Großen und Ganzen stellt eine offene Frage für den Bereich Sprach-erkennung heute keine große Herausforderung mehr dar. Doch auch wenn der Erkenner eine Pizzabestellung heute problemlos „out of the box“ erkennt, bedeu-tet das nicht, dass er sie auch „versteht“ - und kann demnach auch nicht darauf reagieren. Sehen wir uns dazu den Bereich „Verstehenskomponente“ genauer an:
Die Verstehenskomponente: Vom Wort zur Bedeutung
Ein Computer versteht nicht wie ein Mensch, sondern filtert aus der reinen Textkette, die die Spracherkennung liefert, die wichtigen Informationen heraus, um den „Intent“ - das Anliegen der Anrufer - zu verstehen.
Werfen wir dazu einen Blick auf einen typischen Anruf – eine Mietvertragsände-rung – um die „Denkweise“ der Maschine besser zu verstehen:
„Ich habe einen Wagen bei Ihnen gemietet, und zwar mit dem Kennzeichen
„München Anton Dora 1735“. Ich stehe jetzt leider im Stau und deswegen kann ich den Wagen erst zwei Stunden später bei Ihnen in Erlangen abgeben.“
Ziel des Systems ist es, die Felder der linken Seite - Topic, Subtopic, Kennzeichen, Zeitpunkt und Abgabeort - entsprechend zu füllen. Dafür filtert es die passenden Informationen aus der Äußerung heraus:
- Topic:
Aus der Äußerung „Ich habe einen Wagen gemietet“ schließt das System, dass es um einen Mietvertrag geht. Kombiniert das System noch die Aussage „später abgeben“ hinzu, kann es das Topic noch weiter eingrenzen: Es handelt sich um eine Mietvertragsänderung. - Auch das nächste Feld „Subtopic“ ist damit klar – es geht um den Abgabezeitpunkt.
- Kennzeichen:
Durch das Kennzeichen kann das System den Anrufer identifizieren und den entsprechenden Mietvertrag zuweisen. - Zeitpunkt:
Das System weiß aus dem Mietvertrag, dass 17.00 Uhr geplant war. Durch die Information „zwei Stunden später“ errechnet das System den neuen Zeitpunkt. - Abgabeort:
Der Abgabeort ergibt sich aus dem Vertrag, zusätzlich erwähnt der Anrufer den Ort auch noch einmal.
Das Beispiel der Mietvertragsänderung veranschaulicht den regelbasierten Ansatz zum Verstehen des Anliegens. Klare Regeln zu formulieren nimmt viel Zeit in Anspruch und ist die aufwändigste Kompo-nente eines Voicebot-Projekts.
Während im regelbasierten Ansatz „echte Handarbeit“ steckt, verfolgen automatisierende Ansätze das Verstehen durch Künstliche Intelligenz, nämlich durch das maschinelle Lernen. Aus einer großen Men-ge an von Mitarbeitern bearbeiteten Anrufen erlernt das System einen Algorithmus, aus dem es Hand-lungsschritte ableiten kann. Dieser Ansatz wird von semantischen Analysen unterstützt, die den Auf-bau einer Äußerung näher untersuchen: Was ist das Subjekt? Was das Prädikat und das Objekt?
In der Zukunft wird es größtenteils hybride Lösungen geben, da beide Verfahren Vor- und Nachteile besitzen. Der regelbasierte Ansatz ist aufwändig, das maschinelle Lernen besticht – sofern es gut trainiert ist – durch seine Robustheit und Flexibilität, kann dafür aber nicht auf aktuelle Entwicklungen und Änderungen reagieren. Es ist stets rückwärtsgewandt, da es aus Beispielen aus der Vergangen-heit lernt. Um das beste Ergebnis zu erzielen, ist daher eine Kombination aus beiden Ansätzen die beste Wahl.
Der agile Voicebot: Ein stets aktueller Selbstoptimierer
Gekauft. Installiert. Eingerichtet. Und fertig? Sprachdialogsysteme veralten schnell, wenn Sie sie als statische Softwarelösung betrachten. Das Anpassen des Voicebots an laufende Änderungen und neue Entwicklungen ist unerlässlich und führt dazu, dass er ständig aktualisiert und überarbeitet werden muss.
Dass Empfangsmitarbeiter in den Informationsfluss des Unternehmens einbezogen werden, ist selbstverständlich: Welche organisatorischen Änderungen gibt es? Wurden neue Produkte eingeführt? Gibt es neue Mitarbeiter?
Die Empfangsmitarbeiter sind eine der wichtigsten Schnittstellen zwischen Kunden und Unternehmen und müssen daher ständig auf dem Laufenden gehalten werden. Genauso verhält es sich auch bei einem Voicebot, der wie die Mitarbeiter ständig informiert und geschult werden muss.
Und machen Mitarbeiter einmal Fehler, werden Sie darauf hingewiesen, um aus ihren Fehlern zu lernen. Genauso sollte auch ein Voicebot stetig dazulernen: Er trifft eine Entscheidung nach bestem „Algo-rithmuswissen“, kann aber selbst nicht feststellen, ob sie richtig war. Vermittelt der Voicebot Anrufe an Mitarbeiter, sollten diese im Anschluss Feedback geben: War der Anruf bei ihnen an der richtigen Stelle? Bearbeitet der Voicebot den Anruf selbständig, sollte er die Anrufer im Anschluss fragen, ob er ihnen weiterhelfen konnte. Oder die Mitarbeiter analysieren im Nachhinein die Sprachaufzeichnungen und untersuchen sie auf Optimierungspotential. Das Feedback bildet dann die Grundlage, um den Voicebot zu optimieren.
Ein erfolgreicher Voicebot muss Vorher-Nachher-Vergleiche anbieten, um die vorgenommenen Aktua-lisierungen und Optimierungen zu überprüfen. Daraus ergibt sich eine Optimierungsschleife aus Analyse, Anpassung, Messen und Umsetzung. Eine „agile IVR“ ist notwendig – denn Agilität darf auch vor Voicebots nicht halt machen.
Die fünf Herausforderungen, die auf Sie zukommen
Was sind nun also die fünf Voraussetzungen, die einen Voicebot erfolgreich machen?
1. Grenzen Sie das Einsatzgebiet ein
Es wird Ihnen nicht gelingen, das gesamte Weltwissen in einen VoiceBot zu integrieren. Je klarer die Themen abgegrenzt sind, desto besser. Die offene Frage - „Wie kann ich Ihnen helfen?“ - ist dazu da, die Standardanfragen abzufangen und zu bearbeiten - für kompliziertere Anliegen muss der Voicebot aber an einen Mitarbeiter weiterleiten können.
2. Setzen Sie auf eine leistungsfähige Spracherkennung
Was der Voicebot nicht erkennt, kann er auch nicht verstehen. Eine leistungsfähige Spracherkennung bildet das Fundament für den erfolgreichen Einsatz eines Voicebots.
3. Stellen Sie Ihr Unternehmenswissen und erfahrene Mitarbeiter bereit
Jedes Unternehmen ist einzigartig – und genauso einmalig wird auch sein Voicebot sein. Eine Lösung „out of the box“ gibt es nicht. Daher sind die Fachbereiche gefragt: Erfahrene Mitarbeiter und die Technologieanbieter sollten eng zusammenarbeiten. Treffen sich tiefes Unternehmenswissen und leis-tungsfähige Technologie, steht dem erfolgreichen Voicebot nichts mehr im Wege.
4. Sie brauchen Werkzeuge, die Aktualisierungen und Anpassungen unterstützt
Ein effizienter Voicebot braucht nicht nur Technologie für gute Dialoge, sondern auch Analyse-Werkzeuge, die die Qualität der Kommunikation überprüfen: Wie haben sich die Kunden im Telefonat verhalten? Gab es Schwierigkeiten?
Die Technologie muss sicherstellen, dass Änderungen einfach und fehlerfrei durchzuführen sind und die Wirksamkeit der Anpassungen messbar wird. Ein regelmäßiger Zyklus sorgt für die Erfolgskon-trolle – und aktualisiert und verbessert den Voicebot ständig.
5. Planen Sie personelle und finanzielle Ressourcen ein
Möchten Sie einen Voicebot einsetzen, sollten Sie nicht nur das Startbudget im Auge haben. Ein Voicebot ist kein fertiges Produkt, sondern ein Prozess, in den Sie regelmäßig Zeit und Geld investie-ren sollten. Erfahrene Mitarbeiter, die dem Technologieanbieter als Ansprechpartner zur Verfügung stehen, sind dabei entscheidend.
Fazit
Beachten Sie die fünf Herausforderungen, dann erschaffen Sie einen Voicebot, der Ihre Kunden mit intuitiven Dialogen überzeugt. Und falls der Voicebot in der Lage ist, standardisierte Anfragen fallab-schließend zu bearbeiten, zahlt sich dies gleich mehrfach aus: Der Kunde wird schneller bedient und die Mitarbeiter können sich komplexeren Fragestellungen widmen.
Dr. Martin Schröder
Nach Studium der Betriebswirtschaftslehre und Promotion im Bereich Wirtschaftsinformatik und 4 Jahren SAP-Beratung ist Martin Schröder seit 2001 im Bereich IVR tätig. Seit 2003 ist er als Geschäftsführer der Sympalog Voice Solutions an zahlreichen Implementierungen beteiligt und verfügt über ein umfangreiches Wissen über den erfolgreichen Einsatz von Sprachautomatisierungslösungen.