🇩🇪  Wut? Ärger? Gleichgültigkeit? Der Gemütszustand des Kunden kann über den Verlauf eines Kundengesprächs entscheiden. Gut also, wenn sein Gegenüber diesen einschätzen kann. Wir Menschen tun dies meist intuitiv. Doch wie bringt man einer Maschine bei, Emotionen zu erkennen?

Martin Bäumler ist beim eLIZA-Projekt der Deutschen Telekom für dieses Thema zuständig. Ziel ist es, aus unterschiedlichen Eingaben des Nutzers eine Emotion abzulesen und zu erkennen, um für ihn bessere Ergebnisse zu erzielen – ganz gleich ob bei einer Suchanfrage oder im Kontakt mit dem Kundenservice. Noch geht es nur um den geschrieben Text, aber demnächst wird das Team rund um Bäumler auch die Emotionen aus gesprochenen Worten herausfiltern.

Was genau ist Emotionserkennung?

Informationen werden durch das vermittelt, was gesagt wird, aber eben auch dadurch, auf welche Weise etwas gesagt wird. Emotionen sind wichtiger Bestandteil bei dieser komplexen Übermittlung. Computersysteme zur automatischen Spracherkennung können bislang aber nur den expliziten Sinninhalt verstehen. Wir arbeiten daran, die gesamte Information zu verwerten, die das gesprochene oder geschriebene Wort transportiert. Unser Ziel ist es, dem Kunden ein noch besseres Erlebnis, noch besseren Service anzubieten.

In welchem Verhältnis stehen Spracherkennung und Emotionserkennung zueinander, um das Anliegen des Kunden optimal zu verstehen?

Die Spracherkennung kann ohne die Emotionserkennung leben, die Emotionserkennung aber nicht ohne die Spracherkennung. Die Spracherkennung ist der treibende Punkt in Allem. Um das Problem des Kunden möglichst gut zu verstehen, brauche ich erst einmal eine Spracherkennung, da reicht die Emotionserkennung nicht aus. Denn wenn der Kunde nur weint am Telefon, dann ist das zwar eine klare Emotionsbekundung, aber es bringt uns nicht weiter, sein Problem zu erkennen. Daher steht die Spracherkennung an erster Stelle. Die Emotionserkennung gibt quasi nur noch einen Drift in Richtung der Lösung.

Für welche Zwecke könnte die Erkennung eingesetzt werden außer für Tinka?

Im Chat mit den menschlichen Agenten eingesetzt, können wir ihnen einen Indikator geben, in welchem emotionalen Zustand der Kunde ist. Dann könnte der Callcenter Agent einen anderen Gesprächsleitfaden auf den Bildschirm bekommen oder das Gespräch wird an den Kollegen für die harten Fälle weitergeleitet, der ein Talent zur Deeskalation hat.

Wie funktioniert Emotionsanalyse? Wie wissen Sie beispielsweise, dass ich heute gut gelaunt bin?

In der Stimme gibt es mehrere Faktoren, die wir analysieren können: Lautstärke, Modulation, Tonhöhe und weitere minimale, fast unhörbare Merkmale. Im Text ist es ein bisschen schwieriger. Hier müssen wir uns sehr genau den Inhalt anschauen. Eine Möglichkeit sind Smileys, die der Kunde mit eingibt. Satzbau, Großbuchstaben, Inhalt, Wortwahl, auch Grammatik und Struktur sind Faktoren, die Auskunft geben über den emotionalen Zustand eines Users. Das Interessante: Je länger der Dialog, desto präziser wird die Analyse.

Nutzen Sie Informationen ĂĽber den User ebenfalls zur Analyse, zum Beispiel ob er in einer so genannten guten Wohngegend wohnt?

Es obliegt uns nicht zu bewerten, ob gewisse Wohngebiete besser oder schlechter sind. Wir werden auf gar keinen Fall ein Nutzerprofil anlegen, in dem derartige persönliche Informationen hinterlegt sind. Der Datenschutz steht bei uns über Allem. Wenn der Kunde eingeloggt ist, können wir ihn zwar eindeutig identifizieren und kennen auch seine Adresse. Aber es geht in erster Linie darum, Kundenanliegen möglichst effizient und schnell zu lösen und dabei spielt es keine Rolle, woher er kommt. Bei uns sind alle Kunden gleich. Und jeder Kunde hat bei uns den Anspruch auf den bestmöglichen Service, völlig egal, ob er Prepaid- oder Premium-Kunde ist.

Wie bewerten Sie interkulturelle Unterschiede in diesem Zusammenhang? Sie erwähnten als einen Faktor die Lautstärke. Ich würde wagen zu behaupten, dass ein Südeuropäer per se etwas lauter spricht oder schneller in Rage gerät und dann eventuell lauter redet bei einem Erregungslevel, das bei einem Nordeuropäer möglicherweise eine niedrigere Lautstärke verursachen würde.

Interkulturelle Unterschieden spielen einen weitaus kleinere Rolle, als man gemeinhin denken würde. Lautstärke ist ja nur ein Faktor, in Kombination mit den anderen Faktoren werden wir die Emotion des Kunden analysieren können. Und je mehr Kundenkontakt das System hat, desto besser wird sie mit der Zeit.

Wie bringe ich einer künstlichen Intelligenz dieses Verständnis bei? Wie läuft das von den Prozessen her ab?

Erst einmal analysiert sie bestehende Chats und bestehende Informationen. Je mehr Interaktionen wir haben, desto besser wird sie. Auf der anderen Seite spielt auch das Fachwissen derjenigen eine große Rolle, die tatsächlich heute schon mit den Kunden chatten. Die bringen auch nochmal ihr eigenes Fachwissen mit ein und schärfen unseren Algorithmus.

Wie viel Algorithmen braucht es fĂĽr Emotionen? Welche Formel hat ein GefĂĽhl?

Wir sind gerade dabei, ein emotionales Modell zu erarbeiten und die Fragen zu klären: Welche Emotionen sind überhaupt für uns relevant? Wie kann ich sie voneinander abgrenzen? Muss ich zum Beispiel Zorn und Ärger unterscheiden? Freude und Fröhlichkeit? Am Ende des Tages wird man auf eine sehr kleine emotionale Landkarte zurückkommen, die sehr spezialisiert ist und gar nicht so viele Emotionen enthält.

Ist es ethisch und moralisch richtig, Emotionen zu erkennen?

Emotionen sind der Kern menschlichen Wesens. Wenn ich in der Lage bin, diese zu erkennen, auszuwerten, gegebenenfalls zu simulieren und darauf einzugehen, und je mehr wir künstliche Intelligenzen bauen, die menschenähnlicher werden, desto mehr müssen wir uns mit den ethischen und moralischen Fragen beschäftigten.

Welche Folgen hat es, eine KI emotional und damit menschlicher zu machen?

Damit verschaffen wir einer breiteren Masse besseren Zugang. Die Nutzung von Technologie hat viel mit Berührungsängsten zu tun. Beobachten Sie mal ältere Menschen, wie reserviert sie gegenüber neuen Technologien sind. Das Eingehen einer Maschine auf die Bedürfnisse eines Einzelnen wird die Barriere zwischen künstlicher Intelligenz und Menschen definitiv abbauen.

🇬🇧   Anger? Annoyance? Ambivalence? The customer’s mood can be decisive in the outcome of a client dialogue. Therefore, it is advantageous if a contact partner can sense it. Humans mostly do this intuitively. But how do you teach a machine to recognise emotions?

This is Martin Bäumler’s area of responsibility within the Deutsche Telekom eLIZA project. The aim is to read and recognise emotions from a user’s various inputs, and facilitate a better user outcome – regardless of whether it relates to a search request or contact with customer service. At present this is limited only to written text; however, Bäumler’s team will soon start filtering out emotions from the spoken word, as well.

What exactly is emotion recognition?

Information is conveyed through what is said, but also in the way it is said. Emotions are an essential element of this complex transfer. Automated speech recognition computer systems to date have only been able to understand the explicit content. We are working on a way of evaluating every piece of information conveyed via the spoken or written word. Our objective is to offer our customers an even better experience, and even better service.

What is the relationship between speech recognition and emotion recognition, with respect to better understanding the needs of customers?

Speech recognition can live without emotion recognition; however, emotion recognition cannot exist without speech recognition. Speech recognition drives the whole thing. To understand the customer’s problem as well as possible, I first need speech recognition – simply recognising emotions isn’t enough. If the customer just cries when they’re on the phone, this is a clear display of emotion; however, it doesn’t help in determining the problem. This is why speech recognition is a priority. The recognition of emotions only hints at the direction of the solution.

With the exception of Tinka, how could this recognition be applied?

When applied to customer interactions with human agents, we can provide agents with an indicator of the customer’s emotional state. The call centre agent could then be shown alternative conversational prompts, or the discussion could be passed onto a colleague specialised in challenging cases, who has a talent for de-escalation.

How does emotional analysis work? For example, how might you tell that I am in a good mood today?

We can analyse a number of factors within the voice: volume, modulation, pitch, as well as other tiny, almost imperceptible characteristics. For text, things become a little more difficult. Here, we must examine the content very carefully. One possibility might be the Emoticons that a customer uses. Sentence construction, capitalisation, content, word choice as well as grammar and structure are key factors in providing information on a user’s emotional state. The interesting thing is that the longer the dialogue is, the more precise the analysis can be.

Do you also use information about the user in the analysis; such as if they live in what might be considered a good residential area?

It is not our role to determine whether a particular residential area is better or worse than another. We would never, under any circumstances, set up a user profile that included this type of personal information. Data protection is our highest priority. When the customer is logged in, we can clearly identify them and we also know their address. However, our priority is solving the customer’s problem as quickly and efficiently as possible – regardless of where they are from. All customers are equal to us. And every customer is entitled to the best possible service, irrespective of whether he or she is a prepaid or premium customer.

How do you evaluate intercultural differences in this context? You mentioned volume as one of the factors. Some might venture to suggest that a Southern European, for instance, would generally speak louder – or they might do so if they become agitated – whereas Northern Europeans would be more likely to use a quieter tone.

Intercultural differences play a far smaller role than you might think. Volume is just one of the factors that we use in combination with others to analyse the customer’s emotions. And the more customer contact the system has, the more it improves over time.

How can I impart this understanding onto an artificial intelligence? How does the process work?

First of all, the system analyses existing chats and existing information. The more interactions there are, the better it becomes. Likewise, the specialist knowledge of the people who actually chat with customers daily also plays a significant role. They contribute their own personal specialist knowledge and, in doing so, they enhance our algorithm.

How many algorithms do emotions need? Is there a formula for feelings?

We are in the process of developing an emotional model, and of clarifying questions like these. Which emotions are in any way relevant to us? How do I differentiate between them? Do I need to distinguish, for example, between wrath and anger or joy and happiness? At the end of the day, it boils down to a very small emotional roadmap: one that is highly specialised and doesn’t include very many emotions at all.

Is it ethically and morally right to recognise emotions?

Emotions are the heart of what it is to be human. If we can recognise, evaluate, potentially simulate and respond to them – and if at the same time, we build artificial intelligence that becomes increasingly human – then we must increasingly consider the ethical and moral questions.

What consequences arise from making AI emotional, and with it more human?

It allows us to gain better access to a broader mass. The use of technology has a lot to do with reservations about contact. Look at older people – they are cautious when it comes to using new technologies. The way in which a machine responds to the needs of the individual will definitively break down the barriers between artificial intelligence and humans.