Sprachassistenten: Schweigen ist silber, reden ist gold?

Siri, Cortana, Google Now und Alexa – die neuen Sprachassistenten von Apple, Google, Aamazon und Co sollen den Anwendern den Alltag erleichtern, die Interaktion mit Geräten revolutionieren und klassische Nutzeroberflächen obsolet machen. Der Kampf um die Stimme der Konsumenten hat begonnen. Aber werden wir bald tatsächlich wie in Star Trek mit unserem Computer sprechen? Rafael Otero und Maik Klotz haben darüber diskutiert.

Amazon Tap, mit dem Sprachassistenten Alexa — Amazon Tap, mit dem Sprachassistent Alexa

Maik: Na Rafael, heute schon mit Alexa geflirtet? Rafael: Hahaha, nein aber Sie hat mir heute schon mehrfach erspart eines meiner Smartphones zu finden und dort etwas einzutippen. Wenn jetzt Alexa Ende Oktober nach Deutschland kommt, dann wären ein paar dieser Tasks sogar “legal” passiert. Maik: Die Frage ist ja, welche Aufgaben Du von ihr erledigen lässt. Nach dem Wetter fragen halte ich nicht unbedingt für eine sehr komplexe Aufgabe. Und da sind wir schon beim Problem: Du muss ziemlich genau wissen, was Du willst. Willst Du bei Spotify nach neuer Musik stöbern, ist Alexa keine große Hilfe. Rafael: Ja und nein. Nehmen wir ein paar Beispiele. Ich frage Alexa (austauschbar mit Google Home oder Google Assistant z.T. auch mit Siri) nach meinen Terminen am morgen, dann nach dem Wetter (rausgucken ist überbewertet) und lass sie gleich Erinnerungen eintragen oder schnell noch etwas auf die Einkaufsliste schreiben, respektive gleich einkaufen. Discovery als solches ist sicherlich nicht per se die Domäne von Voice Applikationen, aber wenn wir den Real-World-Vergleich ziehen – wann hast Du Deine Assistentin das letzte mal nach einer tollen Playlist bei Spotify gefragt (und wer flirtet jetzt)? Es gibt sicherlich Möglichkeiten, Discovery auch in Voice zu implementieren. Ein gutes Beispiel ist z.B. “Alexa was ist der Bestseller in Kuchenback Formen?” Dies gibt mir zwar nur Amazon Ergebnisse, aber wo würde ich sonst nach so etwas suchen? Natürlich ist das jetzt nicht ein optisch ansprechender Artikel den ich mir ansehen muss, aber selbst wenn? Weil ich mich in einem “sicheren” und sehr bequemen Ökosystem namens Amazon bewege ist es mir “egal” ob es nicht die hübscheste Kuchenbackform der Welt ist. Diese Probleme werden andere Systeme für uns lösen (Künstliche Intelligenz, die unseren Geschmack erlernt). Maik: Du bringst es auf den Punkt: das fehlenden visuelle Element. Es ist gut zu wissen das ich morgen einen Termin hab, aber etwas zu lesen und die Details zu sehen, ist eine andere Hausnummer. Zuhören ist eben schwieriger als zusehen. Kennen wir aus der Pornoindustrie. Für einen gezielten Task: Tue dies oder das, taugen digitale Assistenten sehr gut. Die Frage ist aber: wie gezielt sind wir Anwender unterwegs? Inspiration bekomme ich von Sprachassistenten so Null. Wie findet es Deine Freundin eigentlich, wenn sie hört das Alexa dir sagt das Du morgen ein Dinner mit einer anderen Frau hast? Damit sind wir beim nächsten Thema: Privatsphäre. Neulich am Flughafen hab ich für Irritation gesorgt, als ich Siri sagte “Rufe Papa Mobil an”. Nicht wenige dachten ich wollte den Papst anrufen. Rafael: Hahaha. Puh viele Punkte auf einmal. Inspiration geht per Voice und zwar sehr gut. Wir begeistern uns gegenseitig auch jeden Tag per “Voice”. Die Kunst liegt wie immer im Detail. Wenn ich eine typische Produktbeschreibung aus dem e-commerce her nehme und diese nur in das neue Medium überführe wird das nichts. Wenn ich aber optimierte Beschreibungen für Voice erstelle dann sieht es anders aus. Deshalb ist Voice eine komplett grüne Wiese und wird m.E. große Veränderungen mit sich bringen. Zu abstrakt? Beispiel: Alexa ich möchte einen Rotwein. Beschreibung aus dem ecommerce: Chianti aus 2012. Fruchtig. Beschreibung für Voice: Bei dem 2012er Chianti XYZ handelt es sich um einen schönen fruchtigen Rotwein des Weinguts X. Dieser Jahrgang zeichnet sich durch seinen runden Abgang aus der hervorragend als Wein zu Pasta passt. Ich glaub der Unterschied ist sehr deutlich. Voice Assistenten müssen antworten wie ein Mensch. Das ist die Herausforderung an die Anbieter der Skills. Wir haben gerade für einen sehr einfachen Alexa Skill 1000 Varianten erstellt damit sich die Antwort natürlich anfühlt. Das Thema Privatsphäre ist sicherlich nicht einfach. Da werden sich alle Anbieter ein wenig unterscheiden. Apple wird stark auf das Argument alles im Zugriff des Kunden legen, Google wird sehr cloud lastig sein und damit zum Teil einige “Schrecksekunden” beim Nutzer hervor rufen. Amazon liegt irgendwo dazwischen. Zu Deinem konkreten Punkt ich hab kein Problem damit denn sie könnte auch in mein Telefon gucken oder auf meinen Laptop. So spricht sie wenigstens mit Alexa und shoppt hoffentlich nicht zu viel. Maik: Guter Punkt, der bis heute noch nicht abschließend gelöst ist. Die Assistenten antworten noch nicht natürlich genug und es fehlt ein Dialog zwischen Anwender und Assistent. Alexa, Siri und Co nehmen im Grunde nur Befehle an. Mehr oder weniger gut und genau. Allerdings fragen mir die Lösungen zu wenig nach, das was ein Mensch eben tun würde. Ich weiß wenn Du nuschelst – die Sprachassistenten wissen das nicht. Zweifelsohne sind wir technologisch irgendwann in der Lage, aber heute ist das nicht der Fall. Das nächste Thema sind Emotionen. Ich glaube erst wenn die Assistenten “emotionaler” werden und sich menschlicher anfühlen werden wir einen Durchbruch erleben. In dem Film “Her” von 2013 wird das sehr deutlich und zeigt wie Interaktion in Zukunft aussehen könnte. So nett die Assistenten im Moment sein mögen, sie verstehen keine Ironie oder können zwischen den Zeilen lesen bzw. hören noch drücken sie sich besonders natürlich aus. Rafael: Ja da sprichst Du sehr valide Punkte an. Die Dialogsysteme die heutzutage vorhanden sind, sind “mühsam” – m.E. einer der Gründe warum Bots so enttäuschend sind. Stand jetzt müssen die Entwickler viele der Dialoge vorhersehen und vorab programmieren (soviel zu der AI von der jeder spricht) oder aber den Interaktionsraum massiv beschränken (was sich wiederum unnatürlich anfühlt). Die Voice Erkennung hat inzwischen einen Grad erreicht mit dem Nuscheln kein Problem mehr darstellt (zumindest in gut trainierten Sprachen wie Englisch). Bisher sind alle Assistenten auch “passiv”, d.h. sie reagieren nur auf Nachfragen, starten aber keine Interaktion. Amazon hat für Alexa schon angekündigt eine Art von Notifications zur Verfügung zu stellen, aber das hat eigene Tücken (bin ich im Raum oder der Hund?). Da haben andere Player einen deutlicheren Vorteil. In einem Google Ökosystem ist es egal ob ich im Raum bin oder nicht, weil die Notifications sowohl bei Google Home als auch bei Allo oder meinem Android Smartphone auftauchen würden. Hier sind alle Player außer Apple und Google im Nachteil. Emotionen sind die nächste große Herausforderung. Angefangen beim Verständnis bis hin zu Emotionalität in der Wiedergabe. Emotient war ein super interessanter Zukauf von Apple und man darf gespannt sein, was als erstes Produkt davon profitiert (ich glaub ja an emotion-tagging in Fotos). Die Wiedergabe hingegen ist etwas was m.E. noch einiges an Arbeit benötigt. Die oben beschriebenen Voice optimierten Produktbeschreibungen oder Ausgaben sind nur ein Teil davon. Aber zu Emotionalität gehört noch so viel mehr. Klangfarbe, Geschwindigkeit, Tonalität – all das was wir unbewusst wahrnehmen wenn uns jemand begeistert von etwas am Telefon berichtet (ich lasse mit Absicht Körpersprache weg). Trotzdem bewegen mich auch die heutigen Assistenten schon dazu brav “Danke” zu sagen, nachdem sie mir geholfen haben. Maik: Die Herausforderung wird sein auf der einen Seite den Konsumenten zu überzeugen und auf der anderen Seite bedeutet Voice ein Umdenken in der Industrie. Da die spannende Frage: will man das überhaupt? Denn Voice bedeutet ja der Wegfall von UX, also grafischen Oberflächen. Da wo nix zu sehen ist, kann ich auch keine Werbung anzeigen und an die gesprochene Werbung glaub ich in dem Kontext sicher nicht. Was also heißt das? Wie funktionieren in Zukunft Löungen die rein Text basiert waren? Socioale Netzwerke zum Beispiel? Oder wird es einfach eine Koexistenz geben von UX und Voice und gar Bereiche die gar nicht mit Voice funktionieren? Rafael: Die Überwindung für de Konsumenten hängt wie immer vom Mehrwert ab und der ist insbesondere mit Amazon Alexa von Tag eins gegeben. An alle Designer keine Angst UX wird nicht obsolet, aber Voice Design ist auch schick :). Voice First verändert sehr viel und ja gerade die werbungsbasierten Geschäftsmodelle werden sich neu erfinden müssen – um so erstaunlicher oder verständlicher, dass das größte Werbeunternehmen (Google) hier ganz vorne mit dabei ist. In einer nicht so ferne Zukunft werden diese Assistenten mir lästige Aufgaben besser abnehmen können z.B. den zu 90% immer gleichen Wochenendeinkauf. Werden Apps, Webseiten oder der normale Einkauf verschwinden? Sicherlich nicht, aber insbesondere der Einzelhandel muss sich überlegen wie man mit Assistenten mithalten möchte die im Wohnzimmer des Konsumenten “leben” und wie man Verkaufsflächen gestaltet wenn der Kunde hauptsächlich zum “Stöbern” in den Laden kommt. Es ist lustig wenn Du die Frage stellst wie rein text basierte Lösungen aussehen könnten. Wir sind beide alt genug, dass wir eine Welt vor Smartphones und sogar Mobiltelefonen kennen gelernt haben. Haben wir damals eine UX, App, Webseite, o.ä. gebraucht um uns Produkte, Filme, Menschen (ok Mädchen), Musik zu beschreiben? In den letzten Jahrzehnten haben wir Menschen uns immer mehr diesen technischen Helferlein angepasst, nun endlich ist die Technik soweit, dass sie es uns erlaubt wieder “natürlich” zu kommunizieren. Ich weiß nicht ob es da viel Überzeugungsarbeit braucht. Maik: Das ist unser Problem, für betreutes Wohnen zu jung und für Snapschat zu alt. Ich sehe, trotz des riesigen Potentials von Voice, einige ungelöste Themen. Neben den oben genannten auch die Frage nach der Archivierbarkeit. Das geschriebene Wort ist ja nachvollziehbar, editierbar, man kann es besser überblicken. Eine per Voice diktierte Bestellung ist schwer bis nicht greifbar. Wenn ich Dir meine Einkaufsliste vorlese, hast Du schon nach dem vierten Artikel vergessen was ich als erstes genannt habe. Bei Voice fehlt also die Übersicht. Damit ist Voice für den E-Commerce vielleicht sogar keine gute Idee. Es sei denn Du bestellst immer nur eine Dose Bier. Einen Wocheneinkauf über Voice zu machen ist deutlich komplexer und kommt meiner Meinung nach nicht ohne visualisierte Darstellung aus. Was fehlt ist also das Display, welches zumindest bei Alexa nicht vorhanden ist. Rafael: Hahaha – wir sind die “in-betweeners”. Wieder sehr gute Punkte. Archivierbarkeit oder Nachvollziehbarkeit ist sicherlich ein Thema. Da sehe ich aber deutlich höhere Probleme bei Siri oder Google. Bei Alexa siehst Du in der Begleit-App jeden Befehl und kannst Dir den sogar anhören und solange ich mich im Amazon-Umfeld bewege mit der Sicherheit und dem Vertrauen was von Amazon erworben und etabliert wurde, sehe ich da wenig Bedarf mich zu kümmern oder zu sorgen. Die “smarte” Einkaufsliste hat sehr viele Herausforderungen (was ist normal, welches Produkt in welcher Frequenz, usw. usf.) aber es gibt m.E. kein Medium was besser für solche eine Unterhaltung geeignet ist als Voice. Wenige Menschen werden den Drang verspüren in einer App den Wochenendeinkauf zu kontrollieren (und wenn doch geht es Stand heute eh schon auf der Alexa App). Eine Visualisierung für “banale”, wiederkehrende Aufgaben halte ich für nutzlos – es sei denn das Logo meiner Zahnpasta hat sich geändert. Das Display ist allerdings auch nicht wirklich weit entfernt. Amazon ist gerade sehr clever bei ihrer Investitionsstrategie. Amazon hat einen 100m US-Dollar Fund aufgelegt um in Firmen zu investieren die die unterschiedlichen Voice SDK’s von Amazon nutzen. Eines der ersten Investments war Nucleus, welches eine Alexa unterstützte Gegensprechanlage mit einem kleinen Touchscreen anbietet. Es fällt nicht schwer sich vorzustellen, dass Alexa früher oder später auch Bilder / Visualisierungen auf den nächstgelegenen Bildschirm (sei es Nucleus, ein Smartphone oder ein FireTV) anzeigen kann. Abschließend aber 2 Sachen – Voice wird nicht für jeden use case sinnvoll sein, aber für viele heutige commerce / smartphone use cases ist Voice einfach das bessere, schnellere und natürlichere Medium. Wer wollte nicht schon immer sagen “Replikator, einen heißen Kakao mit Marshmallows” – oder “Computer, Logbuch Sternzeit 41124, ein neuer Captain übernimmt das Kommando”. Maik: Ich muss in zwei Punkten widersprechen: wenn ich die App zur Kontrolle nutze, kann ich sie auch gleich nutzen. Auch die visulaiserug für banale Dinge halte ich für essentiell, schließlich lösen sie am POS den Kaufreiz aus. Wie wird der Kaufreiz also bei Voice ausgleöst? In dem mir Alexa ins Ohr säuselt wie gut das Duschgel an mir riechen würde? Last but not least das Thema Sicherheit. Was schützt mich davor, dass Du meine Stimme beim nächsten Bier aufzeichnest, es so zu recht schneidest das Alexa bei mir zu Hause keine 100er Packung “Tena vor Men” oder Granufink bestellt? Rafael: Du kommst auf lustige Ideen. Ich glaube im Punkt Visualisierung haben wir ein unterschiedliches Bedürfnis. Meine Alltagseinkäufe brauche ich nicht visualisiert. Der Punkt mit der App ist janur zur Kontrolle falls Du unsicher bist, die meisten Voice Assistenten sind so gut dass Du die App nicht brauchst. Also wenn ich in Deinem Wohnzimmer stehe und Deine Sorge ist, daß ich per Alexa Granufink bestelle dann hast Du ein deutlich anderes Problem :) und man kann Einkäufe auch per PIN absichern.

Fazit

Die Entwicklungen bei den Sprachassistenten haben eine Qualität erreicht, daß nun ernstzunehmende Lösungen auf den Markt drängen. Es gibt noch viele Fragen, die nicht abschließend gelöst sind und es bedarf noch einiger Weiterentwicklung um diese Assistenten natürlicher zu machen. Am Ende haben wir noch eine weitere Interaktionsmöglichkeit erschaffen die bedient und bespielt werden muss. So oder so: In Zukunft werden wir wieder mehr sprechen. Wenn auch nicht mit Menschen, dann aber immerhin mit unseren digitalen Assistenten.

Autor

Maik Klotz

Maik Klotz ist Berater, Sprecher und Autor zu den Themen Banking, Payment, Digital Identity, E-Commerce und Retail mit starkem Fokus auf „mobile“. Seit vielen Jahren berät Maik Unternehmen zu kundenzentrierten Innovationsmethoden und der Fokussierung auf den Nutzer. Er wurde von der Süddeutschen Zeitung in der Serie „Impulsgeber“ der Branche portraitiert und moderiert und spricht auf vielen Branchen-Events. Maik ist Imker. Maik ist Co-Founder von Payment & Banking und ist im Team mitverantwortlich für Marketing, Strategie und Events, insbesondere der Transactions.io [more]

Sprachassistenten: Schweigen ist silber, reden ist gold?

Fazit

Autor

Weitere interessante Beiträge

Der beste Newsletter ever.

Sprachassistenten: Schweigen ist silber, reden ist gold?

Fazit

Autor

Weitere interessante Beiträge

XXL-Angriff von Stripe

Banken kooperieren vor allem bei Payment und Krediten mit Fintechs

“Schon heute Lösungen schaffen, die Kunden morgen erwarten“

KI am Wendepunkt: Was kommt jetzt auf uns zu?

Der beste Newsletter ever.