Folge 8: Fokussierter durch den Alltag mit Routinen und Alexa

Routinen strukturieren unseren Alltag. Aber wie können wir Voice Assistenten dafür einsetzen, uns dabei zu unterstützen? Wir probieren mit Hilfe von Alexa aus und bauen einen Skill für eine Morgen- & Abend-Routine.


Bleibe auf dem Laufenden zum Thema VoiceDesign

Du kannst diesen Podcast über iTunes, Stitcher oder Soundcloud abonnieren.
Oder trage Dich in den Newsletter ein und ich informiere Dich einmal im Monat über alle neuen Folgen, interessante Texte von anderen Seiten und alles, was sonst noch relevant ist.


Shownotes:

Morgen-Routine Skill
Abend-Routine Skill
Audio-Player Code-Beispiel für Alexa in Node.js

Automatisch erstelltes Transkript:

[0:13] Hallo und herzlich Willkommen zur neuen Folge von One Skill A Day. Dem Podcast rund um VoiceDesign. Mein Name ist Alexander Kamphorst. Schön dass Du dabei bist.

Ich bin ja ein großer Fan von bestimmten Routinen. Egal ob Morgen oder Abend Routine. Wenn ich es mal schaffe, sie konsequent durchzuziehen, dann merke ich sofort wie fokussierter ich durch den Tag gehe. Aber um ehrlich zu sein, schaffe ich es immer nur eine bestimmte Zeit das durchzuhalten. Dann vergesse ich schnell wieder daran zu denken. Ich habe es mit Blatt und Papier versucht und mit einer App, aber irgendwie war nach einiger Zeit immer die Luft raus.

Beim Amazon Echo habe ich nun gesehen, wie ich die Tageszusammenfassung in meinen morgendlichen Alltag integriert habe und mich daran gewöhnt habe sie jeden Tag zu nutzen.

[1:02] Und da dachte ich mir: Vielleicht klappt das auch mit einer Morgen oder Abend Routine?
Und genau das ist der Plan für diese Folge. Wir bauen einen Skill, mit dem man eine morgendliche oder allabendliche Routine in seinen Alltag einbauen kann.

[1:19]

Zuerst habe ich mir überlegt, was der Inhalt so einer Routine sein könnte. Es gibt ja zig verschiedene und ich will den Skill so generisch wie möglich halten. Der Nutzer soll nicht erst stundenlang an seinen Einstellungen rumbasteln müssen. Ich möchte, dass er direkt anfangen kann und sofort die Routine ausprobieren kann. Umso schneller er diese Erfahrung hat, umso schneller kann er abschätzen ob das was für ihn ist. Oder eben nicht.

Ich habe mir dann angeschaut was ich so für unterschiedliche Routinen bisher ausprobiert habe und was andere so darüber schreiben.

Man merkt dann schnell, dass es sehr schwer ist eine so generische Routine zu entwickeln, die sowohl morgens als auch abends gleich funktioniert. Also müssen 2 Routinen und damit wohl auch 2 Skills her, damit das leicht verständlich ist. Man könnte wahrscheinlich auch einfach einen Skill bauen und der Nutzer startet dann mit dem jeweiligen Intent die jeweilige Routine. Da bin ich mir ehrlich gesagt noch nicht sicher, was hier der bessere Weg ist.

Aber es fühlte sich runder an, wenn der Nutzer einfach nur sagen muss: Alexa, starte Abend Routine oder starte Morgen Routine.

Deswegen bin ich diesmal den Weg gegangen 2 Skills zu kreieren.

Damit ist nun auch klar, dass ich ein wenig Spielraum habe was den Inhalt der jeweiligen Routine angeht. Ich kann auf den jeweiligen Zeitpunkt, also morgens oder abends, abzielen und die Routine darauf ausrichten.

Das erleichtert es inhaltlich dann doch deutlich. Der Skill soll mich am Morgen auf den Tag vorbereiten und mich auf meine Aufgaben fokussieren. Abends dient er eher der Rückschau, um zu gucken wie der Tag so lief und als Ausklang.

[3:01] Ich suche mir für jede Routine 3, 4 kleine Übungen aus. Jede Übung soll im Idealfall komplett ohne sonstige Hilftsmittel funktionieren. Also einzig in meinen Gedanken stattfinden. Damit spiele ich die Vorteile der sprachlichen Aktivierung des Skills aus. Denn so ist es egal, ob ich im Bett liege oder meinen Kaffee in der Küche trinke.

[3:23] Für den Morgen stelle ich mir vor, dass man zuerst darüber nachdenkt, wofür man dankbar ist. Gefolgt von einer Visualisierung des kommenden Tages, also wirklich einml den gesamten Tag im Kopf durchgehen. Zum Abschluss möchte ich an die 3 wichtigsten Dinge des Tages denken und mich darauf gedanklich fokussieren. Das klingt so nach cirka 5 Minuten und ist doch mal ein guter Start für eine erste Version des Skills.
Die Abend Routine soll damit beginnen, dass ich mir überlege, was am darauf folgenden Tag alles stattfindet. Damit kann ich das alles schon einmal durchgehen und dann auch sozusagen ablegen. Danach kommt die Rückschau: Was habe ich so gemacht? Gefolgt von dem einen Ding, was nich so gut funktioniert hat oder wo ich mich anders hätte verhalten sollen. Am Ende dann nochmal die guten Dinge des Tages. Was lief richtig rund?
Damit haben wir zwei ganz gute Routinen, die relativ viel von dem abdecken machen kann in diesem Bereich, was man so machen kann in diesem Bereich und zugleich nicht so aufgebläht ist.

Wie setzen wir das nun um?
Ich baue mir für jede Routine einen kleinen Skill, der jeweils die Übungen ansagen soll. Angedacht ist, dass er immer eine Übung ansagt und dann für ein bis zwei Minuten stoppt, damit der Nutzer die Übung machen kann.
Und hier kommen wir schnell an die Limitierungen, die Amazon aktuell vorgibt.
Ich kann zwar in Alexa Antworten einzelne Pausen einbauen. Das Maximum ist hier aber 10 Sekunden.

[4:58] Das macht natürlich auch Sinn. Denn diese Pausen dienen eigentlich dazu, die Antworten natürlicher erscheinen zu lassen. Daher werden Pausen auch eher in Milisekunden eingebaut. Einfach um den Sprachfluss zwischen 2 Wörtern genauer zu definieren.

Für unseren Skill ist das aber keine Lösung. Also müssen wir den Weg gehen, dass wir den Nutzer bitten müssen nach jeder Übung weiter oder ich bin fertig zu sagen, um die nächste Übung zu starten.

[5:26] Wir haben den Skill einmal so modelliert und es kam recht schnell das Feedback, dass sich das komisch anfühlt. Einfach weil es einen aus dem Flow reißt, wenn man die Übungen macht.

Wir haben das jetzt nicht mit allzu vielen Leuten getestet, von daher ist da vielleicht noch Optimierungspotential in diesem Ansatz.

Aber da wir die Skills ja auch bauen um Erfahrungswerte aufzubauen und zu schauen, was funktioniert und was nicht, dachte ich mir: Probieren wir doch einfach mal einen ganz anderen Weg aus und habe mich für eine eher unorthodoxe Lösung entschieden.

Amazon bietet von Haus aus einen Audio Player für Alexa an. Dieser ist natürlich vor allem für Musik gedacht oder auch für Podcasts wie diesen hier. Man startet den Skill und es wird Musik abgespielt. Man kann einzelne Lieder skippen oder alles pausieren.

Also im Prinzip so wie wir es von Spotify und Co. gewöhnt sind.

Vielleicht kann man diesen Player aber auch anders nutzen. Wir probieren es also folgendermaßen: Ich spreche die Übungen selber ein und erstelle eine MP3 Datei. Der Skill spielt diese Datei ab und der Nutzer hört anstatt Alexa meine Stimme.

Zugegeben: Eigentlich nicht ganz komplett die Idee eines Voice Assistant. Aber eine gute Möglichkeit einmal einen solchen Ansatz und den Audio Player zu testen.

[6:48] Beim Einsprechen der Übungen fällt mir dann aber doch auf: Das klingt irgendwie cheesy. Es ist doch etwas anderes einen Podcast zu machen oder solche Texte einzusprechen. Zufrieden bin ich damit nicht, auch nicht nach mehreren Versuchen. Aber ich bin auch immer ein großer Freund davon, Dinge erstmal live zu stellen und sie dann nach und nach zu verbessern. So kann man dann auch Feedback von echten Nutzern frühzeitiger einarbeiten.

Also alle Bedenken mal zur Seite schieben und weitermachen. Technisch gesehen nutzen wir wieder Node.js und für den Audio Player eine Vorlage von Amazon als Startpunkt. Den passen wir uns ein wenig an und binden die Audio Dateien ein.

Dann hören wir uns mal an, wie es sich aktuell anhört.

[7:36] Alexa starte Morgenroutine.

[7:41] Willkommen zu Deiner täglichen Morgenroutine ein paar kleine Übungen helfen Dir besser in den Tag zu starten. Sage einfach Start um zu beginnen.

[8:15] Oh Mann, oh Mann, oh Mann. Das klingt als ob ich direkt einem Esoterik-Seminar entsprungen wäre. Da ist wirklich hart das selbst nochmal zu hören, muss ich zugeben. Aber so ist das manchmal. Schließlich will ich ja alles mögliches ausprobieren. Von daher muss man auch wohl mal sowas ertragen. Nunja.

Dass zuerst Alexa redet und später dann meine Stimme erscheint fühlt sich auch wie ein Bruch an, muss ich sagen. In einer zweiten Version müsste man sich dann doch entscheiden: Entweder komplett Alexa und der Nutzer muss jeweils die nächste Übung antriggern. Oder aber schon die Begrüßung müsste durch meine Stimme ersetzt werden. Technisch wäre das möglich, man kann kurze Audio Snippets für Antworten oder Ansagen von Alexa verwenden.

Während der Text für den Morgen Skill noch ganz ok klingt, obwohl es gerade nich so klang, ist der Abend Skill schon reichlich abgedreht streckenweise. Aber wie heißt es so schön: Wenn Dir Deine erste Version nicht peinlich ist, dann hast Du zu lange mit dem Livegang gewartet.

In diesem Sinne also soll es für heute soweit in Ordnung sein alles.

Ich kann auch schonmal sagen, dass beide Skills ohne Extraschleife durch die Zertifizierung bei Alexa gegangen sind. Das hat alles jeweils ungefähr einen Tag gedauert.

Probier das Endergebnis gerne mal aus. Die Namen sind jeweils Morgen Routine und Abend Routine. Schön leicht zu merken auf jeden Fall.

[9:48] Unerwarteterweise sehen die ersten Zahlen sehen ganz spannend aus, mal gucken, was wir damit in Zukunft noch so dranbasteln können oder verbessern können.

Was können wir aus dieser Nummer lernen?

Zum einen sicherlich, dass man bei Projekten immer erstmal checken sollte, ob man an irgendwelche Begrenzungen stößt. Das ist mir tatsächlich hier passiert. Ich bin erst während des Projekts drauf gekommen, dass ich hier an einige Ecken und Kanten stoße. Klassischer Anfängerfehler könnte man sagen. Auf der anderen Seite: Wenn die Technologien noch so neu sind, dann muss man auch mal drauf los basteln. Hashtag Ausrede as a Service.

Darüber hinaus bin ich gespannt, wie dieser Bruch ankommt zwischen Alexa-Stimme und Menschen-Stimme. Ich würde schätzen, dass das nicht ideal ist. Aber das muss jetzt mal der Feldversuch zeigen.

[10:40] So. Was noch? Den Audio Player kann man sicherlich mal fremdverwenden, aber auch nur sehr begrenzt. So kann man nach Ende des Audio Files zum Beispiel keinen Nutzerinput mehr annehmen. Ich könnte im Audio File nicht sagen: Wie hat es Dir gefallen? Und dann die Session offen halten um den Nutzerinput zu bekommen. Auch eignet sich so ein Ansatz klarerweise nur dann, wenn man keinerlei variable Informationen verwenden will. Man fällt damit also ein wenig auf das Niveau von Webseiten oder Apps mit Audio Files zurück.

Insgesamt also mal ein ganz spannendes Experiment. Ich werde da nochmal ein wenig rumspielen. Aber die Anwendungsfälle sind sicherlich begrenzt.

Als Ausbaustufe wäre schon nochmal spannend den gesamten Skill, also auch die Begrüßung, mit menschlicher Stimme zu bauen. Das wäre mal ganz spannend um zu sehen wie sich sowas anfühlt im Gegensatz zu den immer leicht hölzernen wirkenden Voice Assistant Antworten.

Mal schauen, ob ich das nochmal reinbaue.

So, ich hoffe, diese Folge war spannend für Dich und Du hast etwas mitgenommen. Wenn dem so ist, dann würde ich mich über eine 5 Sterne Bewertung bei iTunes freuen. Wenn Du Feedback hast, gerne über Twitter oder direkt auf der Webseite www.oneskilladay.de. Dort findest Du auch wie immer die Shownotes, Links und das Transkript der heutigen Folge.

Ich hoffe, wir hören uns bald wieder.

Bis dahin… auf Wiedersehen!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.