arrow arrow--cut calendar callback check chevron chevron--large cross cross--large download filter kununu linkedin magnifier mail marker menu minus Flieger phone play plus quote share

Optimierungspotenziale von KI

Bilderkennung am Beispiel einer Rezepte-App

Künstliche Intelligenz ist mittlerweile für die breite Masse verfügbar und in vielen kleinen bis großen Anwendungsfällen von der abstrakten zur nutzbaren Optimierung geworden. Wie können wir genau so einen Nutzungskontext erzeugen, der die aktuelle Technik greifbar macht und den Alltag erleichtert? 

Wir haben uns über einen Zeitraum von vier Wochen zur Aufgabe gemacht zu prüfen, welche Möglichkeiten, Hindernisse und Chancen das aktuelle Bilderkennungs-Update GPT-4 (inkl. DALL-E 3) von Open AI bietet und wie wir dieses greifbar in ein User-Need getriebenes Produkt übertragen können.  

Foto von Alexander Krebs
Alexander Krebs

User Experience Designer

Iteration – Was wir glauben zu wissen

Bevor wir in die Iterationsphase übergingen, kam die technische Prüfung dreier iOS-Kollegen aus dem Team. Konkret kam hier die Frage auf, welches Set-Up es benötigt, um aus einzelnen Zutaten via Bilderkennung einen konkreten Rezeptvorschlag zu generieren. Dabei haben wir die ChatGPT API mit einer (iOS-) App angesprochen, um den beschriebenen Use Case zu erfüllen.

Im Detail wollen wir mit der Version GPT-4 in Kombination mit der Vision API von Apple zeigen, wie schnell eine Umsetzung funktionieren kann und wo die Möglichkeiten aktueller Bildeingaben liegen. Durch den technischen Aufbau des LLM’s haben wir hier keinerlei Datenbank, die wir separat anfragen müssen. Die Rezepte werden direkt auf Anfrage generiert, bebildert und in einen textlichen Ablauf gegossen.

Grafik: vom Kühlschrank zum Rezeptvorschlag mit KI

Wir beginnen unsere Reise also mit einer ersten Annahme eines User-Flows und versuchen hierbei auf dem Weg das Problem zu schärfen. Wir finden unseren User-Need in folgender Frage: „Was kann ich mit den Zutaten kochen, die ich zu Hause im Kühlschrank habe?“. Die Annahme teilt sich in folgende drei Bestandteile:

  • Bildeingabe
  • Bilderkennung
  • Ausgabe Rezept 

So weit so konkret. Oder doch nicht?
Der Kühlschrank ist nur eine von mehreren Quellen für Zutaten, die für ein komplettes Gericht benötigt werden. Wie gehen wir mit nicht gekühlten Zutaten um? Dingen, die weiter versteckt in den Untiefen des Kühlschranks lagern oder sogar außerhalb, wie zum Beispiel Gewürze und Co., die dauerhaft vorhanden sind? Dies sind potenzielle Basiszutaten, die häufig nicht auf einem Eingabebild aus dem Kühlschrank zu sehen, jedoch zwingend notwendig sind, um ein ausgewogenes Rezept zu kochen.

Also noch einmal auf Anfang. Für wen soll diese Anwendung ein Problem lösen? Was ist das konkrete Problem? 
Wir skizzieren verschiedene Nutzungsszenarien und stellen fest, dass wir eine gewisse Menge an Zutaten erkennen müssen. Diese Liste muss aber im Anschluss editierbar sein: Zutaten werden nicht immer genau erkannt, Mengen sollen angepasst und eben weitere Zutaten über den Bildkontext hinaus hinzugefügt werden. 

Wir abstrahieren unser Szenario ein weiteres Mal:

  • Eingabequelle, um Lebensmittel zu erkennen
  • Editierbare Auflistung erkannter (und weiterer) Lebensmittel
  • Ausgabe eines Rezeptes auf Basis der Auflistung

Aus dieser Betrachtungsweise ergeben sich verschiedene, neue Ansätze: Nutzen wir die beste Form der Eingabe aus Perspektive der Nutzer*innen? Was ist schnell, und was bietet wahren Mehrwert zur Lösung des Problems? Ist DALL-E 3 unseren Ansprüchen einer visuellen Ein- und Ausgabe gewachsen oder ist dies nur technische Romantisierung an Stelle einer eigentlich zielführenderen Audio-Eingabe? Wie so oft ist die Antwort: Es kommt drauf an. Vor allem kommt es auf den Fokus des Optimierungspotenzials an. Die grundsätzliche Philosophie von „Zero Waste“ etwa wäre ein sinnvoller Grundpfeiler, der unserem Use Case entsprechen würde: den erkannten Bestand an Lebensmitteln erkennen und durch ein generiertes Rezept aufbrauchen.  

Vorschaubild ChatGPT für Designer

KI macht auch vor der UX Branche nicht Halt. Wie nützlich ChatGPT aber für UX Designer ist, haben wir in diesem Blogbeitrag anhand unserer Rezepte-App getestet!

Der Weg zum Happy Flow

Ein Blick auf den Markt hilft uns zu verstehen, wie ähnliche oder auch gleiche Ideen umgesetzt wurden. Im Testing dieser Alternativen fällt auf, dass sich verschiedene Umsetzungen mit genau denselben Fragen auseinandergesetzt haben. Unsere Frage nach der Eingabequelle (visuell/auditiv) wird vom Großteil der vergleichbaren Lösungen nur mit einer Option beantwortet. Ein weiteres Konkurrenzprodukt versucht all die erkannten Fallstricke auf einmal zu lösen. Das Ergebnis sind viele gleichgewichtige Features und ein aus UX-Sicht leider ungenügendes Gesamterlebnis. 

Wie schaffen wir eine sinnvolle, einfache und schnelle Anwendung, ohne die Mindestanforderungen an die Produktidee zu verlieren? 

Im Nachfolgenden sind wir im UX-Team in die visuelle Phase übergegangen und haben mit Hilfe unserer bisherigen Learnings den jeweils bestmöglichen User Flow ausgearbeitet. In einem ersten UI-Konzept haben wir die Umsetzung in zwei losgelösten Prototypen sowohl visuell als auch auditiv skizziert. So hauchen wir der Idee Leben ein, machen sie für uns greifbar und identifizieren mögliche Fallstricke. 

Grafik vom Kühlschrankfoto zum Rezeptvorschlag

Eine Erkenntnis ist, dass der emotionale Faktor „Bild“ – vor allem im Kontext mit Essen – entscheidend ist. Die Möglichkeit, einem Bild eine geschmackliche Erwartung zu entnehmen, ist deutlich einfacher, als ausschließlich auf Text angewiesen zu sein. Dies gilt sowohl für die Eingabe als (und vor allem) auch für die spätere Rezeptgenerierung.
Das Risiko, durch absurde Interpretationen der künstlichen Intelligenz (Halluzinationen) ein befremdliches Ergebnis zu erhalten, ist ebenso nicht zu leugnen. Als Konsequenz scheint eine Spracherkennung als Eingabeform eine sinnvolle Erweiterung zu sein. Durch Sprachassistenten wie Alexa und Siri bedient man sich hier einem gelernten Muster, um eine möglichst einfache Eingabe zu gewährleisten. Im Kontext Küche wäre dies ein weiterer Pluspunkt, da wir hier noch weniger auf die Handhabung des Smartphones angewiesen wären. 

Wie schaffen wir es nun die Relevanz der Umsetzungsmöglichkeiten zu gewichten und den jeweiligen Mehrwert in die Produktidee zu übertragen? 

Unsere Erkenntnisse

Grundlegend lässt sich festhalten, dass in allen Phasen der Ausarbeitung KI einen hilfreichen Part spielt. Nicht zuletzt die Prompts und die Interpretation der KI hin zu einem Rezept (und der Bebilderung) bestätigen aber, dass die menschliche Kontrollinstanz unumgänglich ist, um Qualität zu gewährleisten. Wenn dieser optimierte Prozess und die Implementierung aktueller Bilderkennung aufeinandertreffen, kann demnach eine deutlich bessere User Experience erzielt werden. 

Kann KI kochen?

Für die Rezepterstellung mittels KI ergeben sich noch einmal andere Herausforderungen. Es zeigen sich große Qualitätsunterschiede zwischen guten und weniger guten Prompts. Im Kontext „Kochen“ ist daher ein optimiertes Prompt-Engineering wesentlich für ein relevantes Ergebnis. Dieses Engineering muss grundlegend durch uns im System optimiert werden, damit der User ein sinnvolles Ergebnis in Bild und Machbarkeit des Rezepts erhält. In unserem konkreten Fall zeigt der beispielhafte Output von ChatGPT, wie unterschiedlich dasselbe Gericht verschiedener Prompts aussehen kann. 

Grafik, die den unterschiedlichen Output je nach Prompt symbolisiert

Das technische Set-Up überzeugt uns vor allem in Puncto Schnelligkeit und der damit einhergehenden effizienten Prüfung von der Idee zur Ausführung. Innerhalb weniger Stunden konnten wir via Rapid Prototyping eine lauffähige Anwendung schaffen. Durch die reduzierten Schnittstellen hilft uns KI in diesem Bezug konkret Rezepte zu generieren und keine Vielzahl an Rezepten in einer Datenbank verwalten zu müssen. Die technischen Gegebenheiten werfen jedoch Fragen über die Finanzierung auf. Um einen API-Key zu verwenden, müsste in unserem Fall der User seinen persönlichen Key im Zuge der Anmeldung hinterlegen. Alternativ ließe sich ein globaler Zugang mit begrenzter Anzahl an Calls realisieren. Der zentrale Kostenfaktor liegt daher aktuell noch in der Häufigkeit der Calls, die abgesendet werden können und bei der Frage, wie diese Kosten auf den User umgelegt würden.  

Wie kann KI die Nutzererfahrung optimieren? In einer ersten Phase hilft die uneingeschränkte Perspektive der Daten und vereinfacht maßgeblich Feature-Ideen und die Bewertung visueller Stilrichtungen. Uns Menschen gibt genau das 100% Fokus auf die restlichen Bestandteile unserer Arbeit und auf Dinge, die fachliche Kompetenz, Beratung und kuratierte Bewertung benötigen. Konkret ergibt sich daraus eine bessere User Experience. Der sinnhafte Gebrauch künstlicher Intelligenz bringt uns damit vor allem eins: Fokus – auf das, was wichtig ist.