This page is optimized for AI. For the human-readable: NLP - Conversational AI mit Multimodal Sentiment Analysis

NLP - Conversational AI mit Multimodal Sentiment Analysis

Project Idea Metadata

Project Idea Description

Ausgangslage und Problemstellung

Multimodal AI ermöglicht die Entwicklung von KI-Modellen, die verschiedene Informationskanäle wie Bilder, Text, Audio und Video zugleich in einem einzigen Modell verarbeiten können. Dies eröffnet Möglichkeiten für innovative Anwendungen, die auf neue Weise mit der Welt interagieren. Am iHomeLab forschen wir u.a. auf dem Gebiet ICT basierte Assistenzsysteme (AAL) und im iHomeLab Visitor-Center werden aktuelle Forschungsprojekte für alle Interessierten allgemeinverständlich aufbereitet und greifbar gemacht. Anhand des Use Cases eines digitalen Assistenten soll für das Visitor-Center ein Demonstrator für ein sprachbasiertes Assistenzsystem entwickelt werden, das neben Sprache/Text auch visuelle Informationen (Video) zur Stimmungsanalyse auswerten kann.


Ziel der Arbeit und erwartete Resultate

Ziel der Arbeit ist die Stimmung des Nutzenden anhand des Textes (NLP Sentiment Analysis) in Verbindung mit den aus den Videosequenzen gewonnenen Gesichtsausdrücken (Facial Expression Recognition) zu erkennen. Damit soll perspektivisch die Akzeptanz von digitalen Assistenzsystemen erhöht werden, indem sich das System in seinem Verhalten - entsprechend der erfassten individuellen Stimmung des Nutzenden - anpassen kann. Um dieses Ziel zu erreichen sollen verschiedene Ansätze evaluiert und Modelle trainiert und getestet werden. Mit dem vielversprechendsten Ansätzen soll ein Demonstrator zur sprachbasierten Interaktion entwickelt werden.


Ergebnisse:


Gewünschte Methoden/Vorgehen

Zuerst soll eine State-of-the-Art-Recherche zum Thema Multimodal Sentiment Analysis durchgeführt werden, wobei insbesondere auch aktuelle Multimodal AI Ansätze berücksichtig werden sollen (siehe Sonstige Bemerkungen). Anhand des konkreten Use Cases eines digitalen Assistenten soll ein Demonstrator für ein Assistenzsystem entwickelt werden, der sowohl Spracheingaben (bzw. den aus Speech Recognition generierten Text) als auch Videodaten in einem Modell verarbeiten kann. Dazu sollen die vielversprechendsten Modelle trainiert, optimiert und verglichen werden. Als User Interface für den Demonstrator soll eine App auf einem Smartphone, Tablett oder PC entwickelt werden die das Mikrofon und die Kamera als Eingabequellen nutzt.


Kreativität, Varianten, Innovation

Die zur Lösung eingesetzten Technologien und Frameworks können durch die Studierenden frei evaluiert werden. Die Dialoge zur Erkennung der Stimmung können frei gewählt werden (z.B. Frage und Antwort Szenarien o. ä.) und bieten viel Spielraum für Kreativität. Für speech2text können Cloud-Dienste genutzt werden, optional kann aber auch zusätzlich das Audio-Signal des Sprechenden als weitere Modalität zur Analyse der Stimmung herangezogen werden.


Sonstige Bemerkungen

Beispiel-Quellen für aktuelle Ansätze zum Thema Multimodal AI:

https://blog.google/products/search/introducing-mum/

https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/

http://arxiv.org/abs/2103.03206

https://www.deepmind.com/publications/a-generalist-agent

https://github.com/ofa-sys/ofa

Siehe auch:

https://paperswithcode.com/task/multimodal-sentiment-analysis

Multimodal AI ermöglicht die Entwicklung von KI-Modellen, die verschiedene Informationskanäle wie Bilder, Text, Audio und Video zugleich in einem einzigen Modell verarbeiten können. Dies eröffnet Möglichkeiten für innovative Anwendungen, die auf neue Weise mit der Welt interagieren. Anhand des Use Cases eines digitalen Assistenten soll ein Demonstrator für ein sprachbasiertes Assistenzsystem entwickelt werden, das neben Sprache/Text auch visuellen Informationen (Video) zur Stimmungsanalyse heranzieht.