NLP - Conversational AI mit Multimodal Sentiment Analysis
Project Idea Metadata
- Project Idea Name: NLP - Conversational AI mit Multimodal Sentiment Analysis
- Date: 6/21/2022 3:31:31 PM
- Administrators:
Project Idea Description
Ausgangslage und Problemstellung
Multimodal AI ermöglicht die Entwicklung von KI-Modellen, die verschiedene Informationskanäle wie Bilder, Text, Audio und Video zugleich in einem einzigen Modell verarbeiten können. Dies eröffnet Möglichkeiten für innovative Anwendungen, die auf neue Weise mit der Welt interagieren. Am iHomeLab forschen wir u.a. auf dem Gebiet ICT basierte Assistenzsysteme (AAL) und im iHomeLab Visitor-Center werden aktuelle Forschungsprojekte für alle Interessierten allgemeinverständlich aufbereitet und greifbar gemacht. Anhand des Use Cases eines digitalen Assistenten soll für das Visitor-Center ein Demonstrator für ein sprachbasiertes Assistenzsystem entwickelt werden, das neben Sprache/Text auch visuelle Informationen (Video) zur Stimmungsanalyse auswerten kann.
Ziel der Arbeit und erwartete Resultate
Ziel der Arbeit ist die Stimmung des Nutzenden anhand des Textes (NLP Sentiment Analysis) in Verbindung mit den aus den Videosequenzen gewonnenen Gesichtsausdrücken (Facial Expression Recognition) zu erkennen. Damit soll perspektivisch die Akzeptanz von digitalen Assistenzsystemen erhöht werden, indem sich das System in seinem Verhalten - entsprechend der erfassten individuellen Stimmung des Nutzenden - anpassen kann. Um dieses Ziel zu erreichen sollen verschiedene Ansätze evaluiert und Modelle trainiert und getestet werden. Mit dem vielversprechendsten Ansätzen soll ein Demonstrator zur sprachbasierten Interaktion entwickelt werden.
Ergebnisse:
- Recherchebericht zu Multimodal Sentiment Analysis unter Einbeziehung aktueller Multimodal AI Ansätze
- Konzeptionierung Dialogworkflow
- Mit unterschiedlichen Ansätzen trainierte Modelle und Evaluierung/Vergleich der Ergebnisse
- Software Komponente als Demonstrator zur sprachbasierten Interaktion.
Gewünschte Methoden/Vorgehen
Zuerst soll eine State-of-the-Art-Recherche zum Thema Multimodal Sentiment Analysis durchgeführt werden, wobei insbesondere auch aktuelle Multimodal AI Ansätze berücksichtig werden sollen (siehe Sonstige Bemerkungen). Anhand des konkreten Use Cases eines digitalen Assistenten soll ein Demonstrator für ein Assistenzsystem entwickelt werden, der sowohl Spracheingaben (bzw. den aus Speech Recognition generierten Text) als auch Videodaten in einem Modell verarbeiten kann. Dazu sollen die vielversprechendsten Modelle trainiert, optimiert und verglichen werden. Als User Interface für den Demonstrator soll eine App auf einem Smartphone, Tablett oder PC entwickelt werden die das Mikrofon und die Kamera als Eingabequellen nutzt.
Kreativität, Varianten, Innovation
Die zur Lösung eingesetzten Technologien und Frameworks können durch die Studierenden frei evaluiert werden. Die Dialoge zur Erkennung der Stimmung können frei gewählt werden (z.B. Frage und Antwort Szenarien o. ä.) und bieten viel Spielraum für Kreativität. Für speech2text können Cloud-Dienste genutzt werden, optional kann aber auch zusätzlich das Audio-Signal des Sprechenden als weitere Modalität zur Analyse der Stimmung herangezogen werden.
Sonstige Bemerkungen
Beispiel-Quellen für aktuelle Ansätze zum Thema Multimodal AI:
https://blog.google/products/search/introducing-mum/
http://arxiv.org/abs/2103.03206
https://www.deepmind.com/publications/a-generalist-agent
https://github.com/ofa-sys/ofa
Siehe auch:
https://paperswithcode.com/task/multimodal-sentiment-analysis
Multimodal AI ermöglicht die Entwicklung von KI-Modellen, die verschiedene Informationskanäle wie Bilder, Text, Audio und Video zugleich in einem einzigen Modell verarbeiten können. Dies eröffnet Möglichkeiten für innovative Anwendungen, die auf neue Weise mit der Welt interagieren. Anhand des Use Cases eines digitalen Assistenten soll ein Demonstrator für ein sprachbasiertes Assistenzsystem entwickelt werden, das neben Sprache/Text auch visuellen Informationen (Video) zur Stimmungsanalyse heranzieht.