Semantische Bedeutung von Firmennamen mit Deep Learning und NLP
Project Idea Metadata
- Project Idea Name: Semantische Bedeutung von Firmennamen mit Deep Learning und NLP
- Date: 11/26/2021 5:59:07 PM
- Administrators:
Project Idea Description
- Ausgangslage und Problemstellung
Firmen pflegen ihr Image und erzählen in Beiträgen auf Blogs, LinkedIn, Firmen-Webseite, was sie tun und wofür sie stehen. Wer aber versucht, Firmen zu kategorisieren und einzuteilen in Kleidergeschäfte, Restaurants, Software Hersteller, etc., oder nach Firmen sucht, welche mit z.B. Sport in Verbindung stehen muss dies von Hand pflegen, was ab einer gewissen Anzahl sehr aufwändig ist.
Mit Hilfe von Deep Learning und NLP können grosse Mengen von unstrukturierten Text-Datenquellen ausgewertet werden, und damit die semantische Bedeutung von Firmennamen erlernt werden.
In dieser Arbeit soll evaluiert werden, wie gut die semantische Bedeutung von vorgegebenen Firmennamen aus dem Bereich von Essen, Nightlife, Shopping, mit Hilfe von NLP Deep Learning Modellen (z.B. RoBERTa), erlernt werden können, und ob daraus automatisch ein Taxonomy-Baum erstellt werden kann. Zusätzlich soll eine weitere Datenquellen identifiziert und gecrawlet werden, und geprüft werden, ob damit die Qualität des Verfahrens verbessert werden kann.
- Ziel der Arbeit und erwartete Resultate
Ziel der Arbeit ist ein Prototype der anhand Firmennamen und einer Menge von Kategorien die semantische Nähe berechnen kann und daraus einen Taxonomie-Baum ableiten kann.
Die Arbeit beinhaltet eine Evaluation, welche Firmennamen in den Textdaten vorhanden sind und wie gut die Kategorien aus einem vorgegebenen Taxonomie-Baum und die Embedding-Kategorien übereinstimmen.
Gegeben:
- Textdaten Quellen, wie 20min, Tamedia, nau, tilllate, persoenlich, friday-magazine, rundschau, schweizer-illustrierte, swissinfo.
Erwartetes Resultat:
- Ausführliches Study Doc
- Schlussbericht gemäss Vorgaben des Bachelor-Studiengangs Informatik
- Schlusspräsentation nach Abgabe der Arbeit (20 Minuten)
- Identifikation und crawling einer zusätzlichen Textquelle mit mind. 20'000 Einträgen
- Prototypen zur Erstellung eines Taxonomie-Baumes
- Firmennamen und Kategorien als Input
- Taxonomie-Baum und Zuweisungen als Output
- Analyse, für welche Kategorien von Firmen es gut funktioniert und bei welchen nicht.
- Trainingsworkflow zur Erstellung des Embedding-Modelles.
- Evaluation des Prototypen
- Gewünschte Methoden, Vorgehen
Vorgehen:
• Planung, Organisation, Risiko- und Ressourcenmanagement sind Teil der Aufgabe und werden von den Studierenden wahrgenommen
• Während der Arbeit ist ein persönliches Arbeitsjournal zu führen. Ein Arbeitsjournaleintrag umfasst Datum, Anzahl Stunden und Arbeitsschritt/Thema.
Für folgende Teile muss eine Abnahme durch den Betreuer in die Planung aufgenommen werden:
• Auswahl des Embedding-Verfahrens
• Trainingsworkflow für das Embedding-Verfahren
• Evaluationsworkflow Taxonomie-Baum
Datenkorpus
Die Studierenden erhalten Zugriff auf verschiedenen Datenkropus, welche Zeitungsartikel enthalten. Eine zusätzliche Datenquelle soll evaluiert, gecrawlet und getestet werden.
Study Doc:
Das Führen eines Study Docs soll ein systematisches, reproduzierbares Vorgehen, insb. für die Phase der Modellbildung, des Trainings und des Hyperparametertunings, erleichtern. Es enthält eine Problembeschreibung, einen Vorgehensplan, Ideen, Experimente, sowie deren Resultaten und Interpretationen. Für den Schlussbericht sollen idealerweise grosse Teile direkt aus dem Study Doc übernommen werden können.
Zu verwendende Technologien:
• Git, Python, Docker
- Kreativität, Varianten, Innovation:
• Evaluation Embedding-Verfahren, Hyper-parameter tuning,
• Evaluation weitere Textquellen
• Algorithmus zum Erstellen eines Taxonomie-Baumes aus Word-Embeddings
Firmen pflegen ihr Image und erzählen in Beiträgen auf Blogs, LinkedIn, Firmen-Webseite, was sie tun und wofür sie stehen. In dieser Arbeit soll evaluiert werden, wie gut die semantische Bedeutung von vorgegebenen Firmennamen aus dem Bereich von Essen, Nightlife, Shopping, mit Hilfe von NLP Deep Learning Modellen (z.B. RoBERTa), erlernt werden können, und ob daraus automatisch ein Taxonomy-Baum erstellt werden kann.