Semantische Bedeutung von Firmennamen mit Deep Learning und NLP

AI Quick Summary

Firmen pflegen ihr Image und erzählen in Beiträgen auf Blogs, LinkedIn, Firmen-Webseite, was sie tun und wofür sie stehen. In dieser Arbeit soll evaluiert werden, wie gut die semantische Bedeutung von vorgegebenen Firmennamen aus dem Bereich von Essen, Nightlife, Shopping, mit Hilfe von NLP Deep Learning Modellen (z.B. RoBERTa), erlernt werden können, und ob daraus automatisch ein Taxonomy-Baum erstellt werden kann. Ausgangslage und ProblemstellungFirmen pflegen ihr Image und erzählen in Beiträgen auf Blogs, LinkedIn, Firmen-Webseite, was sie tun und wofür sie stehen. Wer aber versucht, Firmen zu kategorisieren und einzuteilen in Kleidergeschäfte, Restaurants, Software Hersteller, etc., oder nach Firmen sucht, welche mit z.B. Sport in Verbindung stehen muss dies von Hand pflegen, was ab einer gewissen Anzahl sehr aufwändig ist.Mit Hilfe von Deep Learning und NLP können grosse Mengen von unstrukturierten Text-Datenquellen ausgewertet werden, und damit die semantische Bedeutung von Firmennamen erlernt werden.In dieser Arbeit soll evaluiert werden, wie gut die semantische Bedeutung von vorgegebenen Firmennamen aus dem Bereich von Essen, Nightlife, Shopping, mit Hilfe von NLP Deep Learning Modellen (z.B. RoBERTa), erlernt werden können, und ob daraus automatisch ein Taxonomy-Baum erstellt werden kann. Zusätzlich soll eine weitere Datenquellen identifiziert und gecrawlet werden, und geprüft werden, ob damit die Qualität des Verfahrens verbessert werden kann.Ziel der Arbeit und erwartete ResultateZiel der Arbeit ist ein Prototype der anhand Firmennamen und einer Menge von Kategorien die semantische Nähe berechnen kann und daraus einen Taxonomie-Baum ableiten kann.Die Arbeit beinhaltet eine Evaluation, welche Firmennamen in den Textdaten vorhanden sind und wie gut die Kategorien aus einem vorgegebenen Taxonomie-Baum und die Embedding-Kategorien übereinstimmen.Gegeben:Textdaten Quellen, wie 20min, Tamedia, nau, tilllate, persoenlich, friday-magazine, rundschau, schweizer-illustrierte, swissinfo. Erwartetes Resultat:Ausführliches Study DocSchlussbericht gemäss Vorgaben des Bachelor-Studiengangs InformatikSchlusspräsentation nach Abgabe der Arbeit (20 Minuten) Identifikation und crawling einer zusätzlichen Textquelle mit mind. 20'000 EinträgenPrototypen zur Erstellung eines Taxonomie-BaumesFirmennamen und Kategorien als InputTaxonomie-Baum und Zuweisungen als OutputAnalyse, für welche Kategorien von Firmen es gut funktioniert und bei welchen nicht.Trainingsworkflow zur Erstellung des Embedding-Modelles.Evaluation des PrototypenGewünschte Methoden, VorgehenVorgehen: • Planung, Organisation, Risiko- und Ressourcenmanagement sind Teil der Aufgabe und werden von den Studierenden wahrgenommen• Während der Arbeit ist ein persönliches Arbeitsjournal zu führen. Ein Arbeitsjournaleintrag umfasst Datum, Anzahl Stunden und Arbeitsschritt/Thema.Für folgende Teile muss eine Abnahme durch den Betreuer in die Planung aufgenommen werden: • Auswahl des Embedding-Verfahrens • Trainingsworkflow für das Embedding-Verfahren • Evaluationsworkflow Taxonomie-Baum DatenkorpusDie Studierenden erhalten Zugriff auf verschiedenen Datenkropus, welche Zeitungsartikel enthalten. Eine zusätzliche Datenquelle soll evaluiert, gecrawlet und getestet werden.Study Doc:Das Führen eines Study Docs soll ein systematisches, reproduzierbares Vorgehen, insb. für die Phase der Modellbildung, des Trainings und des Hyperparametertunings, erleichtern. Es enthält eine Problembeschreibung, einen Vorgehensplan, Ideen, Experimente, sowie deren Resultaten und Interpretationen. Für den Schlussbericht sollen idealerweise grosse Teile direkt aus dem Study Doc übernommen werden können. Zu verwendende Technologien: • Git, Python, DockerKreativität, Varianten, Innovation:• Evaluation Embedding-Verfahren, Hyper-parameter tuning,• Evaluation weitere Textquellen• Algorithmus zum Erstellen eines Taxonomie-Baumes aus Word-Embeddings

Project Idea Metadata

Project Idea Name: Semantische Bedeutung von Firmennamen mit Deep Learning und NLP
Date: 11/26/2021 5:59:07 PM
Administrators:
- Daniel Pfäffli

Project Idea Description

Ausgangslage und Problemstellung

Firmen pflegen ihr Image und erzählen in Beiträgen auf Blogs, LinkedIn, Firmen-Webseite, was sie tun und wofür sie stehen. Wer aber versucht, Firmen zu kategorisieren und einzuteilen in Kleidergeschäfte, Restaurants, Software Hersteller, etc., oder nach Firmen sucht, welche mit z.B. Sport in Verbindung stehen muss dies von Hand pflegen, was ab einer gewissen Anzahl sehr aufwändig ist.

Mit Hilfe von Deep Learning und NLP können grosse Mengen von unstrukturierten Text-Datenquellen ausgewertet werden, und damit die semantische Bedeutung von Firmennamen erlernt werden.

In dieser Arbeit soll evaluiert werden, wie gut die semantische Bedeutung von vorgegebenen Firmennamen aus dem Bereich von Essen, Nightlife, Shopping, mit Hilfe von NLP Deep Learning Modellen (z.B. RoBERTa), erlernt werden können, und ob daraus automatisch ein Taxonomy-Baum erstellt werden kann. Zusätzlich soll eine weitere Datenquellen identifiziert und gecrawlet werden, und geprüft werden, ob damit die Qualität des Verfahrens verbessert werden kann.

Ziel der Arbeit und erwartete Resultate

Ziel der Arbeit ist ein Prototype der anhand Firmennamen und einer Menge von Kategorien die semantische Nähe berechnen kann und daraus einen Taxonomie-Baum ableiten kann.

Die Arbeit beinhaltet eine Evaluation, welche Firmennamen in den Textdaten vorhanden sind und wie gut die Kategorien aus einem vorgegebenen Taxonomie-Baum und die Embedding-Kategorien übereinstimmen.

Gegeben:

Textdaten Quellen, wie 20min, Tamedia, nau, tilllate, persoenlich, friday-magazine, rundschau, schweizer-illustrierte, swissinfo.

Erwartetes Resultat:

Ausführliches Study Doc
Schlussbericht gemäss Vorgaben des Bachelor-Studiengangs Informatik
Schlusspräsentation nach Abgabe der Arbeit (20 Minuten)
Identifikation und crawling einer zusätzlichen Textquelle mit mind. 20'000 Einträgen
Prototypen zur Erstellung eines Taxonomie-Baumes
Firmennamen und Kategorien als Input
Taxonomie-Baum und Zuweisungen als Output
Analyse, für welche Kategorien von Firmen es gut funktioniert und bei welchen nicht.
Trainingsworkflow zur Erstellung des Embedding-Modelles.
Evaluation des Prototypen

Gewünschte Methoden, Vorgehen

Vorgehen:

• Planung, Organisation, Risiko- und Ressourcenmanagement sind Teil der Aufgabe und werden von den Studierenden wahrgenommen

• Während der Arbeit ist ein persönliches Arbeitsjournal zu führen. Ein Arbeitsjournaleintrag umfasst Datum, Anzahl Stunden und Arbeitsschritt/Thema.

Für folgende Teile muss eine Abnahme durch den Betreuer in die Planung aufgenommen werden:

• Auswahl des Embedding-Verfahrens

• Trainingsworkflow für das Embedding-Verfahren

• Evaluationsworkflow Taxonomie-Baum

Datenkorpus

Die Studierenden erhalten Zugriff auf verschiedenen Datenkropus, welche Zeitungsartikel enthalten. Eine zusätzliche Datenquelle soll evaluiert, gecrawlet und getestet werden.

Study Doc:

Das Führen eines Study Docs soll ein systematisches, reproduzierbares Vorgehen, insb. für die Phase der Modellbildung, des Trainings und des Hyperparametertunings, erleichtern. Es enthält eine Problembeschreibung, einen Vorgehensplan, Ideen, Experimente, sowie deren Resultaten und Interpretationen. Für den Schlussbericht sollen idealerweise grosse Teile direkt aus dem Study Doc übernommen werden können.

Zu verwendende Technologien:

• Git, Python, Docker

Kreativität, Varianten, Innovation:

• Evaluation Embedding-Verfahren, Hyper-parameter tuning,

• Evaluation weitere Textquellen

• Algorithmus zum Erstellen eines Taxonomie-Baumes aus Word-Embeddings