NLP - Named Entity Recognition (NER) in der Agrardomäne

AI Quick Summary

Mithilfe von Named Entity Recognition (NER) sollen in unstrukturierten Textdokumenten aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) Inhalte (Personen, Orte, Organisationen, Artikel, Preise, Währungen, etc.) in einem Text gefunden und korrekt klassifiziert werden. Zudem sollen diese Inhalte mithilfe der NLP-Task Relationship-Extraction zueinander in Beziehung gesetzt werden (z. B. Weizen aus den USA kostet aktuell 20 Dollar). Ausgangslage und ProblemstellungMithilfe von Named Entity Recognition (NER) sollen in unstrukturierten Textdokumenten aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) Inhalte (Personen, Orte, Organisationen, Artikel, Preise, Währungen, etc.) in einem Text gefunden und korrekt klassifiziert werden. Zudem sollen diese Inhalte mithilfe der NLP-Task Relationship-Extraction zueinander in Beziehung gesetzt werden (z. B. Weizen aus den USA kostet aktuell 20 Dollar).Ziel der Arbeit und erwartete ResultateMittels NER sollen aus unstrukturierten Textdaten strukturierte Kontextinformationen extrahiert und in vordefinierte Kategorien eingeordnet werden. Darüber hinaus soll Relationship Extraction genutzt werden, um semantische Beziehungen zwischen zwei oder mehreren Entitäten eines bestimmten Typs (z.B. Person, Organisation, Ort) zu extrahieren, die in eine Reihe semantischer Kategorien fallen (z.B. Preise in Paris unter 200€ gefallen, Weizenexport im Juli um 30% gestiegen, etc.). Ziel der Arbeit ist einen Algorithmus zu entwickeln und zu trainieren, der mit der domänenspezifischen Sprache und der grossen Anzahl an landwirtschaftlichen Begriffen zurechtkommt.Ergebnisse:Recherchebericht zu Named Entity Recognition und Relationship-ExtractionAufbereitung und Pre-Processing der DatenMit unterschiedlichen Ansätzen trainierte Modelle und Evaluierung/Vergleich der Ergebnisse mit den gängigen MetrikenEinfacher webbasierter DemonstratorGewünschte Methoden/VorgehenZuerst soll eine State-of-the-Art Recherche zu Named Entity Recognition und Relationship-Extraction durchgeführt werden. Im zweiten Schritt sollen mit den vielversprechendsten Ansätzen Modelle trainiert, optimiert und mit für diese Aufgabe typischen Metriken verglichen werden. Für diese Aufgabe soll primär ein Supervised-Learning-Ansatz mit gelabelten Daten verwendet werden. Weiterhin sollen Bootstrapping-Ansätze (z.B. http://dx.doi.org/10.18653/v1/d15-1056) evaluiert werden, um auch nicht gelabelte Trainingsbeispiele verwenden zu können (Semi-Supervised Learning). Auf diese Weise kann ein erstes Modell mit gelabelten Daten trainiert werden, und dieses Modell kann dann verwendet werden, um die nicht gelabelten Daten zu markieren und damit in neues Modell zu trainieren. Das beste Modell soll in eine simple webbasierte Anwendung zu Demonstrationszwecken integriert werden. Kreativität, Varianten, InnovationDen Studierenden ist die Aufgabenstellung (siehe oben) gegeben. Die zur Lösung eingesetzten Technologien und Frameworks können durch die Studierenden frei evaluiert werden.Sonstige BemerkungenDaten bzw. Textdokumente aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) werden zur Verfügung gestellt.

Project Idea Metadata

Project Idea Name: NLP - Named Entity Recognition (NER) in der Agrardomäne
Date: 6/21/2022 2:22:15 PM
Administrators:
- Guido Kniesel

Project Idea Description

Ausgangslage und Problemstellung

Ziel der Arbeit und erwartete Resultate

Mittels NER sollen aus unstrukturierten Textdaten strukturierte Kontextinformationen extrahiert und in vordefinierte Kategorien eingeordnet werden. Darüber hinaus soll Relationship Extraction genutzt werden, um semantische Beziehungen zwischen zwei oder mehreren Entitäten eines bestimmten Typs (z.B. Person, Organisation, Ort) zu extrahieren, die in eine Reihe semantischer Kategorien fallen (z.B. Preise in Paris unter 200€ gefallen, Weizenexport im Juli um 30% gestiegen, etc.). Ziel der Arbeit ist einen Algorithmus zu entwickeln und zu trainieren, der mit der domänenspezifischen Sprache und der grossen Anzahl an landwirtschaftlichen Begriffen zurechtkommt.

Ergebnisse:

Recherchebericht zu Named Entity Recognition und Relationship-Extraction
Aufbereitung und Pre-Processing der Daten
Mit unterschiedlichen Ansätzen trainierte Modelle und Evaluierung/Vergleich der Ergebnisse mit den gängigen Metriken
Einfacher webbasierter Demonstrator

Gewünschte Methoden/Vorgehen

Zuerst soll eine State-of-the-Art Recherche zu Named Entity Recognition und Relationship-Extraction durchgeführt werden. Im zweiten Schritt sollen mit den vielversprechendsten Ansätzen Modelle trainiert, optimiert und mit für diese Aufgabe typischen Metriken verglichen werden. Für diese Aufgabe soll primär ein Supervised-Learning-Ansatz mit gelabelten Daten verwendet werden. Weiterhin sollen Bootstrapping-Ansätze (z.B. http://dx.doi.org/10.18653/v1/d15-1056) evaluiert werden, um auch nicht gelabelte Trainingsbeispiele verwenden zu können (Semi-Supervised Learning). Auf diese Weise kann ein erstes Modell mit gelabelten Daten trainiert werden, und dieses Modell kann dann verwendet werden, um die nicht gelabelten Daten zu markieren und damit in neues Modell zu trainieren. Das beste Modell soll in eine simple webbasierte Anwendung zu Demonstrationszwecken integriert werden.

Kreativität, Varianten, Innovation

Den Studierenden ist die Aufgabenstellung (siehe oben) gegeben. Die zur Lösung eingesetzten Technologien und Frameworks können durch die Studierenden frei evaluiert werden.

Sonstige Bemerkungen

Daten bzw. Textdokumente aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) werden zur Verfügung gestellt.