This page is optimized for AI. For the human-readable: NLP - Named Entity Recognition (NER) in der Agrardomäne

NLP - Named Entity Recognition (NER) in der Agrardomäne

Project Idea Metadata

Project Idea Description

Ausgangslage und Problemstellung

Mithilfe von Named Entity Recognition (NER) sollen in unstrukturierten Textdokumenten aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) Inhalte (Personen, Orte, Organisationen, Artikel, Preise, Währungen, etc.) in einem Text gefunden und korrekt klassifiziert werden. Zudem sollen diese Inhalte mithilfe der NLP-Task Relationship-Extraction zueinander in Beziehung gesetzt werden (z. B. Weizen aus den USA kostet aktuell 20 Dollar).


Ziel der Arbeit und erwartete Resultate

Mittels NER sollen aus unstrukturierten Textdaten strukturierte Kontextinformationen extrahiert und in vordefinierte Kategorien eingeordnet werden. Darüber hinaus soll Relationship Extraction genutzt werden, um semantische Beziehungen zwischen zwei oder mehreren Entitäten eines bestimmten Typs (z.B. Person, Organisation, Ort) zu extrahieren, die in eine Reihe semantischer Kategorien fallen (z.B. Preise in Paris unter 200€ gefallen, Weizenexport im Juli um 30% gestiegen, etc.). Ziel der Arbeit ist einen Algorithmus zu entwickeln und zu trainieren, der mit der domänenspezifischen Sprache und der grossen Anzahl an landwirtschaftlichen Begriffen zurechtkommt.


Ergebnisse:


Gewünschte Methoden/Vorgehen

Zuerst soll eine State-of-the-Art Recherche zu Named Entity Recognition und Relationship-Extraction durchgeführt werden. Im zweiten Schritt sollen mit den vielversprechendsten Ansätzen Modelle trainiert, optimiert und mit für diese Aufgabe typischen Metriken verglichen werden. Für diese Aufgabe soll primär ein Supervised-Learning-Ansatz mit gelabelten Daten verwendet werden. Weiterhin sollen Bootstrapping-Ansätze (z.B. http://dx.doi.org/10.18653/v1/d15-1056) evaluiert werden, um auch nicht gelabelte Trainingsbeispiele verwenden zu können (Semi-Supervised Learning). Auf diese Weise kann ein erstes Modell mit gelabelten Daten trainiert werden, und dieses Modell kann dann verwendet werden, um die nicht gelabelten Daten zu markieren und damit in neues Modell zu trainieren. Das beste Modell soll in eine simple webbasierte Anwendung zu Demonstrationszwecken integriert werden.


Kreativität, Varianten, Innovation

Den Studierenden ist die Aufgabenstellung (siehe oben) gegeben. Die zur Lösung eingesetzten Technologien und Frameworks können durch die Studierenden frei evaluiert werden.


Sonstige Bemerkungen

Daten bzw. Textdokumente aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) werden zur Verfügung gestellt.


Mithilfe von Named Entity Recognition (NER) sollen in unstrukturierten Textdokumenten aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) Inhalte (Personen, Orte, Organisationen, Artikel, Preise, Währungen, etc.) in einem Text gefunden und korrekt klassifiziert werden. Zudem sollen diese Inhalte mithilfe der NLP-Task Relationship-Extraction zueinander in Beziehung gesetzt werden (z. B. Weizen aus den USA kostet aktuell 20 Dollar).