NLP - Named Entity Recognition (NER) in der Agrardomäne
Project Idea Metadata
- Project Idea Name: NLP - Named Entity Recognition (NER) in der Agrardomäne
- Date: 6/21/2022 2:22:15 PM
- Administrators:
Project Idea Description
Ausgangslage und Problemstellung
Mithilfe von Named Entity Recognition (NER) sollen in unstrukturierten Textdokumenten aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) Inhalte (Personen, Orte, Organisationen, Artikel, Preise, Währungen, etc.) in einem Text gefunden und korrekt klassifiziert werden. Zudem sollen diese Inhalte mithilfe der NLP-Task Relationship-Extraction zueinander in Beziehung gesetzt werden (z. B. Weizen aus den USA kostet aktuell 20 Dollar).
Ziel der Arbeit und erwartete Resultate
Mittels NER sollen aus unstrukturierten Textdaten strukturierte Kontextinformationen extrahiert und in vordefinierte Kategorien eingeordnet werden. Darüber hinaus soll Relationship Extraction genutzt werden, um semantische Beziehungen zwischen zwei oder mehreren Entitäten eines bestimmten Typs (z.B. Person, Organisation, Ort) zu extrahieren, die in eine Reihe semantischer Kategorien fallen (z.B. Preise in Paris unter 200€ gefallen, Weizenexport im Juli um 30% gestiegen, etc.). Ziel der Arbeit ist einen Algorithmus zu entwickeln und zu trainieren, der mit der domänenspezifischen Sprache und der grossen Anzahl an landwirtschaftlichen Begriffen zurechtkommt.
Ergebnisse:
- Recherchebericht zu Named Entity Recognition und Relationship-Extraction
- Aufbereitung und Pre-Processing der Daten
- Mit unterschiedlichen Ansätzen trainierte Modelle und Evaluierung/Vergleich der Ergebnisse mit den gängigen Metriken
- Einfacher webbasierter Demonstrator
Gewünschte Methoden/Vorgehen
Zuerst soll eine State-of-the-Art Recherche zu Named Entity Recognition und Relationship-Extraction durchgeführt werden. Im zweiten Schritt sollen mit den vielversprechendsten Ansätzen Modelle trainiert, optimiert und mit für diese Aufgabe typischen Metriken verglichen werden. Für diese Aufgabe soll primär ein Supervised-Learning-Ansatz mit gelabelten Daten verwendet werden. Weiterhin sollen Bootstrapping-Ansätze (z.B. http://dx.doi.org/10.18653/v1/d15-1056) evaluiert werden, um auch nicht gelabelte Trainingsbeispiele verwenden zu können (Semi-Supervised Learning). Auf diese Weise kann ein erstes Modell mit gelabelten Daten trainiert werden, und dieses Modell kann dann verwendet werden, um die nicht gelabelten Daten zu markieren und damit in neues Modell zu trainieren. Das beste Modell soll in eine simple webbasierte Anwendung zu Demonstrationszwecken integriert werden.
Kreativität, Varianten, Innovation
Den Studierenden ist die Aufgabenstellung (siehe oben) gegeben. Die zur Lösung eingesetzten Technologien und Frameworks können durch die Studierenden frei evaluiert werden.
Sonstige Bemerkungen
Daten bzw. Textdokumente aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) werden zur Verfügung gestellt.
Mithilfe von Named Entity Recognition (NER) sollen in unstrukturierten Textdokumenten aus der Agrarwirtschaft (Reports, E-Mails, Tweets etc.) Inhalte (Personen, Orte, Organisationen, Artikel, Preise, Währungen, etc.) in einem Text gefunden und korrekt klassifiziert werden. Zudem sollen diese Inhalte mithilfe der NLP-Task Relationship-Extraction zueinander in Beziehung gesetzt werden (z. B. Weizen aus den USA kostet aktuell 20 Dollar).