LexoTerm Logo

LexoTerm Sachgruppen-Klassifikation

MENÜ

Start

Training

Analyse

Vorhersage

Sachgruppen

Anleitung

Version 0.1

TRAINING

Training ist deaktiviert.

Um Training zu aktivieren, setzen Sie ENABLE_TRAINING=True in der .env-Datei und starten Sie die Anwendung neu.

Daten hochladen

CSV mit Spalten: lemma, bedeutung, sachgruppe

Einzeltraining

Modell-Typ

Algorithmus für die Klassifikation. SVM ist ein guter Standard – schnell und genau. XGBoost erreicht oft die höchste Accuracy, braucht aber deutlich länger.

Test-Anteil

20%

Anteil der Daten, der für die Evaluation zurückgehalten wird (nicht zum Training genutzt). 20% ist ein üblicher Standardwert.

Stoppwörter entfernen

aus

Entfernt häufige Funktionswörter (Artikel, Präpositionen, Hilfsverben) aus stopwords_de.txt vor der TF-IDF-Vektorisierung. Ermöglicht Vergleich mit/ohne Stoppwörter.

Min. Wortlänge

≥ 1 Zeichen

Wörter kürzer als dieser Wert werden vor der Vektorisierung entfernt. Wert 1 bedeutet: alle Wörter bleiben. Ab 2 fallen Einzelbuchstaben weg, ab 3 auch zweistellige Abkürzungen.

Analyzer

Zeichen-N-Gramme (char_wb): Features sind Zeichenfolgen innerhalb von Wörtern. Robuster bei Tippfehlern und morphologischen Varianten (Flexion, Komposita).

Hyperparameter-Tuning

Legt fest, welche Modellparameter beim Training verwendet werden (Einzel- und Batchtraining).

Verwendete Standardparameter:

SVM: C=1.0 · max_iter=5000 · dual=False · class_weight=balanced

Batch-Training

Trainiere mehrere Parameterkombinationen in einem Durchlauf. Alle Kombinationen aus den gewählten Optionen werden kreuzweise trainiert.

Modell-Typen:

Linear SVM

Logistic Regression

Random Forest

Neural Network

XGBoost

Stoppwörter:

nicht entfernen

entfernen

Min. Wortlänge:

≥ 1

≥ 2

≥ 3

Analyzer:

char_wb

word-(1,1)

word-(1,2)

1 Modelle werden trainiert

ca. 0s (estimated)

ÜBERSICHT

Verfügbare Modelltypen

svm

Linear SVM

logistic

Logistic Regression

rf

Random Forest

nn

Neural Network

xgboost

XGBoost

Daten

Bestes Modell (Accuracy)

Built with Reflex