LexoTerm Sachgruppen-Klassifikation
Training ist deaktiviert.
Um Training zu aktivieren, setzen Sie ENABLE_TRAINING=True in der .env-Datei und starten Sie die Anwendung neu.
CSV mit Spalten: lemma, bedeutung, sachgruppe
Modell-Typ
Algorithmus für die Klassifikation. SVM ist ein guter Standard – schnell und genau. XGBoost erreicht oft die höchste Accuracy, braucht aber deutlich länger.
Test-Anteil
20%
Anteil der Daten, der für die Evaluation zurückgehalten wird (nicht zum Training genutzt). 20% ist ein üblicher Standardwert.
Stoppwörter entfernen
aus
Entfernt häufige Funktionswörter (Artikel, Präpositionen, Hilfsverben) aus stopwords_de.txt vor der TF-IDF-Vektorisierung. Ermöglicht Vergleich mit/ohne Stoppwörter.
Min. Wortlänge
≥ 1 Zeichen
Wörter kürzer als dieser Wert werden vor der Vektorisierung entfernt. Wert 1 bedeutet: alle Wörter bleiben. Ab 2 fallen Einzelbuchstaben weg, ab 3 auch zweistellige Abkürzungen.
Analyzer
Zeichen-N-Gramme (char_wb): Features sind Zeichenfolgen innerhalb von Wörtern. Robuster bei Tippfehlern und morphologischen Varianten (Flexion, Komposita).
Legt fest, welche Modellparameter beim Training verwendet werden (Einzel- und Batchtraining).
Verwendete Standardparameter:
SVM: C=1.0 · max_iter=5000 · dual=False · class_weight=balanced
Trainiere mehrere Parameterkombinationen in einem Durchlauf. Alle Kombinationen aus den gewählten Optionen werden kreuzweise trainiert.
Modell-Typen:
Linear SVM
Logistic Regression
Random Forest
Neural Network
XGBoost
Stoppwörter:
nicht entfernen
entfernen
Min. Wortlänge:
≥ 1
≥ 2
≥ 3
Analyzer:
char_wb
word-(1,1)
word-(1,2)
1 Modelle werden trainiert
ca. 0s (estimated)
Verfügbare Modelltypen
Linear SVM
Logistic Regression
Random Forest
Neural Network
XGBoost
Daten
–
Bestes Modell (Accuracy)
–
Built with Reflex