TRAINING

Training ist deaktiviert.

Um Training zu aktivieren, setzen Sie ENABLE_TRAINING=True in der .env-Datei und starten Sie die Anwendung neu.

Daten hochladen

CSV mit Spalten: lemma, bedeutung, sachgruppe

Einzeltraining

Modell-Typ

Algorithmus für die Klassifikation. SVM ist ein guter Standard – schnell und genau. XGBoost erreicht oft die höchste Accuracy, braucht aber deutlich länger.

Test-Anteil

20%

Anteil der Daten, der für die Evaluation zurückgehalten wird (nicht zum Training genutzt). 20% ist ein üblicher Standardwert.

Stoppwörter entfernen

aus

Entfernt häufige Funktionswörter (Artikel, Präpositionen, Hilfsverben) aus stopwords_de.txt vor der TF-IDF-Vektorisierung. Ermöglicht Vergleich mit/ohne Stoppwörter.

Min. Wortlänge

≥ 1 Zeichen

Wörter kürzer als dieser Wert werden vor der Vektorisierung entfernt. Wert 1 bedeutet: alle Wörter bleiben. Ab 2 fallen Einzelbuchstaben weg, ab 3 auch zweistellige Abkürzungen.

Analyzer

Zeichen-N-Gramme (char_wb): Features sind Zeichenfolgen innerhalb von Wörtern. Robuster bei Tippfehlern und morphologischen Varianten (Flexion, Komposita).

Hyperparameter-Tuning

Legt fest, welche Modellparameter beim Training verwendet werden (Einzel- und Batchtraining).

Standard-Werte

Auto Tune

Parameter definieren

Verwendete Standardparameter:

SVM: C=1.0 · max_iter=5000 · dual=False · class_weight=balanced

MENÜ

TRAINING

Daten hochladen

Einzeltraining

Hyperparameter-Tuning

Batch-Training

ÜBERSICHT