From 5974b9eddc3878d1ca34d63453d6a7905f55995b Mon Sep 17 00:00:00 2001 From: klara Date: Sun, 16 Feb 2025 19:02:06 +0100 Subject: [PATCH] update --- README.md | 13 ++++++++----- 1 file changed, 8 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index f09e545..76430cb 100644 --- a/README.md +++ b/README.md @@ -16,7 +16,7 @@ The data is sourced from the SemEval-2021 Task 7: It contains a dataset of humor and offense ratings for jokes. The jokes are annotated with a humor rating on a scale from 0 to 4. - Traindata: HaHackathon.https://homepages.inf.ed.ac.uk/s1573290/data.html -- Testdata: Since no test data was available, the traindata was used as test data and divided into test, train and validation data +- Testdata: Since no test data was available, the traindata also was used as test data and divided into test, train and validation data ## Data embeddings @@ -24,10 +24,13 @@ It contains a dataset of humor and offense ratings for jokes. The jokes are anno ### Preprocessing Steps -1. Daten laden und bereinigen: Der Datensatz wird geladen und alle Zeilen mit fehlenden humor_rating-Werten werden entfernt. Außerdem wird die Zielvariable für die Humorbewertung extrahiert. -2. Text-Embeddings: Vortrainierte GloVe-Embeddings werden geladen und in eine Matrix umgewandelt, die für die Modellierung genutzt werden kann. -3. Datenaufteilung: Der Datensatz wird in Trainings-, Test- und Validierungsdaten aufgeteilt, um die Modelle später zu trainieren und zu evaluieren. -4. Ensemble-Datenindizes: Verschiedene Methoden zur Erstellung von Datenindizes werden bereitgestellt, um die Trainingsdaten für Ensemble-Methoden aufzubereiten. +**1. Daten laden und bereinigen:** Der Datensatz wird geladen und alle Zeilen mit fehlenden humor_rating-Werten werden entfernt. Außerdem wird die Zielvariable für die Humorbewertung extrahiert. + +**2. Text-Embeddings:** Vortrainierte GloVe-Embeddings werden geladen und in eine Matrix umgewandelt, die für die Modellierung genutzt werden kann. + +**3. Datenaufteilung:** Der Datensatz wird in Trainings-, Test- und Validierungsdaten aufgeteilt, um die Modelle später zu trainieren und zu evaluieren. + +**4. Ensemble-Datenindizes:** Verschiedene Methoden zur Erstellung von Datenindizes werden bereitgestellt, um die Trainingsdaten für Ensemble-Methoden aufzubereiten. ---