update
parent
0b64607e71
commit
5974b9eddc
13
README.md
13
README.md
|
|
@ -16,7 +16,7 @@ The data is sourced from the SemEval-2021 Task 7:
|
|||
It contains a dataset of humor and offense ratings for jokes. The jokes are annotated with a humor rating on a scale from 0 to 4.
|
||||
|
||||
- Traindata: HaHackathon.https://homepages.inf.ed.ac.uk/s1573290/data.html
|
||||
- Testdata: Since no test data was available, the traindata was used as test data and divided into test, train and validation data
|
||||
- Testdata: Since no test data was available, the traindata also was used as test data and divided into test, train and validation data
|
||||
|
||||
|
||||
## Data embeddings
|
||||
|
|
@ -24,10 +24,13 @@ It contains a dataset of humor and offense ratings for jokes. The jokes are anno
|
|||
|
||||
|
||||
### Preprocessing Steps
|
||||
1. Daten laden und bereinigen: Der Datensatz wird geladen und alle Zeilen mit fehlenden humor_rating-Werten werden entfernt. Außerdem wird die Zielvariable für die Humorbewertung extrahiert.
|
||||
2. Text-Embeddings: Vortrainierte GloVe-Embeddings werden geladen und in eine Matrix umgewandelt, die für die Modellierung genutzt werden kann.
|
||||
3. Datenaufteilung: Der Datensatz wird in Trainings-, Test- und Validierungsdaten aufgeteilt, um die Modelle später zu trainieren und zu evaluieren.
|
||||
4. Ensemble-Datenindizes: Verschiedene Methoden zur Erstellung von Datenindizes werden bereitgestellt, um die Trainingsdaten für Ensemble-Methoden aufzubereiten.
|
||||
**1. Daten laden und bereinigen:** Der Datensatz wird geladen und alle Zeilen mit fehlenden humor_rating-Werten werden entfernt. Außerdem wird die Zielvariable für die Humorbewertung extrahiert.
|
||||
|
||||
**2. Text-Embeddings:** Vortrainierte GloVe-Embeddings werden geladen und in eine Matrix umgewandelt, die für die Modellierung genutzt werden kann.
|
||||
|
||||
**3. Datenaufteilung:** Der Datensatz wird in Trainings-, Test- und Validierungsdaten aufgeteilt, um die Modelle später zu trainieren und zu evaluieren.
|
||||
|
||||
**4. Ensemble-Datenindizes:** Verschiedene Methoden zur Erstellung von Datenindizes werden bereitgestellt, um die Trainingsdaten für Ensemble-Methoden aufzubereiten.
|
||||
|
||||
---
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue