# Master MDS Use NLP techniques to analyse texts or to build an application. Document your approach.

Go to file

Felix Jan Michael Mucha 2ff92b9e15 !!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)		2025-02-15 17:16:34 +01:00
data	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
histories	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
.gitignore	added helpfull functionality	2025-02-09 15:33:01 +01:00
BERT.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
CNN.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
Datasets.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
EarlyStopping.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
LICENSE	Initial commit	2025-01-17 20:26:51 +01:00
LSTM.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
README.md	added glove embeddings	2025-01-27 20:55:22 +01:00
Transformer.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
cnn_bootstrap_agg.py	subset update+plots	2025-02-14 23:54:47 +01:00
data_exploration.ipynb	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
dataset_helper.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
ml_helper.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
ml_history.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
ml_plots.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
ml_train.py	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
model_comparison.ipynb	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
model_evaluation.ipynb	!!!WARNING!!! Nuclear refactoring bomb in coming (Now 90% more confusing but 100% cleaner)	2025-02-15 17:16:34 +01:00
transformer_bootstrap_agg.py	lines dashed	2025-02-15 14:23:10 +01:00

README.md

ANLP_WS24_CA2

Master MDS Use NLP techniques to analyse texts or to build an application. Document your approach.

TODOS

data

maybe buffer zone between good and bad jokes (trade off would be less data)
maybe not bineary classification
maybe change to humor detection (more data available)
dataset shape doesnt work correctly
history: integrate validation loss

Data

https://competitions.codalab.org/competitions/27446

https://aclanthology.org/2021.semeval-1.9.pdf#:~:text=HaHackathon%20is%20the%20first%20shared%20task%20to%20combine,its%20average%20ratings%20for%20both%20humor%20and%20offense.

Hackathon: https://homepages.inf.ed.ac.uk/s1573290/data.html

Data embeddings

gloVe 6B tokens: https://nlp.stanford.edu/projects/glove/

Not Prioritised (Pun data)

Challenge https://alt.qcri.org/semeval2017/task7/
Pun Annotated Amazon (joke not included ...): https://github.com/amazon-science/expunations/tree/main/data