added glove embeddings

2025-01-27 20:55:22 +01:00 · 2025-01-27 20:55:22 +01:00 · a358432c91
parent 8279123019
commit a358432c91
7 changed files with 107 additions and 24 deletions
--- a/.gitignore
+++ b/.gitignore
@ -24,3 +24,7 @@ plots/
 # Ignore everything with delete_me in name
 *delete_me*
 # Ignore glove
 *.zip
 *glove*/
--- a/README.md
+++ b/README.md
@ -28,6 +28,8 @@ https://aclanthology.org/2021.semeval-1.9.pdf#:~:text=HaHackathon%20is%20the%20f
 ## Data embeddings
 - gloVe 6B tokens: https://nlp.stanford.edu/projects/glove/
--- a/data/embedded_padded/test.pt
+++ b/data/embedded_padded/test.pt
--- a/data/embedded_padded/train.pt
+++ b/data/embedded_padded/train.pt
--- a/data/embedded_padded/val.pt
+++ b/data/embedded_padded/val.pt
--- a/dataset_generator.py
+++ b/dataset_generator.py
@ -8,6 +8,7 @@ from nltk.tokenize import word_tokenize
 import gensim
 import torch
 import os
 import copy
 from HumorDataset import HumorDataset
@ -23,6 +24,27 @@ def get_embedding_vector(model, word):
    else:
        return np.zeros(model.vector_size)
 def load_glove_embeddings(glove_file_path):
    embeddings_index = {}
    with open(glove_file_path, 'r', encoding='utf-8') as f:
        for line in f:
            values = line.split()
            word = values[0]
            coefs = np.asarray(values[1:], dtype='float32')
            embeddings_index[word] = coefs
    return embeddings_index
 def get_embedding_glove_vector(tokens, embeddings_index, default_vector_len=100, pad_tok='<PAD>'):
    default_vec = [0] * default_vector_len
    emb_matrix = []
    for token in tokens:
        if token == pad_tok:
            embedding_vector = default_vec
        else:
            embedding_vector = embeddings_index.get(token, default_vec)
        emb_matrix.append(embedding_vector)
    return emb_matrix
 def encode_tokens(tokens, vector=False):
    if vector:
        return [get_embedding_vector(model_embedding, token) for token in tokens]
@ -88,7 +110,6 @@ if __name__ == "__main__":
    # split data into train, test, and validation
    data_dict = split_data(padded_indices, y)
    # TODO: test gloVe embeddings
    # Embed the data with word2vec
    model_embedding = gensim.models.Word2Vec(tokens, window=5, min_count=1, workers=4)
@ -101,7 +122,7 @@ if __name__ == "__main__":
    pad_index = model_embedding.wv.key_to_index['<PAD>']
-    data_idx_based = data_dict.copy()
+    data_idx_based = copy.deepcopy(data_dict)
    vector_based = False
    for key in data_idx_based.keys():
@ -112,10 +133,15 @@ if __name__ == "__main__":
    # save the data
    save_data(data_idx_based, 'data/idx_based_padded/', '', vocab_size)
    print('loading GloVe embeddings')
    vector_based = True
    # Load GloVe embeddings
    glove_file_path = 'glove.6B/glove.6B.100d.txt'
    embeddings_index = load_glove_embeddings(glove_file_path)
    print('starting with embedding the data')
    # Encode the tokens
    for key in data_dict.keys():
-        data_dict[key]['X'] = [encode_tokens(tokens, vector_based) for tokens in data_dict[key]['X']]
+        data_dict[key]['X'] = [get_embedding_glove_vector(tokens, embeddings_index) for tokens in data_dict[key]['X']]
        # print shape of data
        #print(key, len(data_dict[key]['X']), len(data_dict[key]['y']))
--- a/transformer_evaluation.ipynb
+++ b/transformer_evaluation.ipynb
		`@ -28,6 +28,8 @@ https://aclanthology.org/2021.semeval-1.9.pdf#:~:text=HaHackathon%20is%20the%20f`



							`## Data embeddings`
							`- gloVe 6B tokens: https://nlp.stanford.edu/projects/glove/`