Formatierungsänderungen durch black, jetzt endgültig committen

2025-06-16 14:27:35 +02:00 · 2025-06-16 14:27:35 +02:00 · d22572cc44
parent 10e2996039
commit d22572cc44
6 changed files with 1734 additions and 0 deletions
--- a/project/backend/spacy-service/spacy_training/annotation_data.json
+++ b/project/backend/spacy-service/spacy_training/annotation_data.json
--- a/project/backend/spacy-service/spacy_training/data_to_json.py
+++ b/project/backend/spacy-service/spacy_training/data_to_json.py
@ -0,0 +1,18 @@
+import os
+import json
+from training_data import TRAINING_DATA
+
+# Setze hier den Pfad zu annotation_data.json
+OUTFILE = os.path.join(os.path.dirname(__file__), "annotation_data.json")
+
+json_list = []
+for text, annot in TRAINING_DATA:
+    entities = []
+    for start, end, label in annot["entities"]:
+        entities.append([start, end, label])
+    json_list.append({"text": text, "entities": entities})
+
+with open(OUTFILE, "w", encoding="utf8") as f:
+    json.dump(json_list, f, ensure_ascii=False, indent=2)
+
+print("Alle Trainingsdaten wurden erfolgreich nach annotation_data.json migriert!")
--- a/project/backend/spacy-service/spacy_training/json_append_to_ann.py
+++ b/project/backend/spacy-service/spacy_training/json_append_to_ann.py
@ -0,0 +1,18 @@
+import json
+
+# Alte Daten laden
+with open("annotation_data.json", "r", encoding="utf-8") as f:
+    data = json.load(f)
+
+# Neue Kennzahl (als Dict/Objekt)
+neuer_eintrag = {
+    "text": "Hier steht der Beispielsatz mit der neuen Kennzahl.",
+    "entities": [[1, 5, "NEUEKENNZAHL"]],
+}
+
+# Anhängen
+data.append(neuer_eintrag)
+
+# Wieder speichern
+with open("annotation_data.json", "w", encoding="utf-8") as f:
+    json.dump(data, f, ensure_ascii=False, indent=2)
--- a/project/backend/spacy-service/spacy_training/ner_trainer.py
+++ b/project/backend/spacy-service/spacy_training/ner_trainer.py
@ -0,0 +1,35 @@
+import spacy
+from spacy.training.example import Example
+import json
+
+
+def load_data(file_path):
+    with open(file_path, "r", encoding="utf8") as f:
+        raw = json.load(f)
+    TRAIN_DATA = []
+    for entry in raw:
+        text = entry["text"]
+        entities = [(start, end, label) for start, end, label in entry["entities"]]
+        TRAIN_DATA.append((text, {"entities": entities}))
+    return TRAIN_DATA
+
+
+def main():
+    TRAIN_DATA = load_data("annotation_data.json")
+    nlp = spacy.blank("de")
+    ner = nlp.add_pipe("ner")
+    ner.add_label("KENNZAHL")
+
+    optimizer = nlp.begin_training()
+    for i in range(20):
+        for text, annotations in TRAIN_DATA:
+            example = Example.from_dict(nlp.make_doc(text), annotations)
+            nlp.update([example], drop=0.2, sgd=optimizer)
+
+    nlp.to_disk("output/model-last")
+
+    # nlp.to_disk("model/")  # Speichert das Modell
+
+
+if __name__ == "__main__":
+    main()
--- a/project/backend/spacy-service/spacy_training/test.json
+++ b/project/backend/spacy-service/spacy_training/test.json
@ -0,0 +1,9 @@
+{
+  "id": "TEST",
+  "extracted_text_per_page": [
+    {
+      "page": 1,
+      "text": "Die Gesamtrendite beträgt 7,2 %."
+    }
+  ]
+}
--- a/project/docker-compose.yml
+++ b/project/docker-compose.yml
@ -57,6 +57,8 @@ services:
      - VALIDATE_SERVICE_URL=http://validate:5000/validate
    ports:
      - 5052:5052
+    volumes:
+      - ./backend/spacy-service/spacy_training:/app/spacy_training

  exxeta:
    build: