neue-Kennzahl-spacy #94

1924466 · 2025-06-25T16:55:35+02:00

1924466 commented

2025-06-25 16:55:35 +02:00

Closes #26
Neues spaCy-Training eingebaut:
neues Format für die Trainingsdaten (.json),
neues Trainingsskript
API-Endpunkt im Flask-Controller zum Triggern des Trainings per Button.

Frontend:
„Neu trainieren“-Button eingebaut,
neue kennzahl Form angepasst
Message-Ausgabe bei Erfolg/Misserfolg.

Closes #26 Neues spaCy-Training eingebaut: neues Format für die Trainingsdaten (.json), neues Trainingsskript API-Endpunkt im Flask-Controller zum Triggern des Trainings per Button. Frontend: „Neu trainieren“-Button eingebaut, neue kennzahl Form angepasst Message-Ausgabe bei Erfolg/Misserfolg.

3019483 was assigned by 1924466

2025-06-25 16:55:35 +02:00

1924466 added 5 commits 2025-06-25 16:55:35 +02:00

d22572cc44 Formatierungsänderungen durch black, jetzt endgültig committen

09c314eea3 Merge remote-tracking branch 'origin/main' into neue-Kennzahl-spacy

abccb43741 WIP: Fehler F401 behoben, cleanup vor Branchwechsel

2f1d591202 Merge remote-tracking branch 'origin/main' into neue-Kennzahl-spacy

c9de2cb027 Frontend wie besprochen erweitert, Flask-Backend um Training ergänzt, neue spaCy-Trainingsdaten (.json) und Trainings-Skript hinzugefügt

1924466 added 1 commit 2025-06-25 16:59:37 +02:00

4922dbee95 Formatierung durch Black übernommen

3019483 commented

2025-06-25 22:09:08 +02:00

Leider bekomme ich Fehler vom Koordinator beim Erstellen des Containers. Und bei SpaCy gibt es auch Probleme mit einem Import. Beides im Screenshot zu sehen. Ich habe auch alle Container gelöscht, hat aber nix geholfen...

Screenshot 2025-06-25 at 22.06.08.png

1.8 MiB

3019483 reviewed 2025-06-25 22:14:53 +02:00

project/backend/coordinator/controller/spacy_controller.py Outdated

													
				@ -0,0 +101,4 @@

				    if not entry or "text" not in entry or "entities" not in entry:

				        return (

				            jsonify(

				                {"error": "Ungültiges Format – 'text' und 'entities' erforderlich."}

3019483 commented

2025-06-25 22:10:26 +02:00

Die Watermarks von ChatGPT löschen/andern zu normalen Zeichen. Sind ein paar im code zu finden.

1924466 marked this conversation as resolved

project/backend/spacy-service/spacy_training/ner_trainer.py

													
				@ -0,0 +28,4 @@

				    nlp.to_disk("output/model-last")

				    # nlp.to_disk("model/")  # Speichert das Modell

3019483 commented

2025-06-25 22:12:05 +02:00

Kommentierter Code auch gerne weg. Auch an anderen paar stellen ;)

1924466 marked this conversation as resolved

project/frontend/Dockerfile

													
				@ -6,2 +6,3 @@

				COPY package.json bun.lockb ./

				RUN bun install --frozen-lockfile

				#RUN bun install --frozen-lockfile

				RUN bun install

3019483 commented

2025-06-25 22:13:19 +02:00

Wieso hast du das geändert? Also scheint keinen Unterschied zu machen, aber interessiert mich, ob das besser ist?

1924466 marked this conversation as resolved

project/frontend/src/components/KPIForm.tsx Outdated

													
				@ -121,0 +182,4 @@

				                    helperText={

				                        !formData.markedValue?.trim()

				                        ? "Markierter Begriff ist erforderlich"

				                        : "Nur der Begriff, der im Satz markiert werden soll (z. B. Core/Core+)"

3019483 commented

2025-06-25 22:14:00 +02:00

Watermark

1924466 marked this conversation as resolved

project/frontend/src/components/KPIForm.tsx Outdated

													
				@ -248,0 +331,4 @@

				  };

				}

				// function appendAndDownload(newEntry: any, existing: any[] = []) {

3019483 commented

2025-06-25 22:14:15 +02:00

kann weg

1924466 marked this conversation as resolved

1924466 added 2 commits 2025-06-27 10:26:01 +02:00

a54aff734f Merge-Konflikt in docker-compose.yml gelöst (vor Stash-Wiederherstellung)

77d169633e Merge remote-tracking branch 'origin/main' into neue-Kennzahl-spacy

1924466 added 1 commit 2025-06-27 11:42:04 +02:00

fd8bfa3952 Formatierung durch black, extract-Funktion bereinigt

3019483 commented

2025-06-27 18:06:02 +02:00

Es gibt beim traininer von dem daten die schon drinn waren probleme. Teilweise sind es deine Test daten (die weg mussen) aber auch von Rendite "/usr/local/lib/python3.12/site-packages/spacy/training/iob_utils.py:149: UserWarning:
ährliche Ausschüttung*
84,..." with entities "[(96,
'RENDITE'), (49, 53, 'AUSSCHÜTTUNGSREND...". Use
ck the alignment. Misaligned entities ('-') will be ignored during"

Sehe screenshot.

Es gibt beim traininer von dem daten die schon drinn waren probleme. Teilweise sind es deine Test daten (die weg mussen) aber auch von Rendite "/usr/local/lib/python3.12/site-packages/spacy/training/iob_utils.py:149: UserWarning: ährliche Ausschüttung* 84,..." with entities "[(96, 'RENDITE'), (49, 53, 'AUSSCHÜTTUNGSREND...". Use ck the alignment. Misaligned entities ('-') will be ignored during" Sehe screenshot.

Screenshot 2025-06-27 at 18.00.00.png

2.4 MiB

3025495 approved these changes 2025-06-27 19:52:36 +02:00

project/backend/exxetaGPT-service/Dockerfile Outdated

													
				@ -0,0 +1,8 @@

				FROM python:3.11-slim

3025495 commented

2025-06-27 18:58:58 +02:00

Wofür benötigst du die Datei? Der nutzt eigentlich zusammen mit dem validate-service das Dockerfile ein Verzeichnis weiter oben.

1924466 commented

2025-06-28 18:11:28 +02:00

Poster

Stimmt, das war nur zum Testen – ich räum das wieder auf. Wir brauchen dieses Dockerfile nicht

1924466 marked this conversation as resolved

project/backend/spacy-service/Dockerfile

													
				@ -11,6 +11,8 @@ COPY requirements.txt /app

				RUN pip install --upgrade pip

				RUN pip install --no-cache-dir -r requirements.txt

				RUN pip install flask-cors

3025495 commented

2025-06-27 19:00:07 +02:00

requirements bitte nicht einzeln im Dockerfile installieren, du hast sie schon in der requirement.txt.

1924466 commented

2025-06-28 18:16:29 +02:00

Poster

Danke für den Hinweis – die Zeile nehme ich wieder raus, ist ja schon in der requirements.txt drin.

project/backend/spacy-service/save_training_entry.py

													
				@ -0,0 +1,33 @@

				from flask import Flask, request, jsonify

3025495 commented

2025-06-27 19:05:05 +02:00

Was macht die datei? Ich sehe keine stelle, an die die referenziert wird und die Flask-App wird glaube ich auch nicht gestartet

1924466 commented

2025-06-28 18:32:15 +02:00

Poster

Wird aktuell gar nicht genutzt – ich hatte die Datei nur kurz verwendet, um Trainingsdaten von einer Python-Liste in JSON umzuwandeln. Kann gelöscht werden

project/backend/spacy-service/spacy_training/json_append_to_ann.py

													
				@ -0,0 +1,18 @@

				import json

3025495 commented

2025-06-27 19:08:26 +02:00

Die Datei wird glaube ich auch nirgends verwendet

1924466 commented

2025-06-28 18:43:06 +02:00

Poster

Wird aktuell gar nicht genutzt – kann raus, war nur ein Testfile. Lösch ich direkt.

project/docker-compose.yml Outdated

													
				@ -38,2 +38,4 @@

				    ports:

				      - 5050:5000

				    volumes:

				      - ./backend/spacy-service/spacy_training:/app/spacy_training

3025495 commented

2025-06-27 19:39:54 +02:00

Hiermit tauschen der Coordinator und spaCy Daten über eine gemeinsame Datei aus. Das bedeutet, dass beide auf denselben Ordner zugreifen, der in zwei Container eingebunden ist. Das funktioniert zwar, widerspricht aber unserer gewünschten Architektur. Unser Ziel ist es, dass unsere Services ausschließlich über REST-Schnittstellen kommunizieren, um eine klarere und besser skalierbare Struktur zu haben.

Aktuell werden zwei Dateien für diese Kommunikation genutzt:

annotation_data.json: (die Trainingsdaten)
training_running.json: (der Status des Training, also ob ein Training gerade läuft oder abgeschlossen ist.)

Trainingsdaten:

Für die Trainingsdaten hast du im spacy-service schon die Methode, damit spacy die Daten verwalten kann (app.py Zeile 53):

@app.route("/append-training-entry", methods=["POST"])
def append_training_entry():
    entry = request.get_json()

Für die Anpassung sollte es reichen, wenn du im Coordinator die Daten an die API weiterleitest (spacy_controller.py Zeile 111)

@spacy_controller.route("/append-training-entry", methods=["POST"])
def append_training_entry():
  request.post(f"{SPACY_URL}/append-training-entry", data) # von der idee her, hier die daten weiterleiten

Status des Trainings:

Hierfür brauchst du im coordinator/controller/spacy_controller.py einen neuen API-Endpunkt, um den Status zu empfangen.

@spacy_controller.route('/training/status', methods=['POST'])
def update_training_status():
    data = request.json
    running_status = data.get('running')
    # Hier kannst du den Status verarbeiten, z.B. speichern oder weiterleiten
    return jsonify({"status": "success", "running": running_status})

In spacy-service/spacy_training/ner_training Zeile 69 rufst du den API-Endpunkt des Controllers auf:

  response = requests.post(f"{CONTROLLER_URL}/training/status", json={"running": False})
if response.status_code == 200:
    print("Status erfolgreich aktualisiert")
else:
    print("Fehler beim Aktualisieren des Status")

Hiermit tauschen der Coordinator und spaCy Daten über eine gemeinsame Datei aus. Das bedeutet, dass beide auf denselben Ordner zugreifen, der in zwei Container eingebunden ist. Das funktioniert zwar, widerspricht aber unserer gewünschten Architektur. Unser Ziel ist es, dass unsere Services ausschließlich über REST-Schnittstellen kommunizieren, um eine klarere und besser skalierbare Struktur zu haben. Aktuell werden zwei Dateien für diese Kommunikation genutzt: * annotation_data.json: (die Trainingsdaten) * training_running.json: (der Status des Training, also ob ein Training gerade läuft oder abgeschlossen ist.) #### Trainingsdaten: Für die Trainingsdaten hast du im spacy-service schon die Methode, damit spacy die Daten verwalten kann (app.py Zeile 53): ```python @app.route("/append-training-entry", methods=["POST"]) def append_training_entry(): entry = request.get_json() ``` Für die Anpassung sollte es reichen, wenn du im Coordinator die Daten an die API weiterleitest (spacy_controller.py Zeile 111) ```python @spacy_controller.route("/append-training-entry", methods=["POST"]) def append_training_entry(): request.post(f"{SPACY_URL}/append-training-entry", data) # von der idee her, hier die daten weiterleiten ``` #### Status des Trainings: Hierfür brauchst du im coordinator/controller/spacy_controller.py einen neuen API-Endpunkt, um den Status zu empfangen. ```python @spacy_controller.route('/training/status', methods=['POST']) def update_training_status(): data = request.json running_status = data.get('running') # Hier kannst du den Status verarbeiten, z.B. speichern oder weiterleiten return jsonify({"status": "success", "running": running_status}) ``` In spacy-service/spacy_training/ner_training Zeile 69 rufst du den API-Endpunkt des Controllers auf: ```python response = requests.post(f"{CONTROLLER_URL}/training/status", json={"running": False}) if response.status_code == 200: print("Status erfolgreich aktualisiert") else: print("Fehler beim Aktualisieren des Status") ```

1924466 commented

2025-06-29 00:04:59 +02:00

Poster

Vielen Dank für die ausführliche Erklärung!
Ich habe den Code wie von dir beschrieben angepasst und die Änderung umgesetzt.
Bitte teste noch einmal, ob jetzt alles wie erwartet funktioniert.

Vielen Dank für die ausführliche Erklärung! Ich habe den Code wie von dir beschrieben angepasst und die Änderung umgesetzt. Bitte teste noch einmal, ob jetzt alles wie erwartet funktioniert.

project/frontend/package.json Outdated

													
				@ -23,6 +23,7 @@

						"@tanstack/react-router": "^1.114.3",

						"@tanstack/react-router-devtools": "^1.114.3",

						"@tanstack/router-plugin": "^1.114.3",

						"file-saver": "^2.0.5",

3025495 commented

2025-06-27 19:43:03 +02:00

Ich habe keine stelle gefunden, wo du die bibliothek verwendest. Ist die noch von deinen versuchen, die Datei direkt aus dem Frontend zu bearbeiten?

1924466 commented

2025-06-28 22:48:37 +02:00

Poster

Guter Punkt – die file-saver-Bibliothek war ein Testversuch,

Guter Punkt – die `file-saver`-Bibliothek war ein Testversuch,

3025495 approved these changes 2025-06-27 19:56:27 +02:00

3025495 left a comment

Ich habe bemerkt, dass die Datei annotation_data.json zweimal im Repository liegt: einmal im Root-Verzeichnis und einmal in spacy-service/spacy_training. Aus Konsistenzgründen wäre es sinnvoll, nur eine Version dieser Datei zu behalten. Überlege bitte, ob beide Versionen wirklich notwendig sind, oder ob eine davon gelöscht werden kann, um Redundanzen zu vermeiden.

3023730 commented

2025-06-28 11:34:55 +02:00

Bei der Überprüfung, ob der Wert in dem Beispielsatz vorkommt, ist mir aufgefallen, dass wenn man nach dem Wert ein Leerzeichen hat, er meckert, dass er den Wert nicht im Beispielsatz findet. Am besten prüfst du nur bis zum letzten Zeichen vor dem Leerzeichen, ich habe nämlich schon paar Minuten damit verschwendet den Fehler zu suchen.

Bildschirmfoto 2025-06-28 um 11.28.49.png

294 KiB

Bildschirmfoto 2025-06-28 um 11.28.57.png

14 KiB

Bildschirmfoto 2025-06-28 um 11.28.49.png

Bildschirmfoto 2025-06-28 um 11.28.57.png

3023730 closed this pull request

2025-06-28 11:34:55 +02:00

3023730 reopened this pull request

2025-06-28 11:35:01 +02:00

3023730 added 1 commit 2025-06-28 11:46:37 +02:00

15e7752e54 Merge branch 'main' into neue-Kennzahl-spacy

1924466 commented

2025-06-28 18:00:30 +02:00

Poster

Es gibt beim traininer von dem daten die schon drinn waren probleme. Teilweise sind es deine Test daten (die weg mussen) aber auch von Rendite "/usr/local/lib/python3.12/site-packages/spacy/training/iob_utils.py:149: UserWarning:
ährliche Ausschüttung*
84,..." with entities "[(96,
'RENDITE'), (49, 53, 'AUSSCHÜTTUNGSREND...". Use
ck the alignment. Misaligned entities ('-') will be ignored during"

Sehe screenshot.

ich hab die ungültigen Einträge aus der annotation_data.json bereinigt. Die meisten davon waren Dummy-Daten – auch der „Rendite“-Satz war ein Test von Frau Kohler.
Ich hab jetzt alles rausgeschmissen, was nicht valide oder token-aligned war.

> Es gibt beim traininer von dem daten die schon drinn waren probleme. Teilweise sind es deine Test daten (die weg mussen) aber auch von Rendite "/usr/local/lib/python3.12/site-packages/spacy/training/iob_utils.py:149: UserWarning: > ährliche Ausschüttung* > 84,..." with entities "[(96, > 'RENDITE'), (49, 53, 'AUSSCHÜTTUNGSREND...". Use > ck the alignment. Misaligned entities ('-') will be ignored during" > > Sehe screenshot. > Es gibt beim traininer von dem daten die schon drinn waren probleme. Teilweise sind es deine Test daten (die weg mussen) aber auch von Rendite "/usr/local/lib/python3.12/site-packages/spacy/training/iob_utils.py:149: UserWarning: > ährliche Ausschüttung* > 84,..." with entities "[(96, > 'RENDITE'), (49, 53, 'AUSSCHÜTTUNGSREND...". Use > ck the alignment. Misaligned entities ('-') will be ignored during" > > Sehe screenshot. ich hab die ungültigen Einträge aus der annotation_data.json bereinigt. Die meisten davon waren Dummy-Daten – auch der „Rendite“-Satz war ein Test von Frau Kohler. Ich hab jetzt alles rausgeschmissen, was nicht valide oder token-aligned war.

1924466 commented

2025-06-28 23:08:52 +02:00

Poster

Bei der Überprüfung, ob der Wert in dem Beispielsatz vorkommt, ist mir aufgefallen, dass wenn man nach dem Wert ein Leerzeichen hat, er meckert, dass er den Wert nicht im Beispielsatz findet. Am besten prüfst du nur bis zum letzten Zeichen vor dem Leerzeichen, ich habe nämlich schon paar Minuten damit verschwendet den Fehler zu suchen.

Danke, erledigt.

> Bei der Überprüfung, ob der Wert in dem Beispielsatz vorkommt, ist mir aufgefallen, dass wenn man nach dem Wert ein Leerzeichen hat, er meckert, dass er den Wert nicht im Beispielsatz findet. Am besten prüfst du nur bis zum letzten Zeichen vor dem Leerzeichen, ich habe nämlich schon paar Minuten damit verschwendet den Fehler zu suchen. Danke, erledigt.

1924466 commented

2025-06-29 00:06:25 +02:00

Poster

Ich habe bemerkt, dass die Datei annotation_data.json zweimal im Repository liegt: einmal im Root-Verzeichnis und einmal in spacy-service/spacy_training. Aus Konsistenzgründen wäre es sinnvoll, nur eine Version dieser Datei zu behalten. Überlege bitte, ob beide Versionen wirklich notwendig sind, oder ob eine davon gelöscht werden kann, um Redundanzen zu vermeiden.

im Root-Verzeichnis war versehntlich daort kopiert, ich habe es gelöscht , danke

> Ich habe bemerkt, dass die Datei annotation_data.json zweimal im Repository liegt: einmal im Root-Verzeichnis und einmal in spacy-service/spacy_training. Aus Konsistenzgründen wäre es sinnvoll, nur eine Version dieser Datei zu behalten. Überlege bitte, ob beide Versionen wirklich notwendig sind, oder ob eine davon gelöscht werden kann, um Redundanzen zu vermeiden. im Root-Verzeichnis war versehntlich daort kopiert, ich habe es gelöscht , danke

1924466 added 2 commits 2025-06-29 00:44:18 +02:00

09a3099584 Kommentare aus dem Review berücksichtigt und umgesetzt

12783539b3 annotation_data.json in Root entfernt – nicht mehr benötigt

1924466 added 1 commit 2025-06-29 04:58:00 +02:00

360da3acb0 KPI_data angepasst

1924466 added 1 commit 2025-06-29 11:09:49 +02:00

6c55150e9c Deaktiviere Pre-Commit temporär

1924466 added 1 commit 2025-06-29 11:17:10 +02:00

386a2c4458 project/backend/coordinator/model/seed_data.py aktualisiert