From 9a3d15bb1c2d4717e8d45014cd1e4258b0f53a66 Mon Sep 17 00:00:00 2001 From: 3029257 <3029257@stud.hs-mannheim.de> Date: Tue, 9 Jun 2026 12:36:55 +0200 Subject: [PATCH] v1.0 --- README.md | 36 +++++++++++++++++++++++++++++++++++- 1 file changed, 35 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index d908ac4..b3b7de0 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,37 @@ # PR2_Searchengine_localhost_examplesite -Hier wird beschriebn, wie man eine lokale (kleine) Version von Wikipeadia hosted um die Indexierung der Suchmaschine zu beschleunigen. \ No newline at end of file +Hier wird beschrieben, wie man eine lokale (kleine) Version von Wikipeadia hosted um die Indexierung der Suchmaschine zu beschleunigen. +## Installiere Docker +1. Installiere [Docker Desktop](https://docs.docker.com/desktop/) bzw. [Docker](https://docs.docker.com/engine/) auf deiner Machine +2. Teste, ob die Installation erfolgreich war mit `docker run hello-world` + +## Download wikipedia +1. Gehe zu [browse.library.kiwix.org/](https://browse.library.kiwix.org/#lang=deu&category=wikipedia) +2. Es gibt oft drei verschiedene Versionen zum Download +>>> + mini: only the introduction of each article, plus the infobox. Saves about 95% of space vs. the full version. + nopic: full articles, but no images. About 75% smaller than the full version. + maxi: the default full version. +[source: kiwix.org](https://get.kiwix.org/en/faq-items/what-do-mini-nopic-and-maxi-mean-in-the-wikipedia-zim-files/) +>>> +3. Ich nehme "Eine Auswahl der besten 50.000 Wikipedia-Artikel in deutscher Sprache" maxi version (~5GB) [Direct Download link](https://lbo.download.kiwix.org/zim/wikipedia/wikipedia_de_top_maxi_2026-04.zim); [BitTorrent](https://lbo.download.kiwix.org/zim/wikipedia/wikipedia_de_top_maxi_2026-04.zim.torrent) + +## Starte localen server +Ersetze im anschließenden Befehl \ mit dem richtigen Wert. + +\ = der absolute Pfad des Ordner indem die gedownloadete .zim Datei liegt bsp. /home/user/Downloads/ + +``` +docker run -v /home/user/Downloads/:/data -p 8345:8080 ghcr.io/kiwix/kiwix-serve '*.zim' +``` +Der locale Server ist unter [localhost:8345](http://localhost:8345) erreichbar. + +## Finde URL zum scrapen +Die normale URL eignet sich nicht zum scrapen, da man immer das selbe HTML bekommt. +Die Normale URL: [http://localhost:8345/viewer#wikipedia_de_top_mini_2026-04/index](http://localhost:8345/viewer#wikipedia_de_top_mini_2026-04/index) + +Ersetze in der URL `viewer#` mit `content/` + +Bearbeitete URL: [http://localhost:8345/content/wikipedia_de_top_mini_2026-04/index](http://localhost:8345/content/wikipedia_de_top_mini_2026-04/index) + +Die bearbeitet URL eignet sich zum scrapen. \ No newline at end of file