main
Lukas Klipfel 2026-06-09 12:36:55 +02:00
parent 8415a8ee83
commit 9a3d15bb1c
1 changed files with 35 additions and 1 deletions

View File

@ -1,3 +1,37 @@
# PR2_Searchengine_localhost_examplesite
Hier wird beschriebn, wie man eine lokale (kleine) Version von Wikipeadia hosted um die Indexierung der Suchmaschine zu beschleunigen.
Hier wird beschrieben, wie man eine lokale (kleine) Version von Wikipeadia hosted um die Indexierung der Suchmaschine zu beschleunigen.
## Installiere Docker
1. Installiere [Docker Desktop](https://docs.docker.com/desktop/) bzw. [Docker](https://docs.docker.com/engine/) auf deiner Machine
2. Teste, ob die Installation erfolgreich war mit `docker run hello-world`
## Download wikipedia
1. Gehe zu [browse.library.kiwix.org/](https://browse.library.kiwix.org/#lang=deu&category=wikipedia)
2. Es gibt oft drei verschiedene Versionen zum Download
>>>
mini: only the introduction of each article, plus the infobox. Saves about 95% of space vs. the full version.
nopic: full articles, but no images. About 75% smaller than the full version.
maxi: the default full version.
[source: kiwix.org](https://get.kiwix.org/en/faq-items/what-do-mini-nopic-and-maxi-mean-in-the-wikipedia-zim-files/)
>>>
3. Ich nehme "Eine Auswahl der besten 50.000 Wikipedia-Artikel in deutscher Sprache" maxi version (~5GB) [Direct Download link](https://lbo.download.kiwix.org/zim/wikipedia/wikipedia_de_top_maxi_2026-04.zim); [BitTorrent](https://lbo.download.kiwix.org/zim/wikipedia/wikipedia_de_top_maxi_2026-04.zim.torrent)
## Starte localen server
Ersetze im anschließenden Befehl \<path> mit dem richtigen Wert.
\<path> = der absolute Pfad des Ordner indem die gedownloadete .zim Datei liegt bsp. /home/user/Downloads/
```
docker run -v /home/user/Downloads/:/data -p 8345:8080 ghcr.io/kiwix/kiwix-serve '*.zim'
```
Der locale Server ist unter [localhost:8345](http://localhost:8345) erreichbar.
## Finde URL zum scrapen
Die normale URL eignet sich nicht zum scrapen, da man immer das selbe HTML bekommt.
Die Normale URL: [http://localhost:8345/viewer#wikipedia_de_top_mini_2026-04/index](http://localhost:8345/viewer#wikipedia_de_top_mini_2026-04/index)
Ersetze in der URL `viewer#` mit `content/`
Bearbeitete URL: [http://localhost:8345/content/wikipedia_de_top_mini_2026-04/index](http://localhost:8345/content/wikipedia_de_top_mini_2026-04/index)
Die bearbeitet URL eignet sich zum scrapen.