2.1 KiB
2.1 KiB
PR2_Searchengine_localhost_examplesite
Hier wird beschrieben, wie man eine lokale (kleine) Version von Wikipeadia hosted um die Indexierung der Suchmaschine zu beschleunigen.
Installiere Docker
- Installiere Docker Desktop bzw. Docker auf deiner Machine
- Teste, ob die Installation erfolgreich war mit
docker run hello-world
Download wikipedia
- Gehe zu browse.library.kiwix.org/
- Es gibt oft drei verschiedene Versionen zum Download
mini: only the introduction of each article, plus the infobox. Saves about 95% of space vs. the full version.
nopic: full articles, but no images. About 75% smaller than the full version.
maxi: the default full version.
- Ich nehme "Eine Auswahl der besten 50.000 Wikipedia-Artikel in deutscher Sprache" maxi version (~5GB) Direct Download link; BitTorrent
Starte localen server
Ersetze im anschließenden Befehl <path> mit dem richtigen Wert.
<path> = der absolute Pfad des Ordner indem die gedownloadete .zim Datei liegt bsp. /home/user/Downloads/
docker run -v /home/user/Downloads/:/data -p 8345:8080 ghcr.io/kiwix/kiwix-serve '*.zim'
Der locale Server ist unter localhost:8345 erreichbar.
Finde URL zum scrapen
Die normale URL eignet sich nicht zum scrapen, da man immer das selbe HTML bekommt. Die Normale URL: http://localhost:8345/viewer#wikipedia_de_top_mini_2026-04/index
Ersetze in der URL viewer# mit content/
Bearbeitete URL: http://localhost:8345/content/wikipedia_de_top_mini_2026-04/index
Die bearbeitet URL eignet sich zum scrapen.