Mit der robots.txt werden Bots (s.g. Crawler) von Suchmaschinen angewiesen, bestimmte Bereich oder Seiten nicht zu besuchen bzw. zu indexieren. Damit kann unter anderem auch das Crawl-Budget geschützt werden.
Weitere Informationen dazu
Der Aufruf im Multishop ist immer
.../robots.txt
bspw.: https://multishop.ede-shop.de/robots.txt
Standardmäßig wird davon ausgegangen, dass ein User-Agent alle Seiten und Verzeichnisse crawlen darf, die nicht durch eine |
Sollten bereits Seiten in der Suchmaschine indexiert sein, welche zukünftig ausgeschlossen werden sollen, dann müssen diese zuerst aus dem Index entfernt werden. Das ist möglich indem die Noindex
-Regel so lange in der robots.txt enthalten bleibt, bis die indexierten Einträge entfernt sind. Danach kann die noindex
-Regel zur disallow
-Regel geändert werden.
Sollten bereits Seiten in der Suchmaschine indexiert sein, welche zukünftig ausgeschlossen werden sollen, dann müssen diese zuerst aus dem Index entfernt werden. Das ist möglich indem die Noindex
-Regel so lange in der robots.txt enthalten bleibt, bis die indexierten Einträge entfernt sind. Danach kann die noindex
-Regel zur disallow
-Regel geändert werden.
Login und Checkout-Bereiche soll kein Agent crawlen
User-agent: * Disallow: /bestellen.php User-agent: * Disallow: /anmelden.php User-agent: * Disallow: /warenkorb.php User-agent: * Disallow: /administration.php User-agent: * Disallow: /myshop.php |
Such-Resultat-Seiten soll kein Agent crawlen
User-agent: * Disallow: /?*searchstring= User-agent: * Disallow: /search3.php User-agent: * Disallow: /suche/ |