Quelle anzeigen

Mit der robots.txt werden Bots (s.g. Crawler) von Suchmaschinen angewiesen, bestimmte Bereich oder Seiten nicht zu besuchen bzw. zu indexieren. Damit kann unter anderem auch das Crawl-Budget geschützt werden.

Weitere Informationen dazu

https://developers.google.com/search/docs/advanced/robots/intro?hl=de

Der Aufruf im Multishop ist immer

.../robots.txt

bspw.: https://multishop.ede-shop.de/robots.txt

Standardmäßig wird davon ausgegangen, dass ein User-Agent alle Seiten und Verzeichnisse crawlen darf, die nicht durch eine disallow-Regel blockiert sind.

Disallow-Regel

note

Sollten bereits Seiten in der Suchmaschine indexiert sein, welche zukünftig ausgeschlossen werden sollen, dann müssen diese zuerst aus dem Index entfernt werden. Das ist möglich indem die Noindex-Regel so lange in der robots.txt enthalten bleibt, bis die indexierten Einträge entfernt sind. Danach kann die noindex-Regel zur disallow-Regel geändert werden.

Login und Checkout-Bereiche soll kein Agent crawlen

User-agent: *
Disallow: /bestellen.php

User-agent: *
Disallow: /anmelden.php

User-agent: *
Disallow: /warenkorb.php

User-agent: *
Disallow: /administration.php

User-agent: *
Disallow: /myshop.php

Such-Resultat-Seiten soll kein Agent crawlen

User-agent: *
Disallow: /?*searchstring=

User-agent: *
Disallow: /search3.php

User-agent: *
Disallow: /suche/