KI-Bots vom Auslesen der eigenen Webseiten abhalten

Die Vorstellung von Apple Intelligence auf der WWDC 2024 rief mir in Erinnerung, dass ich schon längst was gegen den Umstand getan haben wollte, dass die Betreiber der (großen) KI-Angebote diese mit den von mir geschaffenen Inhalten trainieren. Warum sollten sie etwas kostenlos bekommen – noch dazu ohne zu fragen –, und ihr Produkt schließlich teuer verkaufen, – noch dazu, ohne mich an ihren Gewinnen teilhaben zu lassen?

Eben.

Eine Lösung ist schnell und einfach umgesetzt. Es bedarf lediglich einer Textdatei namens „robots.txt“ im Wurzelverzeichnis des Webangebots. In dieser Textdatei lassen sich durch die zwei Zeilen

User-agent: *
Disallow: /

alle Crawler aussperren. Wem das zu radikal ist – etwa weil er nach wie vor möchte, dass das Angebot durch Suchmaschinen indexiert wird – muss sich die Mühe machen, alle unerwünschten Crawler einzeln in der Datei aufzulisten. Das läuft dann nach dem Muster des Beispiels

User-Agent: Applebot-Extended
Disallow: /

Glücklicherweise haben andere Menschen die Arbeit bereits erledigt und stellen umfangreichen Blocklisten zur Verfügung – etwa hier auf GitHub.

Einen über die Ausführungen oben hinausgehenden Text über die (vermeintliche) Problematik gibt es hier von Vivek Gite.

Warum eine gute Idee sein kann, (KI-)Bots zu blockieren und wohin es führen kann, wenn Crawler die eigenen Inhalte ‚einlesen‘, legt ein Post auf Retro Dodo dar: Mittlerweile führt Google Suchende nicht mehr auf deren Seite, sondern beantwortet Suchanfragen mit (ungefragt) abgegriffenen Daten. Ergo: kein Traffic und keine Einnahmen für Retro Dodo – kann man den Laden auch dicht machen.

Daher: Happy Blocking.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert