Holzhammer

Seit August versuche ich diese Site aus den Indices von Gogle, Bing etc. herauszubekommen. Ich habe dabei gelernt, das noindex und Direktiven in der robots.txt witzlos sind. Daher probiere ich es jetzt mal direkt mit einem 404 für diese Crawler. Im apache2 mit aktiviertem mod_rewrite sieht das so aus:

RewriteCond %{HTTP_USER_AGENT} Google [NC,OR]   
RewriteCond %{HTTP_USER_AGENT} bing [NC,OR]   
RewriteCond %{HTTP_USER_AGENT} Baidu [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} chatgpt [NC,OR]   
RewriteCond %{HTTP_USER_AGENT} Yandex [NC]   
RewriteRule ^ - [R=404,L]

Mehr als ein „hier gibt es nichts zu sehen“ direkt in die Schnauze des Crawlers fällt mir dann aber erst mal auch nicht mehr ein.


Raus aus dem Index

Schon länger frage ich mich, warum ich mit diesem Blog noch im Index von Google oder Microsoft gelistet sein will. Zu diesem sehr persönlichen Kraut-und-Rüben-Durcheinander findet nur selten eine versprengte Seele über Google und Bing. Es bringt mir also nicht viel, denn die Besucher finden über andere Kanäle hierher, in die ich in Zukunft mehr Energie investieren werde.

Dazu kam vor einem Jahr etwas, das mich massiv ärgert: der Inhalt von scaldra.net wurde ungefragt zum Training von ChatGPT benutzt. Und heute stolperte ich über diesen Artikel über die Zukunft der Googlesuche. Damit hat die Indizierung für mich bezogen auf dieses Blog endgültig ihren Sinn verloren.

Ab jetzt sind Suchmaschinen ausgesperrt.

Nachtrag 8.11.2024

Bei Google sank die Anzahl der indizierten Seiten zunächst, jetzt steigt sie wieder. Und Bing ist völlig desinteressiert am noindex.

Jetzt probiere ich es zusätzlich mit einem Header, der mit jeder Datei geschickt wird. In der apache-conf sieht das so aus:

Header Set X-Robots-Tag "noindex, noarchive, nosnippet"Code-Sprache: Apache (apache)

Und die robots.txt ergänzt um

User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /Code-Sprache: HTTP (http)

Ich bin gespannt, ob er wirkt.