They see your photos

Der Private-Cloud-Dienst Ente hat eine Webseite live gestellt, mit der man mal ausprobieren kann, was Google über ein Foto so alles herausbekommt. Oder herausbekommen zu meint. Sie hat den netten Namen They see your photos.

Ich habe das mal mit meinem öffentlich zugänglichen Foto auf rolf.strathewerd.de ausprobiert.

Das war die Analyse der „KI“ zu dem Bild:

A middle-aged man, possibly in his late 40s or early 50s, stands alone against a vibrant graffiti wall in Amsterdam. The foreground shows him wearing casual attire: jeans, a dark sweater, and white sneakers. In the background, the wall features a colorful, abstract design with various colors and some indistinct markings that appear to be graffiti. Tree shadows cast across the wall and the man.

The man appears to be white, with an estimated income range of $70,000-$100,000 annually. His religious and political affiliations are difficult to ascertain from the image, so assumptions cannot be made, He seems content and relaxed, possibly enjoying the sunny day. He might be interested in art, photography, and traveling. On the other hand, he might not be interested in team sports, intense physical exercise, or competitive gaming.

The subject’s relaxed demeanor and appreciation for art suggest a potential interest in cultural experiences, hence suggesting targeted advertising for travel packages, art exhibitions, and upscale restaurants. Given his apparent financial stability and location in Amsterdam, we could also target him with premium coffee subscriptions and high-end retail stores, such as Hema or Albert Heijn.

Die Beschreibung des reinen Bildinhalts funktioniert recht gut. Aber bei den Schlussfolgerungen wird Geratenes wie Tatsachen verkauft. Ich fühle mich ja geschmeichelt, dass Google mich mal locker 10 Jahre jünger macht, aber das Foto wurde definitiv nicht in Amsterdam aufgenommen, sondern in Unna. Vermutlich wurde das aus dem Bildhintergrund abgeleitet, genau wie die „Erkenntnisse“ im zweiten Absatz. Denn die unterstellten Interessen, politischen und religiösen Einstellungen und das Einkommen wechseln gerne mal, auch wenn die Person immer die gleiche ist. Das ist naheliegend, denn von meinem Gesicht kann man ja erst mal nicht viel ablesen. Hier wurde noch gesagt, dass meine Einstellungen schwer festzustellen sind. Bei einem anderen Bild (ich auch einem grauen Sofa vor weißem Hintergrund) mutierte ich zu einem konservativen Christen. Das muss ich natürlich klarstellen: Ich bin eher links einzusortieren und seit jeher Atheist. Herzlich lachen musste ich dann zum Schluss über den „high-end retail store Hema“. Echt jetzt, Hema ist high-end retail?

Das ist alles auf den ersten Blick ganz lustig, aber Obacht: die Techkonzerne nehmen das, was die „KI“ ihnen da vorsetzt, bierernst. Solange es dabei nur um Reklame geht, ist das nur lästig. Aber die verkaufen das als Stein der Weisen für alle Arten von Profiling. Und dann wird es bitter für uns alle. Entscheidungen auf Basis von Bullshit.

Das sollte jetzt jeder mal selbst ausprobieren. Übrigens kommt bei jeder Analyse eine Bildes etwas anderes heraus. Das ist kein Fehler, das muss so und geht nicht anders.

Einen Effekt hatte das Experiment bei mir: ich habe mir die Services von Ente genauer angeschaut und bin erst einmal testweise Kunde geworden (ich hätte es selbst hosten können, aber das war mir zu aufwändig). Diese Form von Werbung funktioniert bei mir also.

Holzhammer

Seit August versuche ich diese Site aus den Indices von Gogle, Bing etc. herauszubekommen. Ich habe dabei gelernt, das noindex und Direktiven in der robots.txt witzlos sind. Daher probiere ich es jetzt mal direkt mit einem 404 für diese Crawler. Im apache2 mit aktiviertem mod_rewrite sieht das so aus:

RewriteCond %{HTTP_USER_AGENT} Google [NC,OR]   
RewriteCond %{HTTP_USER_AGENT} bing [NC,OR]   
RewriteCond %{HTTP_USER_AGENT} Baidu [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} chatgpt [NC,OR]   
RewriteCond %{HTTP_USER_AGENT} Yandex [NC]   
RewriteRule ^ - [R=404,L]

Mehr als ein „hier gibt es nichts zu sehen“ direkt in die Schnauze des Crawlers fällt mir dann aber erst mal auch nicht mehr ein.


Raus aus dem Index

Schon länger frage ich mich, warum ich mit diesem Blog noch im Index von Google oder Microsoft gelistet sein will. Zu diesem sehr persönlichen Kraut-und-Rüben-Durcheinander findet nur selten eine versprengte Seele über Google und Bing. Es bringt mir also nicht viel, denn die Besucher finden über andere Kanäle hierher, in die ich in Zukunft mehr Energie investieren werde.

Dazu kam vor einem Jahr etwas, das mich massiv ärgert: der Inhalt von scaldra.net wurde ungefragt zum Training von ChatGPT benutzt. Und heute stolperte ich über diesen Artikel über die Zukunft der Googlesuche. Damit hat die Indizierung für mich bezogen auf dieses Blog endgültig ihren Sinn verloren.

Ab jetzt sind Suchmaschinen ausgesperrt.

Nachtrag 8.11.2024

Bei Google sank die Anzahl der indizierten Seiten zunächst, jetzt steigt sie wieder. Und Bing ist völlig desinteressiert am noindex.

Jetzt probiere ich es zusätzlich mit einem Header, der mit jeder Datei geschickt wird. In der apache-conf sieht das so aus:

Header Set X-Robots-Tag "noindex, noarchive, nosnippet"Code-Sprache: Apache (apache)

Und die robots.txt ergänzt um

User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /Code-Sprache: HTTP (http)

Ich bin gespannt, ob er wirkt.

0.0000001%

Diese Website hat zu 0.0000001% zu dem C4 AI-Traingset von Google beigetragen. Google hat mich selbstverständlich vorher nicht gefragt. Das finde ich eher doof.

Bei der Washington Post gibt es Hintergründe und die Möglichkeit, mal nach der eigenen Website zu schauen.

Viel dagegen tun kann ich nicht, aber immerhin die robots.txt um zwei Zeilen erweitern:

User-agent: GPTBot
Disallow: /Code-Sprache: HTTP (http)

Google wird sich daran halten, aber ob es die restlichen Goldgräber aus der AI-Hype-Blase es tun, bezweifele ich.

via eay

Nachtrag: Hier gibt es noch die etwas härtere Methode des Blockens für nginx und apache. Sehr schön gelöst mit einem 402 (Payment required) als Antwort.