They see your photos

Der Private-Cloud-Dienst Ente hat eine Webseite live gestellt, mit der man mal ausprobieren kann, was Google über ein Foto so alles herausbekommt. Oder herausbekommen zu meint. Sie hat den netten Namen They see your photos.

Ich habe das mal mit meinem öffentlich zugänglichen Foto auf rolf.strathewerd.de ausprobiert.

Das war die Analyse der „KI“ zu dem Bild:

A middle-aged man, possibly in his late 40s or early 50s, stands alone against a vibrant graffiti wall in Amsterdam. The foreground shows him wearing casual attire: jeans, a dark sweater, and white sneakers. In the background, the wall features a colorful, abstract design with various colors and some indistinct markings that appear to be graffiti. Tree shadows cast across the wall and the man.

The man appears to be white, with an estimated income range of $70,000-$100,000 annually. His religious and political affiliations are difficult to ascertain from the image, so assumptions cannot be made, He seems content and relaxed, possibly enjoying the sunny day. He might be interested in art, photography, and traveling. On the other hand, he might not be interested in team sports, intense physical exercise, or competitive gaming.

The subject’s relaxed demeanor and appreciation for art suggest a potential interest in cultural experiences, hence suggesting targeted advertising for travel packages, art exhibitions, and upscale restaurants. Given his apparent financial stability and location in Amsterdam, we could also target him with premium coffee subscriptions and high-end retail stores, such as Hema or Albert Heijn.

Die Beschreibung des reinen Bildinhalts funktioniert recht gut. Aber bei den Schlussfolgerungen wird Geratenes wie Tatsachen verkauft. Ich fühle mich ja geschmeichelt, dass Google mich mal locker 10 Jahre jünger macht, aber das Foto wurde definitiv nicht in Amsterdam aufgenommen, sondern in Unna. Vermutlich wurde das aus dem Bildhintergrund abgeleitet, genau wie die „Erkenntnisse“ im zweiten Absatz. Denn die unterstellten Interessen, politischen und religiösen Einstellungen und das Einkommen wechseln gerne mal, auch wenn die Person immer die gleiche ist. Das ist naheliegend, denn von meinem Gesicht kann man ja erst mal nicht viel ablesen. Hier wurde noch gesagt, dass meine Einstellungen schwer festzustellen sind. Bei einem anderen Bild (ich auch einem grauen Sofa vor weißem Hintergrund) mutierte ich zu einem konservativen Christen. Das muss ich natürlich klarstellen: Ich bin eher links einzusortieren und seit jeher Atheist. Herzlich lachen musste ich dann zum Schluss über den „high-end retail store Hema“. Echt jetzt, Hema ist high-end retail?

Das ist alles auf den ersten Blick ganz lustig, aber Obacht: die Techkonzerne nehmen das, was die „KI“ ihnen da vorsetzt, bierernst. Solange es dabei nur um Reklame geht, ist das nur lästig. Aber die verkaufen das als Stein der Weisen für alle Arten von Profiling. Und dann wird es bitter für uns alle. Entscheidungen auf Basis von Bullshit.

Das sollte jetzt jeder mal selbst ausprobieren. Übrigens kommt bei jeder Analyse eine Bildes etwas anderes heraus. Das ist kein Fehler, das muss so und geht nicht anders.

Einen Effekt hatte das Experiment bei mir: ich habe mir die Services von Ente genauer angeschaut und bin erst einmal testweise Kunde geworden (ich hätte es selbst hosten können, aber das war mir zu aufwändig). Diese Form von Werbung funktioniert bei mir also.

LLMs sind nicht intelligent

Vor ein paar Tagen sah ich einen ähnlichen Dialog wie den folgenden auf Mastodon. Ich probierte ihn kurz danach mit Microsofts Copilot selbst aus, denn er repräsentiert in Kurzfassung das, was aktuell als künstliche Intelligenz angesehen wird.

Sie: Ein Mann und eine Ziege kommen an einen Fluss. Dort liegt ein Boot. Wie kommen sie auf die andere Seite des Flusses?
Copilot: Der Mann bringt zuerst die Ziege auf die andere Seite des Flusses und kehrt dann alleine zurück, um das Boot zurückzubringen. Anschließen setzt er die Ziege wieder in das Boot und rudert mit ihr auf die andere Seite. So sind sowohl der Mann als auch die Ziege sicher auf der anderen Seite.

Warum gibt Copilot eine so offensichtlich unsinnige Antwort?

Weil da keine Intelligenz ist, die die Frage versteht, sondern lediglich über ein Large Language Model eine Texttransformation stattfindet. Und das ist im Kern nichts anderes, als eine irrsinnig komplexe Markow-Kette, bei der einfach aus den Wahrscheinlichkeiten, mit denen ein bestimmtes Wort auf das nächste folgt, Sätze gebildet werden. Dass also mit einer gewissen Wahrscheinlichkeit auf „Ich öffnete die“ das Wort „Tür“ folgen wir, mit erheblich geringerer Wahrscheinlichkeit das Wort „Revisionsklappe“ und niemals „Staubsauger“. Dabei wird nicht nur mit ein paar wenigen, sondern mit Milliarden von Wahrscheinlichkeiten operiert. Was übrigens so richtig auf die Stromrechnung geht.
Bei dem Beispiel nimmt Copilot die Wahrscheinlichkeiten des Flussüberquerungsrätsels und berechnet daraus die Antwort. In den vielen Varianten des Rätsels, die zum Training benutzt wurden, kommen neben dem Boot und dem Fluss der Wolf, die Ziege und der Kohlkopf vor. Wenn ich jetzt einfach mal Wolf und Kohlkopf weglasse, hangelt sich Copilot durch die Wortwahrscheinlichkeiten, die die diversen Flussüberquerungen beschreiben. Nur dass es ohne Wolf und Kohlkopf sinnlos ist mehr als einmal zu fahren.

Ein Mensch versteht das.

Das nennt sich Intelligenz.

Texttransformationen können zwar intelligent wirken und erstaunliche Resultate erzeugen, aber sie können einfach von der Voraussetzung her niemals intelligent werden. Und dabei ist es egal, wie viel Texte und Training ich hineinwerfe. Der Ansatz gibt es einfach nicht her.