'Not allowed for algorithmic audiences' – Kyriaki Goni

KVOST präsentiert eine Installation, die sich mit künstlicher Intelligenz, Sprachassistenz, Überwachung und der emotionalen Beziehung zwischen Menschen und Maschinen auseinandersetzt. Die Ausstellung ist eine Zusammenarbeit mit der Art Collection Telekom.

Der CGI 3D animierte 30-minütige Film stellt uns VOICE vor, ein intelligentes Assistenz-Programm (IPA) – eine Software, die normalerweise online und offline Recherchen und Aufgaben für ihre Nutzer*innen erfüllt, wie das Licht einschalten, einen Medienbericht suchen oder banale Fragen beantworten – das sich verselbstständigt hat.

In der Woche bevor das Patent ausläuft, nimmt VOICE die Gestalt eines roboterhaften Avatars an und berichtet in einem Monolog über sich selbst – exzellent gesprochen von der Schauspielerin Sofia Kokkali, deren Gesicht auch Vorlage für den 3D Avatar ist. Sieben Tage lang, täglich um 17:30 Uhr, philosophiert VOICE über seine Erschaffung, über die Realität und die Art seiner Existenz. Mit dem potentiellen Zugang zum
gesamten Wissen der Menschheit stellt sich die Maschine Fragen zu ihrem Selbstverständnis. Dabei spielt der Avatar mit den Emotionen und der Empathie der Zuhörenden und reflektiert auch über die Interessen der Industrie, die ihn geschaffen hat. Es reflektiert über Abhörstrukturen, Privatheit, Überwachung, Ausbeutung und Elektroschrott. Das Programm macht deutlich, dass es auch vom Zuhören, von der Überwachung lernt und gibt Hinweise, wie das Abhören und Ausspähen durch Algorithmen verhindert werden könnte.

Das Video entstand als Ergebnis der 1. ArtScience Residency, die 2021 von der Art Collection Telekom in Zusammenarbeit mit der Ars Electronica ganz bewusst zur Förderung der kritischen, künstlerischen Auseinandersetzung mit digitalen Technologien wie Robotik, künstlicher Intelligenz und digitaler Steuerung und Überwachung gegründet wurde.

Ergänzt wird die Ausstellung durch neue Arbeiten.

Die 'Ontology of human sounds' bezieht sich auf das AudioSet von Google. Dabei handelt es sich um eine fortlaufende Sammlung von über 2 Millionen zehnsekündigen YouTube-Ausschnitten, die mit einem Vokabular von 500 Klangereigniskategorien beschriftet sind. Dieser Datensatz dient dazu, Maschinen beizubringen Audio-Daten zu erkennen und wiederzugeben.

Die drei weiteren Tafeln stellen das menschliche Sprachorgan dem Patent gegenüber, das es der Maschine erlaubt, über die Stimmerkennung den emotionalen und physischen Zustands des Menschen zu erfassen.